Ant Group Джека Ма выходит на китайский рынок недорогих решений ИИ. Фото: Bloomberg . |
По данным Bloomberg , компания Ant Group, поддерживаемая миллиардером Джеком Ма, разрабатывает технологию, которая может сократить расходы на обучение для ее технологии искусственного интеллекта на 20% с использованием полупроводниковых чипов, поставляемых из Китая.
Компания использует чипы, приобретенные у Alibaba и Huawei, а также применяет метод машинного обучения Mixture of Experts, используемый в DeepSeek R1, для обучения своего искусственного интеллекта.
Несмотря на сокращение расходов, результаты Ant Group сопоставимы с результатами компаний, занимающихся ИИ, использующих самые мощные на сегодняшний день чипы, такие как H800 от Nvidia.
Для своих последних моделей ИИ компания в первую очередь использует и постепенно переходит на альтернативные чипы от AMD и китайских производителей.
Благодаря высокопроизводительному программному обеспечению Ant Group потратила до 6,35 млн юаней ( 880 000 долларов США ) на обучение 1 000 млрд токенов. Однако благодаря методу оптимизации эта цифра снизилась до 5,1 млн юаней. Токены — это единицы информации, которые модель использует для изучения мира и предоставления полезных ответов.
Это знаменует собой вступление Ant во все более ускоряющуюся гонку искусственного интеллекта между Китаем и США, поскольку DeepSeek показал, что на обучение моделей можно потратить гораздо меньше миллиардов долларов, чем OpenAI или Google.
H800 от Nvidia, хоть и не самый передовой чип, все же является мощным процессором и запрещен к экспорту в Китай в США. Поэтому китайские компании изо всех сил пытаются найти альтернативы, чтобы остаться впереди в гонке.
Ранее Ant Group опубликовала исследование, в котором утверждалось, что ее модели иногда превосходят модели Meta Platforms по определенным оценочным показателям. Если эти модели верны, они станут качественным скачком для китайского искусственного интеллекта и значительно сократят затраты на разработку.
Это достижение стало возможным благодаря методу машинного обучения MoE компании DeepSeek, который помогает повысить производительность и сократить вычислительные затраты. В частности, этот метод помогает моделям ИИ разбить проблему на части и активировать лишь небольшую часть данных, достаточную для решения задач.
Однако для обучения моделей MoE по-прежнему требуются высокопроизводительные чипы, такие как графические процессоры (GPU), предоставляемые Nvidia. Из названия исследовательской работы Ant «Разработка моделей MoE без высокопроизводительных графических процессоров» следует, что компания пытается преодолеть вышеуказанный барьер.
Это противоречит стратегии Nvidia. Генеральный директор компании Дженсен Хуан утверждает, что спрос на вычислительные мощности будет продолжать расти даже по мере появления более эффективных моделей, таких как DeepSeek R1.
Он считает, что компаниям понадобятся более мощные чипы для дальнейшего роста доходов, а не более дешевые для сокращения расходов. Поэтому Nvidia придерживается своей стратегии разработки графических процессоров с большим количеством вычислительных ядер, транзисторов и более высоким объемом памяти.
Тем временем Ant планирует использовать последние достижения в области разработанных ею крупных языковых моделей, включая Ling-Plus и Ling-Lite, для предоставления решений на основе искусственного интеллекта для таких отраслей, как здравоохранение и финансы.
В 2025 году компания приобрела китайскую онлайн-платформу Haodf.com для продвижения своих услуг на базе искусственного интеллекта в секторе здравоохранения, а также владеет приложением-помощником на основе ИИ Zhixiaobao и сервисом финансового консалтинга на основе ИИ Maxiaocai.
В своей статье Ант утверждает, что Ling-Lite превзошла одну из моделей Llama компании Meta по ключевому показателю понимания английского языка.
И Ling-Lite, и Ling-Plus превзошли эквивалентные модели DeepSeek на тестах по китайскому языку.
Модели Линга также стали общедоступными. Ling-Lite имеет 16,8 миллиардов параметров, Ling-Plus — 290 миллиардов, что считается довольно большим числом в области языкового моделирования по сравнению с 1800 миллиардами параметров у ChatGPT GPT-4.5 и 671 у DeepSeek R1.
Однако во время тренировок у Анта возникли некоторые проблемы с устойчивостью. Компания заявила, что даже небольшие изменения в аппаратном обеспечении или структуре модели могут привести к резкому увеличению уровня ошибок модели.
Источник: https://znews.vn/cong-ty-cua-jack-ma-lai-gay-chu-y-post1540514.html
Комментарий (0)