От генерального директора OpenAI Сэма Альтмана до ученого Google Эндрю Ына — самые блестящие умы мира в области искусственного интеллекта высоко оценили подход DeepSeek к открытому исходному коду после того, как китайский стартап запустил две передовые модели искусственного интеллекта.

Компания из Ханчжоу поразила мировую индустрию искусственного интеллекта своей моделью рассуждений с открытым исходным кодом R1.

Модель, выпущенная 20 января, демонстрирует производительность, сопоставимую с моделями с закрытым исходным кодом от OpenAI (разработчика ChatGPT), но, как утверждается, затраты на обучение значительно ниже.

deepseek wsj
Разработанный DeepSeek чат-бот на основе искусственного интеллекта скачали миллионы раз по всему миру. Фото: WSJ

По данным DeepSeek, DeepSeek V3 — основополагающая большая языковая модель — была выпущена несколько недель назад, и ее обучение обошлось всего в 5,5 млн долларов.

Заявление компании вызвало вопросы о том, не тратят ли технологические компании слишком много средств на графические чипы (GPU) для обучения искусственного интеллекта, что привело к распродаже акций соответствующих технологических компаний.

На прошлой неделе в рубрике «Спроси меня о чём угодно» на Reddit Альтман утверждал, что OpenAI ошибается и необходимо найти другой подход к открытому исходному коду.

Компания всегда придерживалась закрытого подхода, сохраняя в секрете такие детали, как конкретные методы обучения и энергозатраты своих моделей.

«Тем не менее, не все в OpenAI разделяют эту точку зрения», и «это не является нашим главным приоритетом на данный момент», — признал генеральный директор OpenAI.

Эндрю Нг, основатель Google Brain и бывший главный научный сотрудник Baidu, заявил, что продукты DeepSeek и ее коллег показывают, что Китай быстро догоняет США в области искусственного интеллекта.

«Когда ChatGPT был запущен в ноябре 2022 года, США значительно опережали Китай в области генеративного ИИ... но на самом деле этот разрыв стремительно сокращался за последние два года», — написал он в X. «С моделями из Китая, такими как Qwen, Кими, InternVL и DeepSeek, Китай явно сокращает разрыв, а в таких областях, как создание видео, были времена, когда Китай, казалось, был впереди».

Модель Qwen была разработана Alibaba, а Kimi и InternVL являются продуктами стартапа Moonshot AI и Shanghai AI Lab.

По словам г-на Нг, если США продолжат блокировать открытый исходный код, Китай будет доминировать в этой части цепочки поставок, и многие предприятия в конечном итоге примут модели, которые больше отражают китайские ценности, чем американские.

Ряд американских компаний планируют применить модель DeepSeek к своей продукции. Например, пользователи сервиса NIM компании Nvidia получили доступ к модели R1 с прошлой недели, а Microsoft также поддерживает R1 на своей облачной платформе Azure и GitHub. Amazon позволяет клиентам создавать приложения с использованием R1 через AWS.

Однако некоторые эксперты также утверждают, что успех DeepSeek не следует преувеличивать. Главный специалист по искусственному интеллекту компании Meta Ян Лекун считает, что идея о том, что «Китай превзойдет США в области искусственного интеллекта» благодаря DeepSeek, ошибочна.

Напротив, «модели с открытым исходным кодом превосходят проприетарные модели», — написал он в Threads.

DeepSeek — стартап, созданный в мае 2023 года на базе хедж-фонда High-Flyer его основателя Ляна Вэньфэна, — по-прежнему сталкивается со скептицизмом относительно его реальных затрат и методов обучения моделей ИИ.

Профессор компьютерных наук Университета Фудань Чжэн Сяоцин отметил, что в стоимость обучения DeepSeek V3 не входят расходы, связанные с тестированием и исследованиями, говорится в техническом отчете стартапа.

По его словам, успех DeepSeek обусловлен «технической оптимизацией», поэтому он не оказывает существенного влияния на закупку или поставки чипов.

(По данным SCMP)