В январе китайский стартап DeepSeek запустил свою модель логического вывода R1 с открытым исходным кодом. Компания утверждает, что большая языковая модель, лежащая в основе R1, была разработана с использованием менее мощных чипов и по гораздо более низкой цене, чем западные модели ИИ.

Инвесторы отреагировали на эту новость, сбросив акции Nvidia и других технологических компаний, в результате чего Nvidia потеряла 600 миллиардов долларов рыночной капитализации всего за один день. Однако крупнейшая в мире компания по производству полупроводников теперь вернула большую часть своих потерь.

deepseek блумберг
Большие языковые модели DeepSeek разрабатываются с использованием гораздо более слабых и дешевых чипов, чем западные модели. Фото: Блумберг

В своем последнем видео Дженсен Хуанг утверждает, что экстремальная реакция рынка вызвана тем, что инвесторы неверно истолковывают прогресс DeepSeek.

Они задаются вопросом, нужны ли триллионы долларов, которые крупные технологические компании тратят на инфраструктуру ИИ, если для обучения моделей требуется меньше вычислительной мощности.

Однако г-н Хуан отметил, что отрасль по-прежнему нуждается в вычислительной мощности для методов постобучения, которые позволяют моделям ИИ делать выводы или прогнозы после обучения.

По мере того, как методы постобучения становятся более разнообразными и совершенными, растет и спрос на вычислительную мощность, которую предоставляют чипы Nvidia.

По словам генерального директора Nvidia, инвесторы считают, что в мире есть только предварительное обучение и вывод (когда ИИ задают вопрос и сразу получают ответ), но постобучение — самая важная часть ИИ. Именно там он учится решать специализированные задачи.

Тем не менее, г-н Хуан не отрицает, что DeepSeek «влил» больше энергии в мир ИИ. Генеральный директор AMD Лиза Су также отметила в интервью в начале этого месяца, что DeepSeek внедряет инновации, которые «хорошо подходят для приложений ИИ».

Термин «предварительное обучение» относится к начальному этапу обучения большой языковой модели (LLM), на котором модель обучается на большом разнообразном наборе данных, обычно до нескольких триллионов токенов.

Цель здесь — помочь модели получить общее представление о языке, контексте и распространенных типах знаний. Этот этап часто требует огромных вычислительных мощностей и данных, что обходится в сотни миллионов долларов.

Термин «пост-обучение» или «тонкая настройка» означает, что вы берете ранее обученную модель, а затем обучаете ее снова с более конкретным набором данных. Эти наборы данных обычно меньше и ориентированы на определенную область или задачу.

Его цель — настроить модель для более эффективной работы в определенных сценариях и задачах, которые не были подробно рассмотрены во время предварительного обучения. Новые знания, добавленные в ходе последующего обучения, улучшат эффективность модели больше, чем расширение общих знаний.

(По данным Insider, Reddit)