Как Китай создал DeepSeek и потряс мир

В конце января компания DeepSeek произвела фурор в мировом технологическом секторе, выпустив две модели LLM, которые не уступают американским продуктам, но стоят в разы дешевле. Среди них — модель рассуждений с открытым исходным кодом DeepSeek-R1, способная решать некоторые из тех же научных задач, что и o1 — самая продвинутая модель LLM от OpenAI.

В то время как весь мир был удивлен, китайские исследователи заявили, что это достижение было вполне предсказуемым и соответствовало амбициям Пекина стать ведущей державой в области искусственного интеллекта (ИИ).

Юнджи Чэнь, специалист по информатике из Института компьютерных наук Китайской академии наук, отмечает, что рано или поздно в Китае появится такая компания, как DeepSeek.

Это связано с огромным объемом инвестиций в компании, занимающиеся разработкой программ LLM, и большим количеством людей, имеющих докторскую степень в области STEM (естественные науки, технологии, инженерия или математика).

«Если бы не было DeepSeek, были бы другие китайские LLM», — сказал Чэнь.

Это доказанный факт. Спустя несколько дней после «землетрясения» DeepSeek компания Alibaba выпустила свой самый передовой на сегодняшний день LLM — Qwen2.5-Max, который, по ее словам, превосходит DeepSeek-V3.

Moonshot AI и ByteDance также анонсировали новые модели вывода Kimi 1.5 и 1.5-pro, которые могут превзойти o1 в некоторых тестах производительности.

Приоритеты правительства

В 2017 году правительство Китая объявило о намерении стать мировым лидером в области ИИ к 2030 году. Китай намерен завершить крупные прорывы в области ИИ , «чтобы технологии и приложения достигли мирового уровня» к 2025 году.

Для этого первоочередной задачей является разработка системы управления талантами на основе ИИ. Согласно отчету Центра безопасности и новых технологий (CSET) Джорджтаунского университета, к 2022 году Министерство образования Китая разрешит 440 университетам предлагать специальности в области искусственного интеллекта.

По данным консалтинговой компании MacroPolo, в том же году на Китай пришлась половина ведущих исследователей в области ИИ, тогда как на США пришлось всего 18%.

deepseek блумберг — DeepSeek удивляет серией крупных, недорогих и высокопроизводительных языковых моделей. Фото: Блумберг

Марина Чжан, исследователь в области политических наук из Сиднейского технологического университета, заявила, что DeepSeek, вероятно, извлек выгоду из государственных инвестиций в обучение и развитие талантов в области ИИ, включая многочисленные стипендии, исследовательские гранты и партнерские отношения между академическими кругами и промышленностью.

Например, такие поддерживаемые государством инициативы, как Национальная инженерная лаборатория технологий и приложений глубокого обучения, подготовили тысячи экспертов в области ИИ.

Трудно найти точные данные о численности персонала DeepSeek, но основатель компании Лян Вэньфэн утверждает, что компания набирает выпускников и аспирантов крупнейших университетов страны.

Чжан отметил, что некоторым членам руководящей команды еще нет 35 лет, и они выросли на фоне становления Китая как технологической сверхдержавы. «Их глубоко мотивирует уверенность в собственных силах в инновациях».

39-летний Вэньфэн окончил Чжэцзянский университет по специальности «компьютерные науки». Почти десять лет назад он стал соучредителем хедж-фонда High-Flyer, а в 2023 году основал DeepSeek.

По словам Джейкоба Фелдгойза, изучающего таланты в области ИИ в Китае в CSET, национальная политика, способствующая созданию образцовой экосистемы для ИИ, поможет таким компаниям, как DeepSeek, привлекать как финансирование, так и людей.

Однако, несмотря на рост числа курсов по ИИ в университетах, Фелдгойз не знает, сколько студентов заканчивают обучение по специальности «ИИ» и обучаются ли они навыкам, необходимым компаниям.

В последние годы китайские компании, занимающиеся разработкой искусственного интеллекта, жаловались на то, что выпускники этих программ не соответствуют их ожиданиям, что побудило некоторые из них сотрудничать с университетами для повышения качества.

«Закалка»

По словам ученых, наиболее впечатляющим элементом успеха DeepSeek, пожалуй, является то, что они разработали DeepSeek-R1 и Janus-Pro-7B в условиях экспортного контроля правительства США, который блокирует доступ к передовым вычислительным чипам ИИ с 2022 года.

По словам Чжана, DeepSeek представляет собой ярко выраженный китайский подход к инновациям, подчеркивающий эффективность в условиях множества ограничений.

Стартап Вэньфэна утверждает, что для обучения DeepSeek-V3 использовал около 2000 чипов Nvidia H800. Напротив, Llama 3.1 405B, сложная LLM, выпущенная Meta в июле 2024 года, основана на более чем 16 000 чипах Nvidia H100.

9x талантов привлекают особое внимание премьер-министра Китая Ли Цяна

В сообщении WeChat от 2022 года компания High-Flyer сообщила, что у нее есть 10 000 старых чипов Nvidia A100. «Проблема, с которой мы сталкиваемся, никогда не была связана с деньгами, а с запретом на высокопроизводительные чипы», — заявил Вэньфэн китайским СМИ в июле 2024 года.

DeepSeek использует различные способы повышения эффективности своих моделей. Например, он реализует архитектуру «Смесь экспертов» (MoE) — подход к машинному обучению, который обучает модели быстрее с меньшим количеством параметров, чем традиционные методы.

По словам Чан Сюй, специалиста по информатике из Сиднейского университета, это помогает DeepSeek обучать модели с меньшим количеством чипов.

Другой метод — многоголовое скрытое внимание (MLA), которое позволяет модели хранить больше данных с меньшим объемом памяти.

По словам Янбо Вана, исследователя в области политических наук из Университета Гонконга, достижения DeepSeek могут стать «ориентиром» для стран, стремящихся к внедрению искусственного интеллекта, но не имеющих финансовых и аппаратных ресурсов для массового обучения магистров права.

(По данным Природы, Фортуны)

Источник: https://vietnamnet.vn/cach-trung-quoc-tao-ra-deepseek-va-rung-chuyen-the-gioi-2391114.html