Продукт быстро вызвал ажиотаж во вьетнамском научном и технологическом сообществе.

Выбор трудного пути решения вьетнамских проблем

В конце 2022 года ChatGPT произведет «большой взрыв», открыв гонку за завоевание искусственного ИИ среди стран и гигантов в сфере технологий. В то время вьетнамское технологическое сообщество также стремилось разрабатывать вьетнамские продукты, чтобы стать технологически независимыми и снизить зависимость от международных продуктов. Однако не каждое подразделение обладает способностью и решимостью реализовать это желание, как VinBigdata.

«Генеративный ИИ — сложная проблема. Крупным компаниям, таким как OpenAI или Google, также приходится вкладывать много ресурсов и времени в исследования, чтобы иметь возможность создавать такие продукты, которые мы видим. Эти продукты великолепны, но ученые до сих пор не до конца понимают, как они работают. Когда произойдет сбой и в чем будет заключаться его суть, предсказать трудно. Чтобы разработать продукт, аналогичный ChatGPT для вьетнамцев, менее чем за год, необходимо решить множество проблем. Но мы решили «рискнуть», потому что если не вьетнамцы сделают вьетнамскую версию ChatGPT, то кто это сделает?» - Профессор. Ву Ха Ван — научный директор VinBigdata поделился.

На самом деле, очень немногие компании решают создать свою собственную Большую языковую модель с нуля. Например, GPT 3 от OpenAI имеет 175 миллиардов параметров и был обучен на 45-терабайтном наборе данных, а его стоимость составила 4,6 миллиона долларов. По расчетам, сумма денег на разработку GPT 4 может составить до 100 миллионов долларов США. «При таких огромных цифрах трудно найти компанию, которая может позволить себе инвестировать в эту технологию», — сказал д-р. сказал Нгуен Ким Ань, директор по продукту VinBigdata.

картинка 1.jpg

Чтобы вьетнамские предприятия получили доступ к технологии искусственного интеллекта нового поколения с оптимальными затратами и инфраструктурой, VinBigdata выбрала совершенно иное направление, а именно создание языковой модели всего с 1,6 миллиардами параметров, но с возможностями, эквивалентными большим языковым моделям с миллиардами параметров. «Результаты показывают, что с архитектурой, разработанной самой VinBigdata, вполне возможно оптимизировать и ускорить процесс обучения языковой модели, сократить затраты на инфраструктуру (включая затраты на обучение и использование), но при этом обеспечить качество модели», — д-р. добавил Нгуен Ким Ань.

Решив проблему большого размера языковой модели, в процессе «замысла» ViGPT, после изучения иностранных моделей, команда VinBigdata также осознала еще одну проблему: «иллюзию», исходящую из внутренней природы статистических вероятностных моделей.

Соответственно, крупнейшие в мире языковые модели часто обучаются с использованием источников данных на английском языке. Таким образом, эта модель на самом деле не понимает и не отвечает должным образом контексту и культуре вьетнамского народа. Это приводит к галлюцинации, которая заставляет большую языковую модель «фабриковать» неверные ответы.

картинка 3.jpg

Чтобы найти оптимальное решение в кратчайшие сроки, команда VinBigdata по обработке естественного языка (NLP) разделилась на небольшие группы, которые анализировали и обсуждали различные идеи, чтобы найти наиболее подходящее окончательное направление.

«В конце концов мы решили разработать архитектуру, отличную от большинства современных крупных языковых моделей, и провести обучение на 600 ГБ точно настроенного набора вьетнамских данных, чтобы создать «интеллектуального виртуального помощника», способного понимать и давать ответы в соответствии с контекстом вьетнамского народа», — сказал д-р. добавил Нгуен Ким Ань.

Стремление к вьетнамской технологической экосистеме

По результатам оценки по Стандартам оценки уровня владения вьетнамским языком (VMLU), ViGPT набрал средний балл 42,24%, уступая только ChatGPT (48,54%). Этот результат позволяет ViGPT быстро искать информацию и отвечать на вопросы по конкретным темам, касающимся Вьетнама.

Помимо возможностей виртуального помощника, команда разработчиков хочет интегрировать ViGPT в привычные, ежедневно используемые продукты, чтобы изменить жизнь вьетнамцев. Именно эта мотивация побуждает команду VinBigdata создавать экосистему языковых и голосовых продуктов с применением ViGPT — экосистему «Vi», включающую: ViChat, ViVoice, ViVi Virtual Assistant. Эти продукты могут использоваться во многих отраслях: от автомобильной промышленности, банковского дела и финансов до страхования, транспорта и многих других.

«Занимаясь технологиями, особенно искусственным интеллектом, мы не просто хотим покорить интересные, сложные системы, которые трудно увидеть. «Мы хотим создавать ощутимые, широко применяемые продукты, в которых ИИ будет непосредственным посредником в создании изменений в жизни», — подтвердил директор по продуктам VinBigdata.

изображение 4.jpg

Таким образом, успешная разработка ViGPT — это лишь первый шаг на пути внедрения «чисто вьетнамских» технологий и данных на благо миллионов вьетнамцев. Представитель VinBigdata сообщил, что целью данного подразделения является интеграция ViGPT в мультикогнитивную платформу искусственного интеллекта VinBase 2.0 с целью предоставления выдающихся решений для организационных систем и предприятий различных размеров и отраслей.

До ViGPT команда экспертов и инженеров в области технологий обработки языка и речи VinBigdata отличилась запуском ViVi — первого всеобъемлющего вьетнамского виртуального помощника (применяется и развертывается на электромобилях VinFast, приложениях Vinhomes Resident и платформе электронной коммерции Vinhomes Online), при этом полностью освоив самые передовые технологии в мире, такие как голосовая биометрия или клонирование голоса.

Все эти технологии разработаны на основе базы данных объемом 3500 терабайт, ориентированной в основном на данные по Вьетнаму, собранные, проанализированные и уточненные VinBigdata. Конечная цель — привнести мировые технологии в жизнь вьетнамцев, используя вьетнамские системы данных и знаний.

ViGPT — это первая «вьетнамская версия ChatGPT» для конечных пользователей, созданная на основе вьетнамской большой языковой модели (LLM), разработанной VinBigdata. ViGPT обладает выдающимися функциями и разработан для наилучшего удовлетворения потребностей вьетнамцев, таких как создание контента, поиск информации и ответы на распространенные вопросы, типичные для Вьетнама. Зарегистрируйтесь и испытайте ViGPT на сайте: vigpt.vinbigdata.com

Тхань Ха