Продукт быстро вызвал ажиотаж во вьетнамском научно-техническом сообществе.
Выберите трудный путь решения вьетнамских проблем
В конце 2022 года ChatGPT произведет «большой взрыв», открыв гонку за завоевание искусственного ИИ среди стран и гигантов в сфере технологий. В то время вьетнамское технологическое сообщество также стремилось разрабатывать вьетнамские продукты, чтобы стать технологически независимыми и снизить зависимость от международных продуктов. Однако не каждое подразделение обладает способностью и решимостью реализовать это желание, как VinBigdata.
«Генеративный ИИ — сложная проблема. Крупным компаниям, таким как OpenAI или Google, также приходится тратить много ресурсов и времени на исследования, чтобы иметь возможность создавать продукты, подобные тем, что мы видим. Эти продукты очень хороши, но на самом деле ученые до сих пор не до конца понимают механизм их работы. Когда в нем возникают ошибки и какими они будут, мало кто может предсказать. Разработать продукт, аналогичный ChatGPT для вьетнамцев, за короткий срок, менее года, — это сложная задача. Но мы решили «рискнуть», потому что если вьетнамская версия ChatGPT не будет создана вьетнамцами, то кто ее сделает?» - поделился профессор Ву Ха Ван, научный директор VinBigdata.
На самом деле, очень немногие компании решают создать свою собственную Большую языковую модель с нуля. Например, GPT 3 от OpenAI имеет 175 миллиардов параметров и был обучен на 45-терабайтном наборе данных, а его стоимость составила 4,6 миллиона долларов. По расчетам, сумма денег на разработку GPT 4 может составить до 100 миллионов долларов США. «При таких огромных цифрах трудно найти компанию, которая может позволить себе инвестировать в эту технологию», — сказал доктор Нгуен Ким Ань, директор по продукту VinBigdata.
Чтобы вьетнамские предприятия получили доступ к технологиям искусственного интеллекта нового поколения с оптимальными затратами и инфраструктурой, VinBigdata выбрала совершенно иное направление, а именно создание языковой модели, содержащей всего 1,6 миллиарда параметров, но с возможностями, эквивалентными большим языковым моделям с миллиардами параметров. «Результаты показывают, что с помощью архитектуры, разработанной самой VinBigdata, вполне возможно оптимизировать и ускорить процесс обучения языковой модели, сократить расходы на инфраструктуру (включая расходы на обучение и расходы на использование), но при этом обеспечить качество модели», — добавил д-р Нгуен Ким Ань.
Решив проблему большого размера языковой модели, в процессе «замысла» ViGPT, после изучения иностранных моделей, команда VinBigdata также осознала еще одну проблему: «иллюзию», исходящую из внутренней природы статистических вероятностных моделей.
Соответственно, крупнейшие в мире языковые модели часто обучаются с использованием источников данных на английском языке. Таким образом, эта модель на самом деле не понимает и не отвечает должным образом контексту и культуре вьетнамского народа. Это приводит к галлюцинации, которая заставляет большую языковую модель «фабриковать» неверные ответы.
Чтобы найти оптимальное решение в кратчайшие сроки, команда VinBigdata по обработке естественного языка (NLP) разделилась на небольшие группы, которые анализировали и обсуждали различные идеи, чтобы найти наиболее подходящее окончательное направление.
«В конце концов мы решили разработать архитектуру, отличную от большинства современных крупных языковых моделей, и провести обучение на 600 ГБ точно настроенного набора вьетнамских данных, чтобы создать «интеллектуального виртуального помощника», способного понимать и давать ответы в соответствии с контекстом вьетнамского народа», — добавил доктор Нгуен Ким Ань.
Стремление к вьетнамской технологической экосистеме
По результатам оценки по Стандартам оценки уровня владения вьетнамским языком (VMLU), ViGPT набрал средний балл 42,24%, уступая только ChatGPT (48,54%). Этот результат позволяет ViGPT быстро искать информацию и отвечать на вопросы по конкретным темам, характерным для Вьетнама.
Помимо возможностей виртуального помощника, команда разработчиков хочет интегрировать ViGPT в привычные, ежедневно используемые продукты, чтобы изменить жизнь вьетнамцев. Именно эта мотивация побуждает команду VinBigdata создавать экосистему языковых и голосовых продуктов с применением ViGPT — экосистему «Vi», включающую: ViChat, ViVoice, ViVi Virtual Assistant. Эти продукты могут использоваться во многих отраслях: от автомобильной промышленности, банковского дела и финансов до страхования, транспорта и многих других.
«Работая с технологиями, особенно с ИИ, мы не просто хотим покорять интересные, сложные системы, которые трудно увидеть. Мы хотим создавать осязаемые, высокоприменимые продукты, где ИИ является непосредственным агентом, который вносит изменения в жизнь», — утверждает директор по продуктам VinBigdata.
Таким образом, успешная разработка ViGPT — это лишь первый шаг на пути внедрения «чисто вьетнамских» технологий и данных на благо миллионов вьетнамцев. Представитель VinBigdata сообщил, что целью данного подразделения является интеграция ViGPT в мультикогнитивную платформу искусственного интеллекта VinBase 2.0 с целью предоставления выдающихся решений для организационных систем и предприятий различных размеров и отраслей.
До ViGPT команда экспертов и инженеров в области технологий обработки языка и речи VinBigdata отличилась запуском ViVi — первого всеобъемлющего вьетнамского виртуального помощника (применяется и развертывается на электромобилях VinFast, приложениях Vinhomes Resident и платформе электронной коммерции Vinhomes Online), при этом полностью освоив самые передовые технологии в мире, такие как голосовая биометрия или клонирование голоса.
Все эти технологии разработаны на основе базы данных объемом 3500 терабайт, ориентированной в основном на данные по Вьетнаму, собранные, проанализированные и уточненные VinBigdata. Конечная цель — привнести мировые технологии в жизнь вьетнамцев, используя вьетнамские системы данных и знаний.
ViGPT — это первая «вьетнамская версия ChatGPT» для конечных пользователей, созданная на основе вьетнамской большой языковой модели (LLM), разработанной VinBigdata. ViGPT обладает выдающимися функциями и разработан для максимального удовлетворения потребностей вьетнамских пользователей, таких как создание контента, поиск информации и ответы на распространенные вопросы, типичные для Вьетнама. Зарегистрируйтесь и испытайте ViGPT на сайте: vigpt.vinbigdata.com |
Тхань Ха
Источник
Комментарий (0)