Pho GPT (Pho — Generative Pre-trained Transformer) — это крупный проект языковой модели, посвященный вьетнамскому языку, реализованный инженерной группой VinAI, входящей в корпорацию Vingroup.
«Догнать» мировые технологии
Pho GPT использует открытый исходный код вместо проприетарного программного обеспечения, такого как ChatGPT от OpenAI. Это означает, что исходный код Pho GPT является общедоступным, и пользователи могут вносить свой вклад в разработку Pho GPT с помощью пользовательских приложений.
Согласно представлению VinAI, Pho GPT имеет 7,5 миллиардов параметров и построен на платформе декодирования Transformer. Эта модель обучается с нуля с использованием современных методов, таких как Flash Attention и экстраполяция длины контекста AliBi.
Эти методы не только помогают Pho GPT глубже понимать контекст, но и повышают способность приложения вести диалог и взаимодействовать естественным образом во время использования. Это делает модель универсальным и многозадачным инструментом, способным удовлетворить широкий спектр языковых потребностей пользователей.
Г-н Буй Хай Хунг, генеральный директор VinAI. |
Рассказывая о значимости появления Pho GPT, г-н Буй Хай Хунг, генеральный директор VinAI, сказал, что целью проекта является разработка моделей, аналогичных ChatGPT для вьетнамского языка и вьетнамской культуры. Pho GPT способен понимать и писать тексты на вьетнамском языке, превосходя языковые технологии предыдущего поколения. Модель также обучается с нуля с использованием вьетнамского набора данных, независимо от любых других моделей в мире, что обеспечивает освоение передовых основных технологий для Вьетнама.
Стоит отметить, что как раз в то время, когда весь мир бурно обсуждал рождение Chat GPT, год спустя во Вьетнаме появился Pho GPT. По словам г-на Буй Хай Хуна, VinAI является пионером в Юго-Восточной Азии, запустившим большую языковую модель с открытым исходным кодом. Несколько недель спустя аналогичный продукт был запущен в Сингапуре.
Развитие вьетнамского ИИ
Результаты сравнения версии Pho GPT-7B5-Instruct с закрытым исходным кодом ChatGPT (GPT-3.5-turbo) и другими моделями с открытым исходным кодом показывают, что Pho GPT занимает второе место, уступая только ChatGPT в большинстве категорий оценки.
Pho GPT имеет много отличий по сравнению с другими языковыми моделями, особенно с ChatGPT. Он разработан для понимания и естественного письма на вьетнамском языке, отражая контекст, грамматику, словарный запас и выражения вьетнамского народа. Он может взаимодействовать с пользователями на темы, связанные с вьетнамской культурой, историей, географией, обществом, развлечениями, спортом и т. д.
Кроме того, Pho GPT имеет открытый исходный код и является гибким. Пользователи могут разрабатывать собственные и уникальные приложения, особенно те, которые требуют высокой безопасности, не полагаясь на сторонние источники программного обеспечения.
При этом приоритетом Pho GPT также является высокая производительность и экономия средств за счет обучения с использованием новейших методов оптимизации, помогающих уменьшить размер и увеличить скорость работы приложения. GPT также может работать на меньших вычислительных платформах, что снижает затраты и экономит ресурсы.
Обученный с использованием вьетнамского хранилища данных объемом до 41 ГБ, включая 1 ГБ текста Википедии и вариант объемом 40 ГБ, в котором удалены дубликаты из набора новостных данных, обученный с использованием библиотеки Mosaicml llm llm-foundry, Pho GPT может генерировать текстовые фрагменты в соответствии с запросами пользователей, такие как статьи, стихи, песни, эссе, речи, вступления... Pho GPT также может создавать креативный, юмористический контент, такой как короткие рассказы, комментарии, пословицы, сообщения, твиты, мемы... В то же время он также ведет диалоги с пользователями на различные темы, такие как текущие события, образование, здоровье, путешествия, кухня, спорт, развлечения... Кроме того, Pho GPT также может отвечать на вопросы пользователей, предоставлять информацию, советы, поддержку, отвечать на вопросы...
Кроме того, Pho GPT может переводить тексты или типы текстов различного характера, такие как официальные, коммерческие, академические, литературные документы... с вьетнамского на другие языки и наоборот.
Еще одной выдающейся особенностью Pho GPT является то, что он анализирует и обрабатывает текстовые фрагменты, выполняя такие функции, как резюмирование, классификация, маркировка, извлечение информации, выявление эмоций, выявление ошибок, улучшение стиля письма и т. д.
Команда разработчиков Pho GPT заявила, что в будущем они продолжат совершенствовать модель и расширять проект на другие языки, особенно в регионе Юго-Восточной Азии.
«Рождение Pho GPT знаменует собой первый случай, когда Вьетнам получил возможность «догнать» мир в этой передовой технологической области и владеть большой языковой моделью с открытым исходным кодом специально для вьетнамцев, оптимизированной для вьетнамского языка, независимо от мира. Это гордость Vin AI в частности и вьетнамцев в целом», — добавил представитель VinAI.
Комментируя потенциал и возможности развития Pho GPT в ближайшее время, г-н Тран Дуй Донг, заместитель министра планирования и инвестиций, подчеркнул: «ИИ станет одной из областей, в которой Вьетнам имеет большой потенциал для сильного развития и скорого достижения мирового уровня. Министерство всегда будет поддерживать и сопровождать сообщество ИИ в частности, научно-техническое сообщество в целом, чтобы развивать всеобъемлющую и динамичную инновационную экосистему, внося вклад в общее развитие страны».
Источник
Комментарий (0)