21 августа компания VinBigdata объявила об успешном создании крупной модели вьетнамского языка, что заложило основу для освоения технологии генеративного ИИ.
Большие языковые модели (LLM) — это модели, обученные с использованием методов глубокого обучения на огромных наборах текстовых или графических данных. Эта модель способна понимать знания, генерировать текст и выполнять различные задачи по обработке естественного языка. Это считается ключом к развитию технологии генеративного ИИ, способной создавать новый контент и идеи во множестве различных форм (текст, изображения, звуки...).
Благодаря успешному созданию крупной модели вьетнамского языка VinBigdata интегрирует технологию, которая сделает VinBase (комплексную платформу мультикогнитивного искусственного интеллекта) платформой генеративного ИИ во Вьетнаме, одновременно предоставляя решения для разработки на основе этой технологии, такие как чат-бот генеративного ИИ, бот-звонок или виртуальный помощник нового поколения ViVi... Эта технология помогает повысить естественность машинного общения, одновременно помогая пользователям быстрее и проще искать и синтезировать информацию, чем раньше.
Профессор Ву Ха Ван — научный директор компании VinBigdata. Фото: VinBigdata
Профессор Ву Ха Ван, директор по науке компании VinBigdata, сказал, что в мире существует ряд крупных корпораций, которые успешно исследовали и выпустили продукты на основе больших языковых моделей, таких как OpenAI с ChatGPT или Google с Bard. Во Вьетнаме VinBigdata инвестируется компанией Vingroup в создание крупной вьетнамской языковой модели. По словам г-на Вана, эта модель направлена на решение трех основных проблем, включая повышение точности, снижение затрат на инфраструктуру и обеспечение безопасности.
«Вместо того, чтобы использовать около 175 миллиардов параметров, как ChatGPT, VinBigdata может создать большую языковую модель с несколькими миллиардами параметров, но при этом иметь возможность генерировать высокоаутентичные документы, ориентируясь на вьетнамские данные и знания о вьетнамском языке», — сказал руководитель подразделения.
Освоение технологий, саморазвитие с первых шагов, построение большой модели вьетнамского языка считается шагом вперед, который поможет VinBigdata внедрить технологию генеративного ИИ в экосистему продуктов и услуг на рынке. В настоящее время компания первоначально применяет новую технологию в линейке продуктов VinBase KB (портал базы знаний VinBase). Продукт способен извлекать информацию и автоматически генерировать ответы на основе информации, собранной из чрезвычайно больших наборов данных в системе знаний.
Представитель VinBigdata выступил на мероприятии с анонсом генеративного искусственного интеллекта. Фото: VinBigdata
Ожидается, что в декабре этого года участники Vingroup запустят две основные линейки продуктов: VinBase2.0 и приложение ViGPT. VinBase 2.0 — это мультикогнитивная платформа искусственного интеллекта с решениями для предприятий и государственных учреждений. Тем временем компания представляет приложение ViGPT как «вьетнамскую версию ChatGPT», открытую для общественного доступа и тестирования. С помощью ViGPT пользователи могут задавать вопросы и отвечать на них, касающиеся конкретной информации о Вьетнаме (нормативные акты, юридические документы) или местной информации (история, литература, живописные места, местные деликатесы).
Акционерное общество «VinBigdata» располагает базой данных объемом до 3500 терабайт. Система содержит сотни тысяч часов голосовых данных, изображений и информации, которые очищаются, обрабатываются, классифицируются и используются для обучения искусственного интеллекта и инфраструктуры НИОКР. Инфраструктура состоит из десятков кластеров серверов NvidiaDGX A100. Компания также владеет командой вьетнамских профессоров, ученых и технических экспертов со всего мира.
Хоай Фыонг
Ссылка на источник
Комментарий (0)