Страны должны разрабатывать ИИ, который будет генерировать информацию на их родных языках

Вышеуказанное сообщение было озвучено г-ном Ха Чжон У, руководителем отдела облачных инноваций компании Naver (Корея), на Дне искусственного интеллекта во Вьетнаме (AI4VN) 2023, который состоялся в Хошимине 22 сентября.

Г-н Ха Чжон У, руководитель отдела облачных инноваций компании Naver (Корея).

Генеративный ИИ — это форма искусственного интеллекта, способная генерировать новый контент и идеи в различных формах, таких как текст, изображения, видео, музыка. На основе этого ИИ может создавать новые песни, лекарства, фильмы, игры... с использованием больших языковых моделей (LLM).

По последним оценкам McKinsey, генеративный ИИ может принести мировой экономике 4,4 триллиона долларов. Исследование проводилось на основе 60 000 приложений ИИ, созданных для различных отраслей.

По словам г-на Ха Чжон У, в настоящее время основные языковые модели для разработки генеративного ИИ используют английский язык, поэтому при запуске модели на других языках она будет неполной и будет содержать ошибки, а поскольку она на английском языке, ее использование создает ненужную предвзятость, особенно культурную.

Вот почему он считает, что овладение данными и технологиями является важным фактором, который многие страны будут учитывать в будущем, преодолевая риск зависимости от других стран. Например, в Корее Naver также создала большую модель на корейском языке для обслуживания правительства и отечественного бизнеса при развертывании приложений ИИ.

Разделяя эту точку зрения, доктор Дао Дук Минь, генеральный директор VinBigdata, также считает, что вьетнамцы также могут создавать отечественные продукты на основе искусственного интеллекта, чтобы обеспечить безопасность, точность информации и наилучшим образом служить правительству и обществу...

По словам г-на Дао Дук Миня, запуск chatGPT в конце 2022 года породил волну подпольной конкуренции между странами и крупными корпорациями в исследовании и запуске моделей генеративного ИИ и крупных языковых моделей.

В частности, в США, помимо инструмента chatGPT от OpenAI, существуют и другие модели генеративного ИИ, такие как Bard от Google и Titan от Amazon. В Китае это Earnie Bot от Baidu, SenseChat от Sense Time, Hunyan от Tencent. В Корее есть HyperClova X от Naver…

Г-н Дао Дук Минь отметил, что разработка большой языковой модели для применения в генеративном ИИ — непростая задача, требующая больших затрат. Если генеративный ИИ будет применяться на основе крупных платформ языковых моделей, доступных в мире, Вьетнам рискует столкнуться со многими рисками. Например, в крупных моделях иностранных языков вьетнамские данные составляют лишь очень небольшую часть, в основном это английский язык, поэтому сложно гарантировать точность, безопасность данных и их пригодность для нужд бизнеса...

Например, большие модели иностранных языков имеют сотни миллиардов параметров. Для запуска реальной модели требуется огромная вычислительная инфраструктура, но качество несоизмеримо, поскольку модель ИИ может давать неверные ответы, особенно в отношении исторических знаний, культуры и вопросов, специфичных для каждой страны.

По этой причине компания VinBigdata решила создать большую языковую модель на вьетнамском языке с целью обеспечения безопасности данных, повышения точности, снижения затрат и соответствия внутренним условиям. Команда экспертов построила модель с в сотни раз меньшим количеством параметров, чем у chatGPT, но она была построена на большом объеме вьетнамских данных.

Модель может с высокой точностью отвечать на вопросы, специфичные для локальной среды. В частности, когда был задан вопрос о законе с двумя различными нарушениями, модель chatGPT дала одинаковый ответ и общее содержание. Между тем, модель ИИ, использующая вьетнамские данные, может давать точные ответы на основе весьма конкретных законов, указов, штрафов, источников информации...

Чтобы доказать эту точность, доктор Дао Дук Минь привел пример. Когда он задал вопрос о произведении «Жена нищего» во вьетнамской литературе на chatGPT и модели вьетнамского языка, разработанной VinBigdata, результат модели VinBigdata оказался абсолютно точным, в то время как ответ ChatGPT был неясным.

Представитель VinBigdata также заявил, что освоение искусственного интеллекта, созданного внутри страны, важно, поскольку оно может помочь правительству осваивать контент, избегать дезинформации, обеспечивать национальную безопасность данных и знакомить мир с вьетнамскими технологиями.

Страны готовы сотрудничать с Вьетнамом в разработке технологий искусственного интеллекта . Представители консульств заявили, что страны готовы сотрудничать с Вьетнамом в разработке технологий искусственного интеллекта (ИИ), и подчеркнули необходимость ответственного подхода к разработке ИИ.

Источник