Зачем искусственному интеллекту нужно изучать новые языки?

OpenAI не раскрывает подробностей о том, как проходило обучение ChatGPT-4. Однако обычно большие языковые модели (LLM) обучаются на тексте, полученном из Интернета, где общепринятым языком является английский. Около 93% обучающих данных ChatGPT-3 представлены на английском языке.

В Common Crawl, одном из наборов данных, на котором обучалась модель ИИ, английский язык составляет 47% корпуса, а другие европейские языки — еще 38%. Напротив, на долю китайцев и японцев в совокупности приходится всего 9%.

скриншот 2024 01 31 в 151709.png — Большая часть данных, используемых для обучения на степень магистра права, представлена на английском или других европейских языках.

Обзор, проведенный Натаниэлем Робинсоном, исследователем из Университета Джонса Хопкинса, и его коллегами, показал, что эта проблема касается не только ChatGPT. Все магистры права показывают лучшие результаты при изучении языков с «высокими ресурсами», где обучающих данных много, чем при изучении языков с «низкими ресурсами», где их мало.

Это проблема для тех, кто надеется внедрить ИИ в бедные страны для улучшения различных сфер — от образования до здравоохранения. Поэтому исследователи по всему миру работают над тем, чтобы сделать ИИ более многоязычным.

В сентябре прошлого года правительство Индии запустило чат-бот, который помогает фермерам оставаться в курсе полезной информации от правительства.

Шанкар Марувада из EkStep Foundation, некоммерческой организации, которая помогла создать чат-бота, сказал, что бот работает, объединяя два типа языковых моделей, и пользователи могут отправлять запросы на своем родном языке. Эти запросы на родном языке передаются в программное обеспечение для машинного перевода в индийском исследовательском центре, которое переводит их на английский язык, а затем отправляет в LLM для обработки ответов. Наконец, ответ будет переведен на родной язык пользователя.

Этот процесс может работать, но перевод запросов на «предпочитаемый» язык LLM — неуклюжий обходной путь. Язык является средством отражения культуры и мировоззрения. В статье Ребекки Джонсон, исследователя из Сиднейского университета, опубликованной в 2022 году, говорится, что ChatGPT-3 дает ответы по таким темам, как контроль над оружием и политика в отношении беженцев, которые сопоставимы с американскими ценностями, выраженными в исследовании World Values Survey.

Поэтому многие исследователи пытаются научить магистров права свободно владеть менее распространенными языками. Технически одним из подходов является изменение токенизации языка. Индийский стартап Sarvam AI написал оптимизированный для хинди токенизатор или OpenHathi — модель LLM, оптимизированную для языка деванагари (индийского), которая может значительно сократить расходы на ответы на вопросы.

Другой способ — улучшить наборы данных, на которых обучается LLM. В ноябре группа исследователей из Университета Мохамеда бин Заида в Абу-Даби выпустила последнюю версию арабоязычной модели под названием «Jais». Он имеет в 6 раз меньше параметров, чем ChatGPT-3, но обеспечивает сопоставимую производительность для арабского языка.

Тимоти Болдуин, ректор Университета Мухаммеда бин Заида, отметил, что, хотя его команда оцифровала большую часть арабского текста, модель все равно включала часть английского текста. Некоторые концепции одинаковы во всех языках и могут быть изучены на любом языке.

Третий подход заключается в настройке моделей после их обучения. И Jais, и OpenHathi имеют ряд пар вопросов и ответов, созданных человеком. То же самое касается и западных чат-ботов, призванных предотвратить дезинформацию.

Эрни Бот, магистр права из крупной китайской технологической компании Baidu, был подвергнут регулированию с целью ограничить высказывания, которые могут оскорбить правительство. Модели также могут обучаться на основе отзывов людей, когда пользователи оценивают ответы LLM. Однако для многих языков в менее развитых регионах это сделать сложно из-за необходимости нанимать квалифицированных специалистов, способных критиковать реакцию машины.

(По данным журнала «Экономист»)

Армия США использует ИИ для оценки цен на критически важные минералы Армия США планирует разработать компьютерную программу, способную оценивать цены и прогнозировать поставки никеля, кобальта и других критически важных минералов.

Источник