OpenAI не раскрывает подробностей о том, как проходило обучение ChatGPT-4. Однако обычно большие языковые модели (LLM) обучаются на тексте, полученном из Интернета, где общепринятым языком является английский. Около 93% обучающих данных ChatGPT-3 представлены на английском языке.
В Common Crawl, одном из наборов данных, на основе которых обучается модель ИИ, английский язык составляет 47% корпуса, а другие европейские языки — еще 38%. Напротив, на долю китайцев и японцев в совокупности приходится всего 9%.
Обзор, проведенный Натаниэлем Робинсоном, исследователем из Университета Джонса Хопкинса, и его коллегами, показал, что проблема не ограничивается только ChatGPT. Все магистры права показывают лучшие результаты при работе с языками с «высокими ресурсами», где обучающих данных много, чем с языками с «низкими ресурсами», где их мало.
Это проблема для тех, кто надеется внедрить ИИ в бедные страны для улучшения различных сфер — от образования до здравоохранения. Поэтому исследователи по всему миру работают над тем, чтобы сделать ИИ более многоязычным.
В сентябре прошлого года правительство Индии запустило чат-бот, который помогает фермерам оставаться в курсе полезной информации от государства.
Шанкар Марувада из EkStep Foundation, некоммерческой организации, которая помогла создать чат-бота, сказал, что бот работает, объединяя два типа языковых моделей, и пользователи могут отправлять запросы на своем родном языке. Эти запросы на родном языке передаются в программное обеспечение для машинного перевода в индийском исследовательском центре, которое переводит их на английский язык, а затем отправляет в LLM для обработки ответов. Наконец, ответ будет переведен на родной язык пользователя.
Этот процесс может работать, но перевод запросов на «предпочитаемый» язык LLM — неуклюжий обходной путь. Язык является средством отражения культуры и мировоззрения. В статье Ребекки Джонсон, исследователя из Сиднейского университета, опубликованной в 2022 году, говорится, что ChatGPT-3 дает ответы по таким темам, как контроль над оружием и политика в отношении беженцев, которые сопоставимы с американскими ценностями, выраженными в исследовании World Values Survey.
Поэтому многие исследователи пытаются научить магистров права свободно владеть менее распространенными языками. Технически одним из подходов является изменение токенизации языка. Индийский стартап Sarvam AI написал токенизатор, оптимизированный для хинди, или OpenHathi — модель LLM, оптимизированную для языка деванагари (индийский), которая может значительно сократить расходы на ответы на вопросы.
Другой способ — улучшить наборы данных, на которых обучается LLM. В ноябре группа исследователей из Университета Мохамеда бин Заида в Абу-Даби выпустила последнюю версию арабоязычной модели под названием «Jais». Он имеет в 6 раз меньше параметров, чем ChatGPT-3, но обеспечивает сопоставимую производительность для арабского языка.
Тимоти Болдуин, ректор Университета Мухаммеда бин Заида, отметил, что, хотя его команда оцифровала большую часть арабского текста, модель все равно включала часть английского текста. Некоторые концепции одинаковы во всех языках и могут быть изучены на любом языке.
Третий подход заключается в настройке моделей после их обучения. И Jais, и OpenHathi имеют ряд пар вопросов и ответов, созданных человеком. То же самое касается и западных чат-ботов, призванных предотвратить дезинформацию.
Эрни Бот, магистр права из крупной китайской технологической компании Baidu, был подвергнут регулированию с целью ограничить высказывания, которые могут оскорбить правительство. Модели также могут обучаться на основе отзывов людей, когда пользователи оценивают ответы LLM. Однако для многих языков в менее развитых регионах это сделать сложно из-за необходимости нанимать квалифицированных специалистов, способных критиковать реакцию машины.
(По данным журнала «Экономист»)
Источник
Комментарий (0)