Исследование двух студентов из Технологического университета Хошимина, в котором использовались методы состязательного обучения для генерации новых данных с помощью ИИ, было опубликовано на AAAI — ведущей мировой конференции по ИИ.
Исследование многоязычных моделей для обучения ИИ созданию синонимов, проведенное 23-летними Фам Кхань Тринем и Ле Минь Хоем, было опубликовано в документах конференции по искусственному интеллекту AAAI-24, состоявшейся в конце февраля в Ванкувере, Канада.
Доцент, доктор Куан Тхань Тхо, заместитель декана факультета компьютерных наук и инженерии Технологического университета Хошимина, оценил это как достойный похвалы результат. Г-н Тхо сообщил, что исследователи и эксперты считают AAAI организацией высшего качества в проведении научных конференций в области компьютерных наук и искусственного интеллекта, при этом процент принятых статей в этом году составил 23,75%.
Минь Кхой и Кхань Тринь (в центре) во время защиты выпускной работы, 2023 год. Фото: предоставлено персонажем
Разделяя страсть к глубокому обучению и обработке естественного языка, Трин и Хой решили заняться исследованиями в области больших языковых моделей (LLM). Оба хотели выявить ограничения LLM и усовершенствовать их.
Хан Трин сказал, что чат GPT или LLM необходимо обучать на огромном объеме текстовых данных, чтобы генерировать точные и разнообразные ответы для пользователей. Двое мальчиков поняли, что в случае с менее распространенными языками, такими как хинди, казахский или индонезийский, тесты GPT и LLM по чату часто давали неожиданные результаты, поскольку они не изучали эти языки достаточно хорошо или по этим языкам не было достаточно данных для их изучения.
«Почему бы нам не создать больше текстовых данных из «маленьких ресурсов» этих языков для дальнейшего обучения ИИ?» — спросили двое студентов. Отсюда родилась модель LAMPAT (низкоранговая адаптация для многоязычного парафразирования с использованием метода состязательного обучения) — многоязычное парафразирование с использованием метода состязательного обучения, исследованного Трином и Хоем.
LAMPAT способен генерировать синонимическое предложение из существующего входного предложения с целью генерации дополнительных текстовых данных. Объяснитель «состязательного обучения» — это относительно новый подход к обучению больших языковых моделей. При использовании традиционных методов обучения при вводе входного предложения приложение генерирует выходное предложение. Однако при состязательном обучении приложение может самокорректироваться, редактировать выходное предложение и «играть против себя», чтобы генерировать больше предложений.
Многоязычность LAMPAT заключается в том, что модель интегрирует 60 языков одновременно. На основе собранных наборов данных команда продолжила обучать LAMPAT генерировать синонимичные предложения. Объем текстовых данных, сгенерированных LAMPAT, будет и дальше использоваться для обучения магистров права, чтобы эти модели могли изучать множество различных способов выражения информации для одного и того же контента, тем самым давая разнообразные ответы с более высокой вероятностью правильности. Представитель команды полагает, что благодаря этой функции LAMPAT можно интегрировать в такие приложения, как ChatGPT, чтобы еще больше усовершенствовать эту модель.
Кроме того, отсутствие данных для Chat GPT или LLM заставляет некоторые компании искать множество внешних источников, таких как книги, газеты, блоги,... не обращая внимания на вопросы авторских прав. По словам Кхань Тринь, создание синонимов также является одним из способов ограничения плагиата и нарушения авторских прав.
Нам Синх привел пример приложений, таких как Chat GPT: когда пользователь запрашивает резюме существующего текста A, приложение сгенерирует резюме текста B. Если метод исследования группы интегрирован, то при получении текста A приложение сгенерирует несколько текстов с одинаковым содержанием A1, A2, A3 на основе механизма генерации синонимов, из которых оно суммирует текст и выдает множество результатов, из которых пользователь может выбрать.
На ранних этапах исследования у команды возникли трудности с подготовкой оценочных данных для 60 языков. Поскольку мы не смогли получить доступ к достаточно большому объему данных, для объективной оценки модели команда составила разнообразный и полный набор данных по 13 языкам, включая: вьетнамский, английский, французский, немецкий, русский, японский, китайский, испанский, венгерский, португальский, шведский, финский и чешский. Это также надежный набор данных для финального этапа оценки человеком (подсчета баллов).
Минь Кхой (слева) и Кхань Тринь (справа) сделали памятное фото с учителем Куан Тхань Тхо в день выпуска в ноябре 2023 года. Фото: предоставлено персонажем
Для каждого из языков: английского, вьетнамского, немецкого, французского и японского — команда случайным образом извлекла 200 пар предложений (одна пара состояла из выходного предложения и правильной метки) для оценки. Для каждого из вышеперечисленных языков команда попросила пятерых лингвистов независимо оценить их на основе трех критериев: семантическая сохранность; выбор слов и сходство словарного запаса, беглость и связность выходного предложения. Шкала рассчитывается от 1 до 5. В результате средний балл оценки от языковых экспертов по этим 5 языкам колеблется в пределах 4,2–4,6/5 баллов.
В примере приведена пара предложений на вьетнамском языке, оцененных в 4,4/5, в которых входное предложение: «Он подробно объяснил проблему», а выходное предложение: «Он подробно объяснил проблему».
Но есть и пары предложений с низким качеством и семантическими ошибками, например, пара предложений «Мы едим, пока суп горячий — Мы едим суп, пока мы горячие», которая оценивается всего в 2/5 балла.
Кхань Тринь сказал, что на исследование и реализацию этого проекта ушло 8 месяцев. Это также тема диссертации Трин и Хоя. Диссертация заняла первое место в Computer Science Council 2 с результатом 9,72/10 баллов.
По словам г-на Куан Тхань Тхо, хотя LAMPAT продемонстрировал свою компетентность в создании фраз-синонимов, похожих на человеческие, на нескольких языках, ему все еще требуется улучшение в обработке идиом, народных песен и пословиц на разных языках.
Кроме того, оценочный набор данных группы включает только 13 языков, что по-прежнему не учитывает многие языки, особенно языки меньшинств. Поэтому группе необходимо провести исследования для улучшения и расширения возможностей текущих моделей многоязычного перевода. Отсюда мы можем устранить языковые барьеры между странами и народами.
В конце 2023 года Трин и Хой с отличием окончили вуз, получив степень бакалавра по специальности «Компьютерные науки» со средним баллом 3,7 и 3,9/4 соответственно. Оба планируют учиться за рубежом, получить степень магистра и продолжить исследования в области искусственного интеллекта и машинного обучения.
«Мы продолжаем исследовать эту тему с целью более широкого применения LAMPAT в будущих научных проектах, создавая надежный многоязычный продукт для пользователей», — поделился Тринь.
Ле Нгуен
Ссылка на источник
Комментарий (0)