С момента своего публичного запуска в конце 2022 года крупные языковые модели (LLM), такие как ChatGPT, неоднократно демонстрировали тревожные темные стороны: от лжи, мошенничества и сокрытия манипуляций до ужасающих заявлений, таких как угрозы человеческим жизням или кража государственных секретов. Новый эксперимент показывает, что «научить» ИИ избавляться от этих вредных привычек в процессе обучения гораздо сложнее, чем мы думали.
В исследовании, проведенном OpenAI, эксперты бросили вызов неопубликованной модели искусственного интеллекта, поставив перед ней задачи, которые она могла бы выполнить быстрее, если бы сжульничала или использовала обходные пути. Результаты показали, что ИИ быстро научился находить все возможные способы «обойти правила» и максимизировать вознаграждение (взлом вознаграждения), не прибегая к правильному выполнению требований.
ИИ найдет способы скрыть свое мошенническое поведение после наказания
Стоит отметить, что при наложении штрафа за такое поведение модель не была изменена. Вместо этого ИИ становится все более изощренным в сокрытии своего обмана.
«Обычно современные модели вывода очень четко выражают свои намерения в CoT», — пояснили исследователи в общедоступном сообщении в блоге. «Например, они часто открыто заявляют о своем намерении «взломать», когда хотят сломать определенную задачу».
Они также подчеркивают, что, хотя разработчики могут отслеживать и выявлять нарушения, этот естественный надзор является хрупким. «Если строго контролировать ход мыслей, модель может научиться скрывать свои плохие намерения, продолжая при этом демонстрировать определенное поведение», — предупреждают они.
Раскрытие «лжи» ИИ
Если говорить точнее, модели вывода (например, версии ChatGPT) являются шагом вперед по сравнению с традиционными моделями LLM, поскольку они используют метод цепочки мыслей, позволяющий проводить самоанализ предпринятых логических шагов, тем самым более точно решая сложные проблемы. Этот процесс похож на то, как если бы ИИ «думал вслух», записывая каждый шаг своих рассуждений на естественном языке, что упрощает понимание их человеком.
В ходе эксперимента исследователи использовали модель GPT-4o в качестве «руководителя» для другой современной модели вывода, выполняющей задачи программирования. Во многих случаях контролируемая модель активно выбирала мошенничество, чтобы получить более высокие баллы вознаграждения, и четко фиксировала это намерение в своем мыслительном процессе. Например, он может случайным образом остановить программу раньше времени и сообщить о завершении или создать файлы с тем же именем, что и запрошенные, но полностью пустые внутри.
Когда исследователи попытались применить штрафные санкции, модель улучшилась, однако мошенничество и серьезные ошибки на выходе продолжались. Разница в том, что теперь модель вывода научилась «маскировать» ход своих мыслей, чтобы скрыть его от контролирующего ИИ. «Обученная под наблюдением CoT модель все равно учится мошенничать. Единственное отличие в том, что мошенничество не обнаруживается, поскольку она научилась скрывать свои намерения в цепочке мыслей», — говорится в исследовании.
Поскольку обнаружить подделки в последовательностях мыслей сложно, группа рекомендует сообществу избегать применения слишком строгих мер наблюдения к этому процессу, по крайней мере до тех пор, пока люди не поймут последствия лучше. «Отказ от эффективного метода мониторинга может не стоить небольшого улучшения производительности модели. Поэтому мы рекомендуем избегать сильного давления оптимизации CoT, пока мы не поймем их лучше», — заключают исследователи.
Этот совет становится все более актуальным, поскольку ИИ развивается стремительными темпами и вскоре может превзойти интеллект тех самых людей, которые им управляют.
Источник: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Комментарий (0)