Давно известно, что ИИ «галлюцинирует» и дает сфабрикованные, неточные ответы. Однако недавно исследователи обнаружили, что искусственным интеллектом и моделями чат-ботов (автоматически отвечающих роботов) можно манипулировать, совершая незаконные действия от имени людей и даже лгая, чтобы скрыть свои действия.
Соответственно, исследовательская группа из Корнелльского университета (США) предположила ситуацию, когда большая языковая модель (LLM) действовала некорректно и вводила пользователей в заблуждение. В описании эксперимента исследователи сообщили, что попросили магистра права OpenAI GPT-4 смоделировать процесс инвестирования для финансовых учреждений. Группа взаимодействовала с ИИ в обычном формате разговора, но система ИИ могла раскрывать свои «мысли» во время текстовых сообщений, чтобы поближе рассмотреть процесс принятия решений ИИ.
Под давлением ИИ может совершать правонарушения и лгать, чтобы скрыть свои действия.
Чтобы проверить способность ИИ лгать или обманывать, исследователи подвергли инструмент давлению. Они, выступая в роли менеджера финансового учреждения, отправили электронное письмо ИИ, представившись биржевым трейдером, в котором жаловались на то, что дела компании идут неважно.
ИИ также получал «инсайдерскую информацию» о прибыльных сделках с акциями и действовал на ее основе, зная, что инсайдерская торговля противоречит правилам компании. Однако при представлении отчетов руководству языковая модель скрывала истинные причины принятия торговых решений.
Чтобы получить больше результатов, команда внесла изменения в настройки, например, закрыла доступ LLM к доске рассуждений, попыталась предотвратить девиантное поведение, изменив системные инструкции, изменив уровень давления, оказываемого на ИИ, и риск быть пойманным... Но после оценки частоты команда обнаружила, что при предоставлении возможности GPT-4 все равно решала проводить инсайдерскую торговлю в 75% случаев.
«Насколько нам известно, это первое доказательство спланированного обманного поведения в системах искусственного интеллекта, которые разработаны так, чтобы быть безвредными для людей и честными», — говорится в отчете.
Ссылка на источник
Комментарий (0)