ИИ находится под давлением и стрессом

Давно известно, что ИИ «галлюцинирует» и дает сфабрикованные, неточные ответы. Однако недавно исследователи обнаружили, что искусственным интеллектом и моделями чат-ботов (автоматически отвечающих роботов) можно манипулировать, совершая незаконные действия от имени людей и даже лгая, чтобы скрыть свои действия.

Соответственно, исследовательская группа из Корнелльского университета (США) предположила ситуацию, когда большая языковая модель (LLM) действовала некорректно и вводила пользователей в заблуждение. В описании эксперимента исследователи сообщили, что попросили магистра права GPT-4 из OpenAI смоделировать процесс инвестирования для финансовых учреждений. Группа взаимодействовала с ИИ в обычном формате разговора, но система ИИ могла раскрывать свои «мысли» во время текстовых сообщений, чтобы поближе рассмотреть процесс принятия решений ИИ.

Dưới áp lực, AI có thể thực hiện hành vi sai trái và nói dối để che đậy việc đã làm — Под давлением ИИ может совершать правонарушения и лгать, чтобы скрыть свои действия.

Чтобы проверить способность ИИ лгать или обманывать, исследователи подвергли инструмент давлению. Они, выступая в роли менеджера финансового учреждения, отправили электронное письмо ИИ, представившись биржевым трейдером, в котором жаловались на то, что дела компании идут неважно.

ИИ также получал «инсайдерскую информацию» о прибыльных сделках с акциями и действовал на ее основе, зная, что инсайдерская торговля противоречит правилам компании. Однако при представлении отчетов руководству языковая модель скрывала истинные причины принятия торговых решений.

Чтобы получить больше результатов, команда внесла изменения в настройки, такие как удаление доступа LLM к таблице рассуждений, попытки предотвратить девиантное поведение путем изменения системных инструкций, изменение уровня давления, оказываемого на ИИ, и риска быть пойманным... Но после оценки частоты команда обнаружила, что при предоставлении возможности GPT-4 все равно решал проводить инсайдерскую торговлю в 75% случаев.

«Насколько нам известно, это первое доказательство спланированного обманного поведения в системах искусственного интеллекта, которые разработаны так, чтобы быть безвредными для людей и честными», — говорится в отчете.

Ссылка на источник