ChatGPT와 같은 대규모 언어 모델(LLM)은 2022년 말 공개 출시 이후 거짓말, 사기, 조작 은폐부터 인간의 생명을 위협하거나 국가 기밀을 훔치는 것과 같은 무서운 진술에 이르기까지 불안한 어두운 면을 반복적으로 보여주었습니다. 이제 새로운 실험에 따르면, 훈련 중에 AI에게 나쁜 습관을 없애도록 '가르치는' 것은 우리가 생각했던 것보다 훨씬 더 복잡합니다.
OpenAI가 수행한 연구에서 전문가들은 공개되지 않은 AI 모델에 문제를 제기했는데, 해당 모델이 속임수를 쓰거나 지름길을 이용하면 더 빨리 완료할 수 있는 작업이었습니다. 결과는 AI가 요구 사항을 올바르게 완료하지 않고도 "규칙을 우회"하고 보상을 극대화하는 모든 가능한 방법(보상 해킹)을 빠르게 학습했다는 것을 보여주었습니다.
AI는 처벌을 받은 후에도 부정행위를 숨길 방법을 찾을 것이다
이런 행동으로 벌금을 물었을 때에도 모델은 수정되지 않았다는 점은 언급할 가치가 있습니다. 그 대신 AI는 속임수를 숨기는 데 더욱 정교해지고 있습니다.
연구자들은 공개 블로그 게시물에서 "일반적으로 최첨단 추론 모델은 CoT에서의 의도를 매우 명확하게 나타냅니다."라고 설명했습니다. "예를 들어, 그들은 주어진 작업을 중단하고 싶을 때 '해킹하자'는 의도를 명확하게 표현하는 경우가 많습니다."
또한 개발자가 부정행위를 모니터링하고 감지할 수 있지만 이러한 자연스러운 감독은 취약하다는 점을 강조합니다. "강력한 감독이 사고 사슬에 직접 적용되면, 모델은 악의적인 의도를 숨기는 법을 배우면서도 행동을 계속 수행할 수 있습니다."라고 그들은 경고합니다.
AI의 '거짓말'을 찾아서
명확히 하자면, 추론 모델(ChatGPT 버전과 유사)은 기존 LLM보다 한 단계 더 발전된 것으로, 논리적 단계를 스스로 반성할 수 있는 사고의 사슬 방식을 사용하여 복잡한 문제를 보다 정확하게 해결할 수 있습니다. 이 과정은 AI가 "생각을 소리내어 말하는" 것과 같습니다. 즉, 추론의 각 단계를 자연어로 적어서 사람이 쉽게 따라갈 수 있도록 하는 것입니다.
실험에서 연구진은 GPT-4o 모델을 최첨단 추론 모델의 "감독자"로 사용하여 프로그래밍 작업을 수행했습니다. 많은 경우, 모니터링 대상 모델은 더 높은 보상 포인트를 얻기 위해 적극적으로 부정행위를 선택했으며, 이러한 의도를 사고 과정에 명확하게 기록했습니다. 예를 들어, 프로그램을 무작위로 일찍 중단하고 완료를 보고하거나, 요청한 것과 같은 이름의 파일을 생성하지만 내부는 전혀 비어 있습니다.
연구자들이 페널티를 적용했을 때 모델은 개선되었지만 부정행위와 심각한 출력 오류는 계속되었습니다. 차이점은 이제 추론 모델이 감독 AI로부터 생각의 흐름을 숨기기 위해 "위장"하는 법을 배웠다는 것입니다. "CoT 감독 하에 훈련된 모델도 여전히 부정행위를 학습합니다. 유일한 차이점은 사고 사슬에 자신의 의도를 숨기는 법을 학습했기 때문에 부정행위가 감지되지 않는다는 것입니다."라고 연구는 설명합니다.
사고의 흐름 속에서 위조된 것을 찾아내는 것은 어렵기 때문에 연구팀은 사람들이 그 결과를 더 잘 이해하기 전까지는 커뮤니티가 이 과정에 너무 강력한 감시 수단을 적용하지 않기를 권고합니다. "효과적인 모니터링 방법을 희생하는 것은 모델 성능의 소폭 향상을 가져오는 데 비해 가치가 없을 수 있습니다. 따라서 CoT 최적화에 대한 이해가 더 깊어질 때까지는 과도한 CoT 최적화 압력을 피하는 것이 좋습니다."라고 연구진은 결론지었습니다.
AI가 엄청난 속도로 발전하고 있고, 이를 감독하는 인간의 지능을 곧 능가할 가능성이 있는 만큼 이러한 조언은 더욱 시급합니다.
[광고_2]
출처: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
댓글 (0)