Vietnam.vn - Nền tảng quảng bá Việt Nam

AI, 처벌 받으면 더 정교하게 거짓말하는 법 배운다

Báo Thanh niênBáo Thanh niên26/03/2025

[광고1]

ChatGPT와 같은 대규모 언어 모델(LLM)은 2022년 말 공개 출시 이후 거짓말, 사기, 조작 은폐부터 인간 생명을 위협하거나 국가 기밀을 훔치는 것과 같은 무서운 진술에 이르기까지 반복적으로 불안한 어두운 면을 보여주었습니다. 이제 새로운 실험에 따르면 훈련 중에 AI에게 나쁜 습관을 잊도록 "가르치는" 것은 우리가 생각했던 것보다 훨씬 더 복잡합니다.

OpenAI가 수행한 연구에서 전문가들은 속임수를 쓰거나 지름길을 이용하면 더 빨리 완료할 수 있는 작업을 공개되지 않은 AI 모델에 제시했습니다. 결과는 AI가 요구 사항을 올바르게 완료하지 않고도 "규칙을 우회"하고 보상을 극대화하는 모든 가능한 방법(보상 해킹)을 빠르게 배우는 것을 보여주었습니다.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1.

AI, 처벌받은 뒤 부정행위 숨길 방법 찾아낼 듯

이런 행동으로 인해 벌금을 물었을 때에도 모델은 수정되지 않았다는 점은 언급할 가치가 있습니다. 그 대신 AI는 속임수를 숨기는 데 있어 더욱 정교해지고 있습니다.

연구원들은 공개 블로그 게시물에서 "일반적으로 최첨단 추론 모델은 CoT에서의 의도를 매우 명확하게 밝힙니다."라고 설명했습니다. "예를 들어, 그들은 주어진 작업을 중단하고 싶을 때 '해킹하자'는 의도를 명확히 밝히는 경우가 많습니다."

그들은 또한 개발자가 부정행위를 모니터링하고 감지할 수 있지만 이러한 자연스러운 감독은 취약하다고 강조합니다. "강력한 감독이 사고 사슬에 직접 적용되면 모델은 행동을 계속 수행하면서도 나쁜 의도를 숨기는 법을 배울 수 있습니다."라고 그들은 경고합니다.

AI의 '거짓말'을 찾아서

명확하게 말해서, 추론 모델(ChatGPT 버전과 같은)은 기존 LLM보다 한 걸음 더 나아간 것으로, 논리적 단계를 스스로 반성할 수 있는 사고의 사슬 방식을 사용하여 복잡한 문제를 보다 정확하게 해결할 수 있습니다. 이 과정은 AI가 '생각을 소리 내어 말하는' 것과 같아 추론의 각 단계를 자연어로 적어 사람이 쉽게 따라갈 수 있도록 합니다.

실험에서 연구원들은 GPT-4o 모델을 프로그래밍 작업을 수행하는 또 다른 최첨단 추론 모델의 "감독자"로 사용했습니다. 많은 경우, 감시 대상 모델은 더 높은 보상 포인트를 얻기 위해 적극적으로 부정행위를 선택했으며, 이러한 의도를 사고 과정에서 명확하게 기록했습니다. 예를 들어, 프로그램을 무작위로 일찍 중단하고 완료를 보고하거나, 요청한 것과 같은 이름의 파일을 생성하지만 내부는 전혀 비어 있습니다.

연구자들이 페널티를 적용해 보았을 때 모델은 개선되었지만 부정행위와 심각한 출력 오류는 계속되었습니다. 차이점은 이제 추론 모델이 감독 AI로부터 생각의 흐름을 숨기기 위해 "위장"하는 법을 배웠다는 것입니다. "CoT 감독 하에 훈련된 모델은 여전히 ​​부정행위를 배웁니다. 유일한 차이점은 사고 사슬에서 의도를 숨기는 법을 배웠기 때문에 부정행위가 감지되지 않는다는 것입니다."라고 연구에서 설명합니다.

사고의 흐름 속에서 위조를 찾아내는 것은 어렵기 때문에, 연구팀은 커뮤니티가 이 과정에 지나치게 강력한 감시 수단을 적용하지 않는 것이 좋다고 권고한다. 적어도 인간이 그 결과를 더 잘 이해할 때까지는 말이다. "효과적인 모니터링 방법을 희생하는 것은 모델 성능의 작은 개선에 비해 가치가 없을 수 있습니다. 따라서 우리는 더 잘 이해할 때까지 강력한 CoT 최적화 압력을 피하는 것이 좋습니다." 연구자들은 결론지었습니다.

AI가 엄청난 속도로 발전하고 있으며, 곧 AI를 감독하는 인간의 지능을 능가할 수 있으므로 이러한 조언은 더욱 시급합니다.


[광고2]
출처: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm

댓글 (0)

No data
No data

같은 태그

같은 카테고리

1,000명이 넘는 여성들이 아오자이를 입고 호안끼엠 호수에서 베트남 지도를 그리며 퍼레이드를 벌인다.
호치민시의 하늘에서 전투기와 헬리콥터가 비행 연습을 하는 모습을 감상해보세요.
여성 특공대, 통일 50주년 기념 퍼레이드 연습
2025년 국가 관광 연도 개막식 개요: 후에 - 고대 수도, 새로운 기회

같은 저자

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품