ChatGPT의 '환각성'에 대한 경고

새롭게 출시된 두 개의 ChatGPT 모델은 이전 세대보다 조작된 정보의 빈도가 더 높습니다. 사진: Fireflies .

GPT-4.1 발표 이틀 만에 OpenAI는 o3와 o4-mini라는 두 개의 새로운 모델을 공식 출시했습니다. 두 모델 모두 강력한 개선 사항들을 통해 탁월한 추론 능력을 보여줍니다.

하지만 테크크런치 에 따르면, 이 두 가지 새로운 모델은 여전히 "환각적"이거나 자기모순적인 사고방식을 보인다고 합니다. 실제로 이 모델들은 오픈아이얼의 기존 모델들보다 더 많은 환각적 사고방식을 드러낸다고 합니다.

IBM에 따르면, 환각이란 대규모 언어 모델(LLM), 특히 챗봇이나 컴퓨터 비전 도구가 존재하지 않거나 사람이 인식할 수 없는 데이터 패턴을 받아 의미 없거나 부정확한 결과를 생성하는 현상입니다.

즉, 사용자들은 인공지능이 학습된 데이터를 기반으로 정확한 결과를 내놓을 것으로 기대하는 경우가 많습니다. 하지만 경우에 따라 인공지능의 결과가 정확하지 않은 데이터에 기반하여 "잘못된" 응답을 내놓기도 합니다.

OpenAI는 최신 보고서에서 자사 내부 표준인 PersonQA(인간에 대한 모델의 지식 정확도를 측정하는 도구)에서 o3가 질문의 33%에 대해 "허구적인" 답변을 했다고 밝혔습니다.

비교하자면, 이 수치는 OpenAI의 이전 추론 모델인 o1과 o3-mini의 '착각' 비율(각각 16%와 14.8%)의 두 배에 달합니다. 한편, o4-mini 모델은 PersonQA 데이터셋에서 훨씬 더 저조한 성능을 보이며 테스트 시간의 48% 동안 '착각' 상태에 빠졌습니다.

더욱 우려스러운 점은 "ChatGPT의 창시자"로 불리는 OpenAI조차 이러한 현상이 발생하는 이유를 정확히 알지 못한다는 것입니다. 특히, o3 및 o4-mini에 대한 기술 보고서에서 OpenAI는 추론 모델의 크기를 확장할 때 "환각 현상이 악화되는 이유를 이해하기 위해 추가 연구가 필요하다"고 명시하고 있습니다.

O3와 o4-mini는 프로그래밍 및 수학 작업을 포함한 일부 영역에서 더 나은 성능을 보였습니다. 그러나 두 모델 모두 "일반적인 진술보다 더 많은 진술을 해야 하므로" "더 정확한 진술을 생성하지만, 동시에 더 부정확한 진술도 생성"하는 결과를 보였습니다.

출처: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html