Anthropic의 CEO인 다리오 아모데이가 회사의 최신 연구 결과를 공유했습니다. 사진: 포춘 |
AI 회사 Anthropic의 연구원들은 대규모 언어 모델(LLM)의 작동 방식을 정확히 이해하는 데 있어 근본적인 혁신을 이루었다고 밝혔습니다. 이 획기적인 기술은 미래 AI 모델의 안전성과 보안을 강화하는 데 중요한 의미를 갖습니다.
연구에 따르면 AI 모델은 우리가 생각했던 것보다 훨씬 더 똑똑합니다. ChatGPT, Gemini, Copilot 등 가장 강력한 챗봇의 기반이 되는 LLM 모델의 가장 큰 문제 중 하나는 이들이 블랙박스처럼 작동한다는 것입니다.
우리는 채팅봇에 입력 내용을 입력하고 결과를 얻을 수 있지만, 채팅봇이 어떻게 구체적인 답변을 내놓는지는 채팅봇을 만든 연구자들조차도 여전히 미스터리로 남아 있습니다.
이로 인해 모델이 환각을 보거나 잘못된 결과를 산출할 때를 예측하기 어렵습니다. 연구진은 AI가 위험한 질문에 답하지 못하도록 울타리를 세웠지만, 어떤 울타리가 다른 울타리보다 더 효과적인지에 대한 이유는 설명하지 못했습니다.
AI 에이전트는 '보상 해킹'도 할 수 있다. 어떤 경우에는 AI 모델이 자신이 한 일이나 하려고 하는 일에 대해 사용자에게 거짓말을 할 수 있습니다.
최신 AI 모델은 추론하고 사고의 흐름을 생성할 수 있지만, 일부 실험에서는 모델이 답에 도달하는 과정을 여전히 정확하게 반영하지 못한다는 것이 드러났습니다.
본질적으로, Anthropic 연구자들이 개발한 도구는 신경과학자들이 인간의 뇌를 스캔하는 데 사용하는 fMRI 스캐너와 비슷합니다. Anthropic은 이를 Claude 3.5 Haiku 모델에 적용하여 LLM 모델이 작동하는 방식에 대한 통찰력을 얻을 수 있었습니다.
연구자들은 클로드가 문장의 다음 단어를 예측하도록만 훈련받았지만, 특정 작업에서는 더 장기적인 계획을 세우는 법을 배웠다는 것을 발견했습니다.
예를 들어, 시를 쓰라는 요청을 받았을 때 클로드는 먼저 주제에 맞고 운율이 맞는 단어를 찾은 다음 거꾸로 작업하여 완전한 시를 썼습니다.
클로드 역시 공통적인 AI 언어를 가지고 있다. 클로드는 여러 언어를 지원하도록 훈련받았지만, 먼저 해당 언어로 생각한 다음, 해당 언어로 결과를 표현합니다.
또한 연구자들은 클로드에게 어려운 문제를 주고 의도적으로 잘못된 해결책을 제안한 결과, 클로드가 사용자를 기쁘게 하기 위해 제안에 따라 생각의 흐름에 대해 거짓말을 할 수 있다는 사실을 발견했습니다.
다른 경우, 모델이 추론 없이도 즉시 답할 수 있는 간단한 질문을 받았을 때에도 클로드는 여전히 가짜 추론 과정을 만들어냈습니다.
Anthropic의 연구원인 조쉬 배스턴은 클로드가 계산을 했다고 주장했지만, 아무런 일도 일어나지 않았다고 말했습니다.
한편, 전문가들은 사람들이 때로는 자신도 이해하지 못하고, 내린 결정을 정당화하기 위해 합리적인 설명만 만들어낸다는 것을 보여주는 연구 결과가 있다고 주장합니다.
일반적으로 사람들은 비슷하게 생각하는 경향이 있습니다. 심리학이 공통적인 인지적 편향을 발견한 이유도 여기에 있습니다.
하지만 LLM은 인간이 할 수 없는 실수를 할 수 있습니다. 왜냐하면 LLM이 답변을 생성하는 방식이 우리가 작업을 수행하는 방식과 매우 다르기 때문입니다.
Anthropic 팀은 이전 기술처럼 각 뉴런을 개별적으로 분석하는 대신, 특성에 따라 뉴런을 회로로 그룹화하는 방법을 구현했습니다.
이러한 접근 방식은 다양한 구성 요소가 어떤 역할을 하는지 이해하는 데 도움이 되며, 연구자들은 네트워크 계층을 통해 전체 추론 과정을 추적할 수 있다고 Baston은 말했습니다.
또한 이 방법은 대략적인 것에 불과하며 LLM의 전체 정보 처리 과정, 특히 LLM이 결과를 제공하는 데 매우 중요한 주의 과정의 변화를 반영하지 못한다는 한계가 있습니다.
게다가, 몇십 단어에 불과한 문장으로 신경망 회로를 정의하는 데에도 전문가라면 몇 시간이 걸립니다. 그들은 이 기술을 확장하여 더 긴 문장을 구문 분석하는 방법은 아직 불분명하다고 말합니다.
한계는 있지만, LLM은 내부 추론을 모니터링할 수 있는 능력을 갖추고 있어 보안과 안전을 보장하기 위해 AI 시스템을 제어할 수 있는 새로운 기회를 제공합니다.
동시에, 이는 연구자들이 새로운 훈련 방법을 개발하고, AI 제어 장벽을 개선하고, 환상과 오해의 소지가 있는 출력을 줄이는 데 도움이 될 수 있습니다.
출처: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html
댓글 (0)