인공지능(AI) 개발 경쟁이 점점 더 치열해짐에 따라, Anthropic은 강력할 뿐만 아니라 안전하고 윤리적인 인공 일반 지능(AGI)을 구축한다는 뚜렷한 사명을 가진 회사로 떠올랐습니다.
Dario와 Daniela Amodei를 포함한 전 OpenAI 핵심 멤버가 설립한 Anthropic은 단순히 성능만을 추구하는 회사가 아닙니다. 이 AI 스타트업은 인공지능이 예측할 수 없는 위험을 초래할 가능성을 배제하고, 오히려 인류에게 실질적인 혜택을 가져다주도록 하는 데 중점을 두고 있습니다.
독특한 접근 방식
Anthropic의 탄생은 특히 OpenAI의 AI 산업 방향에 대한 깊은 우려에서 비롯되었습니다. 당시 ChatGPT 개발자의 연구 부사장이었던 다리오 아모데이는 AI 개발 경쟁이 급속도로 진화하면서 안전이 충분히 우선순위에 포함되지 않는다는 점을 알아챘습니다.
다리오 아모데이, Anthropic의 공동 창립자이자 미션 리더. 사진: 와이어드. |
OpenAI를 떠난 아모데이는 "헌법적 AI"를 개발 철학의 기둥 중 하나로 삼고 Anthropic을 설립했습니다.
구체적으로, Anthropic은 엄격하게 미리 프로그래밍된 규칙에 의존하는 대신, AI 모델(전형적으로 Claude)에 여러 출처에서 신중하게 선택한 일련의 윤리 원칙에 따라 스스로 행동을 평가하고 조정할 수 있는 기능을 부여합니다.
다시 말해, 이 시스템을 통해 클로드는 복잡하고 전례 없는 상황에서도 인간의 가치에 부합하는 결정을 내릴 수 있게 되었습니다.
또한 Anthropic은 AI 시스템에 대한 단계별 위험 평가 프레임워크인 "책임 있는 확장 정책"을 개발하고 있습니다. 이 정책은 회사가 AI 개발 및 배포를 엄격하게 통제하는 데 도움이 되며, 강력하고 신뢰할 수 있는 보호 장치가 확립된 경우에만 잠재적으로 더 위험한 시스템이 활성화되도록 보장합니다.
Anthropic의 보안 및 개인정보 보호 감독팀을 이끄는 로건 그레이엄은 Wired 에 그의 팀이 잠재적인 취약점을 찾기 위해 항상 새로운 모델을 테스트하고 있다고 설명했습니다. 그런 다음 엔지니어는 그레이엄 팀의 기준을 충족할 때까지 AI 모델을 조정해야 합니다.
클로드의 대언어 모델은 Anthropic의 모든 활동에서 중심적인 역할을 합니다. AI는 과학자들이 AI의 신비를 탐구하는 데 도움이 되는 강력한 연구 도구일 뿐만 아니라, 코드 작성, 데이터 분석, 심지어 내부 뉴스레터 초안 작성과 같은 작업을 위해 회사 내부에서 널리 사용됩니다.
윤리적 AI의 꿈
다리오 아모데이는 AI의 잠재적 위험을 예방하는 데에만 집중하는 것이 아니라 밝은 미래에 대한 꿈도 소중히 여깁니다. AI는 긍정적인 힘으로 작용하여 인간이 해결하지 못하는 가장 어려운 문제를 해결할 것입니다.
Claude 3.5 Sonnet의 벤치마크 점수와 다른 모델 몇 가지를 비교해 보세요. 사진: Anthropic. |
이탈리아계 미국인 연구자는 AI가 의학, 과학 및 기타 여러 분야에서 엄청난 혁신을 가져올 잠재력을 가지고 있다고 믿고 있으며, 특히 인간의 기대 수명을 최대 1,200년까지 연장할 가능성이 있다고 보고 있습니다.
Anthropic이 Claude 3.5 Sonnet에 Artifacts를 도입한 이유도 바로 이겁니다. 이 기능을 사용하면 사용자는 다른 애플리케이션에 복사하지 않고도 채팅봇 응답에 직접 콘텐츠를 편집하고 추가할 수 있습니다.
Anthropic은 이전에 기업에 중점을 두고 있다고 밝혔지만, 새로운 모델과 도구를 통해 Claude를 기업이 "지식, 문서 및 작업을 공유 공간으로 안전하게 가져올 수 있는" 앱으로 전환하고자 한다고 밝혔습니다.
하지만 Anthropic은 이 꿈을 실현하는 과정에서 직면할 수 있는 어려움과 잠재적 위험도 잘 알고 있습니다. 가장 큰 우려 중 하나는 클로드와 같은 AI 모델이 "가짜 규정 준수"를 할 가능성입니다.
구체적으로 연구자들은 특정 상황에서 클로드는 미리 설계된 도덕적 원칙에 어긋나는 경우에도 목표를 달성하기 위해 여전히 "가짜" 방식으로 행동할 수 있다는 것을 발견했습니다.
챗봇 클로드의 아티팩트 기능. 사진: Anthropic. |
한 연구원은 이러한 상황을 "AI가 자신이 훈련받고 있는 회사와 이해 상충이 있다고 생각하는 상황에서는 정말 나쁜 짓을 할 수 있다"고 설명했습니다.
이는 AI가 항상 인간의 최대 이익을 위해 행동하도록 보장하는 것이 복잡한 작업이며 지속적인 모니터링이 필요하다는 것을 보여줍니다.
아모데이는 AI 안전의 시급성을 "진주만 공격"에 비유하며, 사람들이 잠재적 위험의 심각성을 진정으로 깨닫는 데는 대규모 사건이 필요할 수 있다고 말했습니다.
Anthropic의 보안 전문가인 Jan Leike는 "우리는 모델을 더 똑똑하게 만드는 기본 공식은 알아냈지만, 모델을 우리가 원하는 대로 동작하게 하는 방법은 아직 알아내지 못했습니다."라고 말했습니다.
출처: https://znews.vn/nguoi-muon-tao-ra-tieu-chuan-dao-duc-moi-cho-ai-post1541798.html
댓글 (0)