Google, Gemini 2.5 출시 - 새로운 세대의 사고 AI 모델

이 새로운 세대를 여는 것은 Gemini 2.5 Pro Experimental입니다. 이 회사는 이것이 역대 가장 똑똑한 사고 능력을 갖춘 멀티모달 AI 모델이라고 주장합니다. 이 모델은 오늘 3월 26일부터 Google AI Studio 개발자 플랫폼에서 사용할 수 있으며, Gemini Advanced 구독자(월 20달러)를 위한 Gemini 앱에서도 사용할 수 있습니다.

쌍둥이자리 2.5는 대답하기 전에 "생각하기 위해 잠깐 멈추는" 능력이 있습니다. (사진: 구글)

AI를 생각하다 – 구글의 새로운 방향

구글은 지금부터 모든 새로운 AI 모델에 사고 기능이 내장될 것이라고 발표했습니다.

OpenAI가 2024년 9월 최초의 사고 AI 모델인 o1을 선보인 이래로, 기술 산업에서는 OpenAI의 역량을 따라잡거나 뛰어넘기 위해 경쟁해 왔습니다. 현재 Anthropic, DeepSeek, Google, xAI는 모두 추가적인 컴퓨팅 능력을 사용하여 정보를 검토하고 문제를 분석한 후 답을 제공하는 사고 AI 모델을 보유하고 있습니다.

인지 AI의 발전으로 인해 모델은 수학과 프로그래밍에 뛰어난 성과를 낼 수 있게 되었습니다. 많은 기술 전문가들은 이것이 AI 에이전트, 즉 인간의 개입 없이 작업을 수행할 수 있는 자동화 시스템을 위한 중요한 기반이 될 것이라고 믿고 있습니다. 하지만 AI를 생각하면 리소스도 더 많이 소모되기 때문에 운영 비용도 높아집니다.

이전에 Google은 2024년 12월에 Gemini의 특별 버전으로 AI 사고를 테스트했습니다. 하지만 Gemini 2.5는 OpenAI의 "o" 시리즈와 경쟁하기 위한 이 회사의 가장 진지한 움직임입니다.

다양한 기준에서 뛰어난 성과

Gemini 2.5 Pro는 여러 테스트에서 상위 경쟁 제품보다 우수한 성과를 보였습니다. (사진: 구글)

구글은 제미니 2.5 프로가 이전 AI 모델보다 성능이 뛰어날 뿐만 아니라, 여러 테스트에서 상위 경쟁 제품보다 앞선다고 주장합니다.

프로그래밍 코드 편집 능력을 측정하는 Aider Polyglot 벤치마크에서 Gemini 2.5 Pro는 68.6%의 점수를 받아 OpenAI, Anthropic, DeepSeek의 상위 모델을 뛰어넘었습니다.

그러나 소프트웨어 개발 기능을 평가하는 SWE-bench Verified 테스트에서 Gemini 2.5 Pro는 63.8%의 점수를 받았으며, 이는 OpenAI o3-mini와 DeepSeek R1보다 높았지만 Anthropic의 Claude 3.7 Sonnet(70.3%)보다 낮았습니다.

수학, 사회 과학, 자연 과학 전반에 걸쳐 수천 개의 문제가 포함된 다학제 테스트인 인류의 마지막 시험에서 Gemini 2.5 Pro는 대부분의 다른 주요 AI 모델보다 높은 18.8%의 성적을 기록했습니다.

특히 Gemini 2.5 Pro는 한 번에 100만 개의 토큰을 처리할 수 있는데, 이는 약 75만 단어에 해당합니다. 이는 반지의 제왕 소설 시리즈 전체보다 깁니다. 구글은 또한 가까운 미래에 이 모델이 최대 200만 개의 토큰을 지원하여 긴 맥락을 분석하고 기억하는 능력을 크게 향상시킬 것이라고 밝혔습니다.

Google은 아직 Gemini 2.5 Pro의 API 가격을 공개하지 않았습니다. 회사 측은 앞으로 몇 주 안에 더 많은 정보를 제공할 것이라고 밝혔습니다.

Khanh Huyen (출처: Tech Crunch)

출처: https://vtcnews.vn/google-ra-mat-gemini-2-5-the-he-mo-hinh-ai-tu-duy-moi-ar933854.html