DeepSeek의 새로운 AI는 뛰어난 성능으로 기술계에 계속해서 큰 반향을 일으키고 있습니다. 사진: SCMP . |
DeepSeek은 V3 대규모 언어 모델(LLM) 시리즈의 최신 버전인 DeepSeek V3-0324를 공식적으로 소개합니다.
이전 버전과 마찬가지로 이 모델은 Hugging Face 플랫폼을 통해 무료로 오픈 소스로 공개되었으며, 특히 추론 및 프로그래밍 분야에서 이전 버전에 비해 상당한 개선이 이루어졌습니다.
구체적으로 OpenRouter에 따르면 DeepSeek V3-0324는 일부 중국 AI 모델에서 매우 인기 있는 머신 러닝 방법인 MoE(Mixture of Experts)를 사용하여 구축되었으며, 매개변수는 6,850억 개입니다.
초기 평가에 따르면, 이 모델은 다양한 작업에서 인상적인 성능을 보여줍니다. 한편, Reddit 게시물에서는 DeepSeek V3-0324가 프로그래밍 코드 생성 테스트에서 Google의 Sonnet 3.7 모델을 따라잡았다는 것을 보여줍니다.
또한 소식통에 따르면 DeepSeek V3-0324는 오류 없이 긴 코드 조각을 생성할 수 있는 것으로 나타났습니다. AI Analytics Vidhya는 이 모델을 테스트하여 700줄의 코드를 원활하게 생성하는 능력을 기록했습니다.
X에서는 DeepSeek V3-0324 애플리케이션도 큰 주목을 받았습니다. 이를 증명하기 위해 Deepanshu Sharma는 이 AI 모델이 800줄이 넘는 코드로 완전한 웹사이트를 어떻게 원활하게 생성할 수 있는지 보여주는 동영상을 게시했습니다.
DeepSeek은 2024년 12월 DeepSeek-V3를 출시하면서 가장 주목할 만한 중국 AI 회사가 되었습니다. 이 모델은 GPT-4o와 비슷한 성능을 달성하지만 컴퓨팅 리소스의 일부만 사용합니다.
얼마 지나지 않아 DeepSeek은 DeepSeek-R1 추론 모델을 출시했습니다. TechCrunch 에 따르면 R1은 AIME, MATH-500, SWE-bench Verified와 같은 벤치마크에서 OpenAI의 o1보다 성능이 우수합니다.
동시에, DeepSeek 모델의 최종 단계를 훈련하는 데 드는 560만 달러라는 비용도 충격적입니다. 이는 미국의 주요 기업들이 모델을 훈련하는 데 사용하는 수억 달러에 비하면 엄청난 금액입니다.
출처: https://znews.vn/at-chu-bai-moi-cua-deepseek-lo-dien-post1540831.html
댓글 (0)