DeepSeek의 새로운 '트럼프 카드' 공개

DeepSeek의 새로운 AI는 뛰어난 성능으로 기술계에 큰 반향을 일으키고 있습니다. 사진: SCMP .

DeepSeek은 V3 대규모 언어 모델(LLM) 시리즈의 최신 버전인 DeepSeek V3-0324를 공식적으로 소개합니다.

이전 버전과 마찬가지로 이 모델은 Hugging Face 플랫폼을 통해 무료로 오픈 소스로 공개되었으며, 특히 추론 및 프로그래밍 분야에서 이전 버전에 비해 상당한 개선이 이루어졌습니다.

구체적으로 OpenRouter에 따르면 DeepSeek V3-0324는 일부 중국 AI 모델에서 매우 인기 있는 머신 러닝 방법인 MoE(Mixture of Experts)를 사용하여 구축되었으며, 매개변수는 6,850억 개입니다.

초기 평가에 따르면, 이 모델은 다양한 작업에서 인상적인 성능을 보여줍니다. 한편, Reddit 게시물에서는 DeepSeek V3-0324가 프로그래밍 코드 생성 테스트에서 Google의 Sonnet 3.7 모델을 따라잡았다는 것을 보여줍니다.

또한, 출처에 따르면 DeepSeek V3-0324는 오류 없이 긴 코드 조각을 생성할 수 있는 것으로 나타났습니다. AI Analytics Vidhya는 이 모델을 테스트하여 700줄의 코드를 원활하게 생성하는 능력을 기록했습니다.

X에서는 DeepSeek V3-0324 애플리케이션도 큰 주목을 받았습니다. 이를 증명하기 위해 Deepanshu Sharma는 이 AI 모델이 800줄이 넘는 코드로 완전한 웹사이트를 어떻게 원활하게 생성할 수 있는지 보여주는 영상을 게시했습니다.

DeepSeek은 2024년 12월 DeepSeek-V3를 출시하면서 가장 주목할 만한 중국 AI 기업이 되었습니다. 이 모델은 GPT-4o와 비슷한 성능을 달성하지만 컴퓨팅 리소스의 일부만 사용합니다.

얼마 지나지 않아 DeepSeek은 DeepSeek-R1 추론 모델을 출시했습니다. TechCrunch 에 따르면 R1은 AIME, MATH-500, SWE-bench Verified 등의 벤치마크에서 OpenAI의 o1보다 우수한 성능을 보였습니다.

동시에, DeepSeek 모델의 최종 단계를 훈련하는 데 드는 비용이 560만 달러라는 점도 충격적입니다. 이는 미국의 주요 기업들이 모델을 훈련하는 데 지출해야 하는 수억 달러와 비교했을 때 더욱 그렇습니다.

출처: https://znews.vn/at-chu-bai-moi-cua-deepseek-lo-dien-post1540831.html

호치민시 주민들이 헬리콥터에서 국기 게양을 열렬히 지켜보고 있다.

이번 여름, 햇살 가득한 해변을 갖춘 다낭이 여러분을 기다리고 있습니다.

호치민 시 하늘에 당기와 국기를 게양하고 비행하도록 훈련된 헬리콥터

4월 30일 연휴 앞두고 '애국적인 아기' 열풍, 소셜 네트워크 확산