DeepSeek の新しい AI は、その優れたパフォーマンスにより、テクノロジーの世界で引き続き話題を呼んでいます。写真: SCMP 。 |
DeepSeek は、V3 大規模言語モデル (LLM) シリーズの最新バージョンである DeepSeek V3-0324 を正式に発表しました。
以前のバージョンと同様に、このモデルは Hugging Face プラットフォームを通じてオープンソースとして無料でリリースされており、特に推論とプログラミングの分野で以前のバージョンよりも大幅に改善されています。
具体的には、OpenRouter によると、DeepSeek V3-0324 は、一部の中国の AI モデルで非常に人気があり、6,850 億のパラメータを持つ機械学習手法である Mixture of Experts (MoE) を使用して構築されています。
初期レビューによると、このモデルはさまざまなタスクで優れたパフォーマンスを発揮します。一方、Reddit の投稿によると、DeepSeek V3-0324 はプログラミング コード生成のテストで Google の Sonnet 3.7 モデルに追いついたとのことです。
情報筋によると、DeepSeek V3-0324 はエラーなしで長いコード スニペットを生成できることも示されています。 AI Analytics Vidhya はこのモデルをテストし、700 行のコードをスムーズに生成できることを記録しました。
X では、DeepSeek V3-0324 アプリケーションも大きな反響を呼びました。それを証明するため、Deepanshu Sharma 氏は、この AI モデルが 800 行を超えるコードを含む完全な Web サイトをスムーズに生成する方法を示すビデオを投稿しました。
DeepSeekは、2024年12月にDeepSeek-V3をリリースし、最も注目される中国のAI企業となりました。このモデルは GPT-4o に匹敵するパフォーマンスを実現しますが、計算リソースはごくわずかしか使用しません。
その後間もなく、DeepSeek は DeepSeek-R1 推論モデルのリリースを続けました。 TechCrunchによると、R1 は AIME、MATH-500、SWE-bench Verified などのベンチマークで OpenAI の o1 を上回っています。
同時に、DeepSeek のモデルの最終段階をトレーニングするために560 万ドルという数字も、米国の大手企業がモデルのトレーニングに費やす数億ドルと比較すると衝撃的です。
出典: https://znews.vn/at-chu-bai-moi-cua-deepseek-lo-dien-post1540831.html
コメント (0)