Deepseekの驚くほど安価なAIモデルは、業界の巨人に挑戦しています。同社は、競合他社の大幅に高いコストとは対照的に、2048 GPUのみを利用して、強力なDeepseek V3ニューラルネットワークをわずか600万ドルで訓練したと主張しています。しかし、この数字は誤解を招くものです。
Deepseekの自己紹介:「こんにちは、私は作成されたので、あなたは何でも尋ねて、あなたを驚かせるかもしれない答えを得ることができます」と、Nvidiaの株価に大きなDIPを引き起こしたモデルの機能を示唆しています。モデルの成功は、革新的なテクノロジーに由来しています。
- マルチトークン予測(MTP):複数の単語を同時に予測し、精度と効率を高めます。
- 専門家(MOE)の混合物: 256個のニューラルネットワークを採用し、トークンごとに8個をアクティブにし、トレーニングとパフォーマンスを加速します。
- マルチヘッドの潜在的注意(MLA):重要な詳細を繰り返し抽出し、情報の損失を最小限に抑え、ニュアンスの理解を高めます。
画像:Ensigame.com
トレーニングコストの低い請求にもかかわらず、Semianalysisの報告書は、Deepseekの実質的なインフラストラクチャを明らかにしています。約50,000のNvidia Hopper GPU(H800、H100、およびH20ユニットを含む)は、複数のデータセンターに広がっており、約16億ドルです。運用費用は9億4,400万ドルと推定されています。
画像:Ensigame.com
中国のヘッジファンドであるHigh-Flyerの子会社であるDeepseekは、クラウドに依存している競合他社とは異なり、データセンターを所有しています。これにより、より大きな制御とより高速なイノベーションが提供されます。同社の自己資金は敏ility性を促進します。外国人の専門家を除く、高給(一部の研究者にとって年間130万ドル以上)が中国のトップの才能を引き付けています。
画像:Ensigame.com
600万ドルの数字は、研究、洗練、データ処理、インフラストラクチャを除く、トレーニング前のGPU使用のみをカバーしています。 Deepseekの総AI投資は5億ドルを超えています。その無駄のない構造は、効率的なイノベーションを促進します。
画像:Ensigame.com
Deepseekの成功は、確立されたプレーヤーと競争する資金提供された独立したAI企業の能力を示しています。しかし、その「予算に優しい」主張は誇張されています。投資、技術的なブレークスルー、強力なチームの数十億は重要な要素です。コントラストは厳しいです:DeepseekのR1の費用は500万ドルですが、ChatGPT-4は1億ドルかかり、大きなコストの差を強調しています。請求が膨らんだにもかかわらず、DeepSeekのコストは競合他社よりも大幅に低いままです。