DeepSeek令人惊讶的是,廉价的AI模型挑战了行业巨头。该公司声称已经培训了其强大的DeepSeek V3神经网络,仅利用2048 GPU,这与竞争对手的成本明显更高。但是,这个数字具有误导性。
DeepSeek的自我引言:“嗨,我是被创造的,所以您可以问任何问题并得到一个甚至可能会让您感到惊讶的答案,”该模型的功能暗示了Nvidia的股票价格大幅下降。该模型的成功源于创新技术:
- 多语预测(MTP):同时预测多个单词,提高准确性和效率。
- 专家的混合物(MOE):使用256个神经网络,每个令牌激活8个,加速培训和性能。
- 多头潜在注意力(MLA):反复提取关键细节,最大程度地减少信息丢失并增强细微差别的理解。
图像:ensigame.com
尽管培训成本较低,但一份半分析报告揭示了DeepSeek的大量基础设施:大约50,000个NVIDIA HOPPER GPU(包括H800,H100和H20单位)分布在多个数据中心,成本约为16亿美元。运营费用估计为9.44亿美元。
图像:ensigame.com
中国对冲基金High-Flyer的子公司DeepSeek拥有其数据中心,与云依赖的竞争对手不同。这提供了更大的控制和更快的创新。该公司的自筹资金促进了敏捷性。高薪(对于一些研究人员来说,每年超过130万美元)吸引了中国顶级人才,不包括外国专家。
图像:ensigame.com
这笔600万美元的数字仅涵盖培训前的GPU使用情况,不包括研究,改进,数据处理和基础架构。 DeepSeek的总AI投资超过5亿美元。它的精益结构有助于有效的创新。
图像:ensigame.com
DeepSeek的成功表明了一家资金充足的独立AI公司与知名球员竞争的能力。但是,其“预算友好”的主张被夸大了。数十亿美元的投资,技术突破和强大的团队是关键因素。对比是鲜明的:DeepSeek的R1耗资500万美元,而Chatgpt-4的成本为1亿美元,突出了巨大的成本差异。尽管提出了夸张的说法,但DeepSeek的成本仍然大大低于其竞争对手。