DeepSeek의 놀랍게도 저렴한 AI 모델은 업계 거인에게 도전합니다. 이 회사는 경쟁 업체의 상당히 높은 비용과는 대조적으로 2048 GPU 만 사용하여 강력한 Deepseek V3 Neural Network를 6 백만 달러에 불과했다고 주장합니다. 그러나이 수치는 오해의 소지가 있습니다.
DeepSeek의 자체 소개 : "안녕하세요, 나는 당신이 무엇이든 물어보고 당신을 놀라게 할 수있는 답을 얻을 수 있도록 만들어졌습니다."Nvidia의 주가에 큰 영향을 미쳤습니다. 이 모델의 성공은 혁신적인 기술에서 비롯됩니다.
- MTP (Multi-Token Prediction) : 여러 단어를 동시에 예측하여 정확도와 효율성을 높입니다.
- 전문가 혼합 (MOE) : 256 개의 신경망을 사용하여 각 토큰 당 8 개를 활성화하여 교육 및 성능 가속화됩니다.
- 멀티 헤드 잠재주의 (MLA) : 주요 세부 사항을 반복적으로 추출하여 정보 손실을 최소화하고 뉘앙스 이해를 향상시킵니다.
이미지 : ensigame.com
교육 비용 청구가 적었음에도 불구하고 Semianalysis 보고서에 따르면 DeepSeek의 실질적인 인프라가 나타납니다. 약 50,000 개의 NVIDIA HOPPER GPU (H800, H100 및 H20 단위 포함)가 여러 데이터 센터에 퍼져 약 16 억 달러가 소요됩니다. 운영 비용은 9 억 9,400 만 달러로 추정됩니다.
이미지 : ensigame.com
중국 헤지 펀드 인 High-Flyer의 자회사 인 Deepseek는 클라우드 관련 경쟁 업체와 달리 데이터 센터를 소유하고 있습니다. 이것은 더 큰 통제력과 더 빠른 혁신을 제공합니다. 회사의 자체 펀딩은 민첩성을 조성합니다. 높은 급여 (일부 연구원의 경우 매년 130 만 달러 이상)는 외국 전문가를 제외하고 중국 최고의 인재를 유치합니다.
이미지 : ensigame.com
6 백만 달러는 연구, 개선, 데이터 처리 및 인프라를 제외한 사전 훈련 GPU 사용에만 적용됩니다. DeepSeek의 총 AI 투자는 5 억 달러를 초과합니다. 린 구조는 효율적인 혁신을 촉진합니다.
이미지 : ensigame.com
Deepseek의 성공은 자금이 지원되는 독립 AI 회사의 기존 플레이어와 경쟁 할 수있는 능력을 보여줍니다. 그러나 "예산 친화적 인"청구는 과장되었습니다. 수십억의 투자, 기술 혁신 및 강력한 팀이 핵심 요소입니다. 대조는 명백합니다. DeepSeek의 R1은 5 백만 달러, ChatGpt-4는 1 억 달러가 1 억 달러로 상당한 비용 차이를 강조했습니다. 팽창 된 청구에도 불구하고 DeepSeek의 비용은 경쟁 업체보다 실질적으로 낮습니다.