Deepseek's verrassend goedkope AI -model daagt reuzen uit de industrie uit. Het bedrijf beweert zijn krachtige Deepseek V3 -neurale netwerk te hebben getraind voor slechts $ 6 miljoen, met slechts 2048 GPU's, een schril contrast met de aanzienlijk hogere kosten van concurrenten. Dit cijfer is echter misleidend.
Deepseek's zelfintroductie: "Hallo, ik ben gemaakt zodat je alles kunt vragen en een antwoord kunt krijgen dat je zelfs zou kunnen verrassen", hints naar de mogelijkheden van het model, die een grote dip in de aandelenkoers van Nvidia hebben veroorzaakt. Het succes van het model komt voort uit innovatieve technologieën:
- Multi-Token Prediction (MTP): voorspelt meerdere woorden tegelijkertijd, waardoor de nauwkeurigheid en efficiëntie worden verhoogd.
- Mix van experts (MOE): gebruikt 256 neurale netwerken, waarbij acht worden geactiveerd voor elk token, versnellende training en prestaties.
- Multi-head latente aandacht (MLA): Herhaaldelijk extraheert belangrijke details, het minimaliseren van informatieverlies en het verbeteren van nuance-begrip.
afbeelding: ensigame.com
Ondanks de claim met lage trainingskosten, onthult een semianyserapport de substantiële infrastructuur van Deepseek: ongeveer 50.000 NVIDIA -hopper GPU's (inclusief H800-, H100- en H20 -eenheden) verspreid over meerdere datacenters, die ongeveer $ 1,6 miljard kosten. Operationele kosten worden geschat op $ 944 miljoen.
afbeelding: ensigame.com
Deepseek, een dochteronderneming van High-Flyer, een Chinees hedgefonds, bezit zijn datacenters, in tegenstelling tot cloud-reliante concurrenten. Dit biedt meer controle en snellere innovatie. De zelffinanciering van het bedrijf bevordert behendigheid. Hoge salarissen (jaarlijks meer dan $ 1,3 miljoen voor sommige onderzoekers) trekken top Chinees talent aan, exclusief buitenlandse specialisten.
afbeelding: ensigame.com
Het cijfer van $ 6 miljoen omvat alleen pre-training GPU-gebruik, exclusief onderzoek, verfijning, gegevensverwerking en infrastructuur. De totale AI -investering van Deepseek is groter dan $ 500 miljoen. De magere structuur vergemakkelijkt efficiënte innovatie.
afbeelding: ensigame.com
Het succes van Deepseek toont een goed gefinancierd onafhankelijk AI-bedrijf om te concurreren met gevestigde spelers. De "budgetvriendelijke" claim is echter overdreven; Miljarden aan investeringen, technische doorbraken en een sterk team zijn belangrijke factoren. Het contrast is Stark: Deepseek's R1 kost $ 5 miljoen, terwijl Chatgpt-4 $ 100 miljoen kostte, wat het aanzienlijke kostenverschil benadrukt. Ondanks de opgeblazen claim blijven de kosten van Deepseek aanzienlijk lager dan zijn concurrenten.