Ang nakakagulat na Deepseek ay murang mga hamon sa modelo ng AI na mga higante sa industriya. Inaangkin ng kumpanya na sinanay ang malakas na deepseek V3 neural network para sa isang $ 6 milyon lamang, na gumagamit lamang ng 2048 GPU, isang kaibahan na kaibahan sa mga mas mataas na gastos ng mga kakumpitensya. Gayunpaman, ang figure na ito ay nakaliligaw.
Ang pagpapakilala sa sarili ni Deepseek: "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka," mga pahiwatig sa mga kakayahan ng modelo, na nagdulot ng isang pangunahing paglubog sa presyo ng stock ng NVIDIA. Ang tagumpay ng modelo ay nagmula sa mga makabagong teknolohiya:
- Multi-Token Prediction (MTP): Hinuhulaan ng maraming mga salita nang sabay-sabay, pagpapalakas ng kawastuhan at kahusayan.
- Paghahalo ng mga eksperto (MOE): Gumagamit ng 256 Neural Networks, pag -activate ng walong para sa bawat token, pabilis na pagsasanay at pagganap.
- Multi-head Latent pansin (MLA): Paulit-ulit na kinukuha ang mga pangunahing detalye, pag-minimize ng pagkawala ng impormasyon at pagpapahusay ng pag-unawa sa nuance.
Imahe: ensigame.com
Sa kabila ng mababang pag -angkin ng gastos sa pagsasanay, ang isang ulat ng semianalysis ay nagpapakita ng malaking imprastraktura ng Deepseek: humigit -kumulang 50,000 NVIDIA HOPPER GPUs (kasama ang H800, H100, at H20 unit) na kumalat sa maraming mga sentro ng data, na nagkakahalaga ng $ 1.6 bilyon. Ang mga gastos sa pagpapatakbo ay tinatayang $ 944 milyon.
Imahe: ensigame.com
Ang DeepSeek, isang subsidiary ng High-Flyer, isang pondo ng hedge ng Tsino, ay nagmamay-ari ng mga sentro ng data nito, hindi katulad ng mga katunggali ng cloud-reliant. Nagbibigay ito ng higit na kontrol at mas mabilis na pagbabago. Ang pagpopondo ng sarili ng kumpanya ay nagtuturo ng liksi. Ang mga mataas na suweldo (higit sa $ 1.3 milyon taun -taon para sa ilang mga mananaliksik) ay nakakaakit ng nangungunang talento ng Tsino, hindi kasama ang mga dayuhang espesyalista.
Imahe: ensigame.com
Ang $ 6 milyong figure ay sumasaklaw lamang sa paggamit ng pre-pagsasanay ng GPU, hindi kasama ang pananaliksik, pagpipino, pagproseso ng data, at imprastraktura. Ang kabuuang pamumuhunan ng Deepseek ay lumampas sa $ 500 milyon. Ang sandalan na istraktura nito ay nagpapadali ng mahusay na pagbabago.
Imahe: ensigame.com
Ang tagumpay ng Deepseek ay nagpapakita ng isang mahusay na pinondohan na independiyenteng kakayahan ng kumpanya ng AI na makipagkumpetensya sa mga naitatag na manlalaro. Gayunpaman, ang "badyet-friendly" na paghahabol nito ay pinalaki; Bilyun -bilyon sa pamumuhunan, mga teknikal na pambihirang tagumpay, at isang malakas na koponan ang mga pangunahing kadahilanan. Ang kaibahan ay matatag: Ang R1 ng Deepseek ay nagkakahalaga ng $ 5 milyon, habang ang Chatgpt-4 ay nagkakahalaga ng $ 100 milyon, na binibigyang diin ang makabuluhang pagkakaiba sa gastos. Sa kabila ng napalaki na pag -angkin, ang gastos ng Deepseek ay nananatiling mas mababa kaysa sa mga katunggali nito.