Il modello AI sorprendentemente economico di Deepseek sfida i giganti del settore. La società afferma di aver formato la sua potente rete neurale di DeepSeek V3 per soli $ 6 milioni, utilizzando solo 2048 GPU, un netto contrasto con i costi significativamente più elevati dei concorrenti. Tuttavia, questa cifra è fuorviante.
L'autointroduzione di Deepseek: "Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti", suggerisce le capacità del modello, che hanno causato un grave calo del prezzo delle azioni di Nvidia. Il successo del modello deriva da tecnologie innovative:
- Previsione multi-token (MTP): prevede contemporaneamente più parole, aumentando l'accuratezza ed efficienza.
- Miscela di esperti (MOE): impiega 256 reti neurali, attivando otto per ogni token, accelerando la formazione e le prestazioni.
- Attenzione latente multi-testa (MLA): estrae ripetutamente i dettagli chiave, minimizzando la perdita di informazioni e migliorando la comprensione della sfumatura.
Immagine: Ensigame.com
Nonostante la bassa richiesta di costi di allenamento, un rapporto di semianalisi rivela una sostanziale infrastruttura di DeepSeek: circa 50.000 GPU di Nvidia Hopper (tra cui unità H800, H100 e H20) si sono diffuse su più data center, costando circa $ 1,6 miliardi. Le spese operative sono stimate in $ 944 milioni.
Immagine: Ensigame.com
DeepSeek, una filiale di High-Flyer, un hedge fund cinese, possiede i suoi data center, a differenza dei concorrenti al centro del cloud. Ciò fornisce un maggiore controllo e un'innovazione più rapida. L'autofinanziamento dell'azienda promuove l'agilità. Gli alti salari (oltre $ 1,3 milioni all'anno per alcuni ricercatori) attirano i migliori talenti cinesi, esclusi gli specialisti stranieri.
Immagine: Ensigame.com
La cifra di $ 6 milioni copre solo l'utilizzo della GPU pre-allenamento, escluso la ricerca, la raffinatezza, l'elaborazione dei dati e l'infrastruttura. L'investimento totale di intelligenza artificiale di Deepseek supera $ 500 milioni. La sua struttura magra facilita l'innovazione efficiente.
Immagine: Ensigame.com
Il successo di Deepseek dimostra una capacità di AI indipendente ben finanziata di competere con i giocatori affermati. Tuttavia, la sua affermazione "economica" è esagerata; Miliardi di investimenti, scoperte tecniche e una squadra forte sono fattori chiave. Il contrasto è netto: R1 di Deepseek costano $ 5 milioni, mentre CHATGPT-4 costano $ 100 milioni, evidenziando la differenza di costo significativa. Nonostante l'affermazione gonfiata, il costo di Deepseek rimane sostanzialmente inferiore ai suoi concorrenti.