El modelo de IA sorprendentemente económico de Deepseek desafía a los gigantes de la industria. La compañía afirma haber capacitado a su poderosa red neuronal Deepseek V3 por solo $ 6 millones, utilizando solo 2048 GPU, un marcado contraste con los costos significativamente más altos de los competidores. Sin embargo, esta figura es engañosa.
La autointroducción de Deepseek: "Hola, fui creado para que puedas pedir cualquier cosa y obtener una respuesta que incluso te sorprenda", insinúa las capacidades del modelo, que han causado una gran caída en el precio de las acciones de Nvidia. El éxito del modelo proviene de tecnologías innovadoras:
- Predicción de múltiples token (MTP): predice múltiples palabras simultáneamente, aumentando la precisión y la eficiencia.
- Mezcla de expertos (MOE): Emplea 256 redes neuronales, activando ocho para cada token, acelerando la capacitación y el rendimiento.
- Atención latente de múltiples cabezas (MLA): extrae repetidamente detalles clave, minimizando la pérdida de información y mejorando la comprensión de los matices.
Imagen: Ensigame.com
A pesar del bajo reclamo de costos de capacitación, un informe de semianálisis revela la infraestructura sustancial de Deepseek: aproximadamente 50,000 GPU de tolva NVIDIA (incluidas H800, H100 y H20 unidades) se extienden en múltiples centros de datos, que cuestan alrededor de $ 1.6 mil millones. Los gastos operativos se estiman en $ 944 millones.
Imagen: Ensigame.com
Deepseek, una subsidiaria de High-Flyer, un fondo de cobertura chino, posee sus centros de datos, a diferencia de los competidores que dependen de la nube. Esto proporciona un mayor control e innovación más rápida. La autofinanciación de la compañía fomenta la agilidad. Los altos salarios (más de $ 1.3 millones anuales para algunos investigadores) atraen a los mejores talentos chinos, excluyendo a especialistas extranjeros.
Imagen: Ensigame.com
La cifra de $ 6 millones solo cubre el uso de la GPU previa al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura. La inversión total de IA de Deepseek supera los $ 500 millones. Su estructura magra facilita la innovación eficiente.
Imagen: Ensigame.com
El éxito de Deepseek demuestra la capacidad de una compañía de IA independiente bien financiada para competir con jugadores establecidos. Sin embargo, su reclamo "económico" es exagerado; miles de millones en inversiones, avances técnicos y un equipo fuerte son factores clave. El contraste es Stark: R1 de Deepseek costó $ 5 millones, mientras que ChatGPT-4 costó $ 100 millones, destacando la diferencia de costo significativa. A pesar del reclamo inflado, el costo de Deepseek sigue siendo sustancialmente más bajo que sus competidores.