O modelo de IA surpreendentemente barato de Deepseek desafia os gigantes da indústria. A empresa afirma ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões, utilizando apenas 2048 GPUs, um forte contraste com os custos significativamente mais altos dos concorrentes. No entanto, esse número é enganoso.
A auto-introdução de Deepseek: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê-lo", sugere as capacidades do modelo, que causaram uma grande queda no preço das ações da NVIDIA. O sucesso do modelo deriva de tecnologias inovadoras:
- Previsão com vários toques (MTP): Prevendo várias palavras simultaneamente, aumentando a precisão e a eficiência.
- Mistura de especialistas (MOE): Emprega 256 redes neurais, ativando oito para cada token, acelerando treinamento e desempenho.
- Atenção latente de várias cabeças (MLA): Extrai repetidamente os principais detalhes, minimizando a perda de informações e aprimorando a compreensão das nuances.
imagem: ensigame.com
Apesar da reivindicação de baixo custo de treinamento, um relatório de semiânica revela a infraestrutura substancial da Deepseek: aproximadamente 50.000 GPUs NVIDIA Hopper (incluindo H800, H100 e H20) se espalham por vários data centers, custando cerca de US $ 1,6 bilhão. As despesas operacionais são estimadas em US $ 944 milhões.
imagem: ensigame.com
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, diferentemente dos concorrentes dependentes da nuvem. Isso fornece maior controle e inovação mais rápida. A auto-financiamento da empresa promove agilidade. Altos salários (mais de US $ 1,3 milhão anualmente para alguns pesquisadores) atraem os principais talentos chineses, excluindo especialistas estrangeiros.
imagem: ensigame.com
O número de US $ 6 milhões abrange apenas o uso de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura. O investimento total de IA da Deepseek excede US $ 500 milhões. Sua estrutura enxuta facilita a inovação eficiente.
imagem: ensigame.com
O sucesso da Deepseek demonstra uma capacidade independente de IA bem financiada de competir com jogadores estabelecidos. No entanto, sua reivindicação "amiga do orçamento" é exagerada; Bilhões em investimento, avanços técnicos e uma equipe forte são fatores -chave. O contraste é Stark: o R1 da Deepseek custou US $ 5 milhões, enquanto o ChatGPT-4 custa US $ 100 milhões, destacando a diferença de custo significativa. Apesar da reivindicação inflada, o custo da Deepseek permanece substancialmente menor que seus concorrentes.