Zaskakująco niedrogi model AI Deepseek wyzwala gigantów branżowych. Firma twierdzi, że przeszkoliła swoją potężną sieć neuronową Deepseek V3 za zaledwie 6 milionów dolarów, wykorzystując tylko 2048 GPU, co stanowi wyraźny kontrast z znacznie wyższymi kosztami konkurentów. Jednak liczba ta jest myląca.
Samo introduk Deepseek: „Cześć, zostałem stworzony, abyś mógł zapytać o wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć”, wskazują na możliwości modelu, które spowodowały znaczny spadek ceny akcji NVIDIA. Sukces modelu wynika z innowacyjnych technologii:
- Prognozy wielu tokenów (MTP): Prognozuje wiele słów jednocześnie, zwiększając dokładność i wydajność.
- Mieszanka ekspertów (MOE): Zastosuje 256 sieci neuronowych, aktywując osiem dla każdego tokena, przyspieszając szkolenie i wydajność.
- Uczciwa uwaga z wieloma głównymi (MLA): Wielokrotnie wyodrębnia kluczowe szczegóły, minimalizując utratę informacji i zwiększając zrozumienie niuansów.
Obraz: engame.com
Pomimo niskich kosztów szkolenia, raport semianalizy ujawnia znaczną infrastrukturę Deepseek: około 50 000 GPU Nvidia Hopper (w tym jednostki H800, H100 i H20) rozłożonych na wiele centrów danych, kosztujące około 1,6 miliarda dolarów. Koszty operacyjne szacuje się na 944 mln USD.
Obraz: engame.com
Deepseek, spółka zależna High-Flyer, chińskiego funduszu hedgingowego, jest właścicielem swoich centrów danych, w przeciwieństwie do konkurencji w chmurze. Zapewnia to większą kontrolę i szybsze innowacje. Samofunduszu się sprzyja zwinności. Wysokie pensje (ponad 1,3 miliona dolarów rocznie dla niektórych badaczy) przyciągają najlepsze chińskie talenty, z wyłączeniem zagranicznych specjalistów.
Obraz: engame.com
Liczba 6 milionów dolarów obejmuje jedynie korzystanie z GPU przed treningiem, z wyłączeniem badań, udoskonalania, przetwarzania danych i infrastruktury. Całkowita inwestycja AI Deepseek przekracza 500 milionów dolarów. Jego szczupła struktura ułatwia wydajne innowacje.
Obraz: engame.com
Sukces Deepseek pokazuje dobrze finansowaną zdolność niezależnej firmy AI do konkurowania z uznanymi graczami. Jednak jego „przyjazne budżecie” roszczenie jest przesadzone; Kluczowe są miliardy inwestycji, przełom technicznych i silnym zespołem. Kontrast jest Stark: R1 Deepseek kosztował 5 milionów dolarów, podczas gdy Chatgpt-4 kosztował 100 milionów dolarów, co podkreśla znaczącą różnicę kosztów. Pomimo zawyżonego roszczenia koszt Deepseek pozostaje znacznie niższy niż jego konkurenci.