Deepseek yang menghairankan model AI yang murah mencabar gergasi industri. Syarikat itu mendakwa telah melatih rangkaian saraf Deepseek V3 yang kuat untuk hanya $ 6 juta, hanya menggunakan 2048 GPU, yang sangat berbeza dengan kos pesaing yang lebih tinggi. Walau bagaimanapun, angka ini mengelirukan.
Pengenalan diri Deepseek: "Hai, saya telah dicipta supaya anda boleh meminta apa-apa dan mendapatkan jawapan yang mungkin mengejutkan anda," petunjuk pada keupayaan model, yang telah menyebabkan penurunan besar dalam harga saham Nvidia. Kejayaan model berpunca dari teknologi inovatif:
- Ramalan Multi-Token (MTP): Meramalkan beberapa perkataan secara serentak, meningkatkan ketepatan dan kecekapan.
- Campuran Pakar (MOE): Menggaji 256 rangkaian saraf, mengaktifkan lapan untuk setiap token, mempercepatkan latihan dan prestasi.
- Perhatian Laten Multi-Head (MLA): Berulang kali mengekstrak butiran utama, meminimumkan kehilangan maklumat dan meningkatkan pemahaman nuansa.
imej: ensigame.com
Walaupun tuntutan kos latihan yang rendah, laporan semianalisis mendedahkan infrastruktur besar DeepSeek: kira -kira 50,000 GPU NVIDIA Hopper (termasuk H800, H100, dan H20 unit) tersebar di pelbagai pusat data, dengan harga sekitar $ 1.6 bilion. Perbelanjaan operasi dianggarkan $ 944 juta.
imej: ensigame.com
DeepSeek, anak syarikat High-Flyer, dana lindung nilai Cina, memiliki pusat datanya, tidak seperti pesaing yang berasal dari awan. Ini memberikan kawalan yang lebih besar dan inovasi yang lebih cepat. Pembiayaan diri syarikat itu memupuk ketangkasan. Gaji tinggi (lebih daripada $ 1.3 juta setahun untuk sesetengah penyelidik) menarik bakat Cina teratas, tidak termasuk pakar asing.
imej: ensigame.com
Angka $ 6 juta hanya meliputi penggunaan GPU pra-latihan, tidak termasuk penyelidikan, penghalusan, pemprosesan data, dan infrastruktur. Jumlah pelaburan AI DeepSeek melebihi $ 500 juta. Struktur rampingnya memudahkan inovasi yang cekap.
imej: ensigame.com
Kejayaan DeepSeek menunjukkan keupayaan syarikat AI yang dibiayai dengan baik untuk bersaing dengan pemain yang ditubuhkan. Walau bagaimanapun, tuntutan "mesra bajet" dibesar-besarkan; Berbilion dalam pelaburan, kejayaan teknikal, dan pasukan yang kuat adalah faktor utama. Perbezaannya adalah Stark: DeepSeek's R1 berharga $ 5 juta, manakala ChatGPT-4 berharga $ 100 juta, menonjolkan perbezaan kos yang signifikan. Walaupun tuntutan yang melambung, kos DeepSeek masih jauh lebih rendah daripada pesaingnya.