Mô hình AI rẻ tiền đáng ngạc nhiên của Deepseek thách thức những người khổng lồ trong ngành. Công ty tuyên bố đã đào tạo mạng lưới thần kinh Deepseek V3 mạnh mẽ của mình chỉ với 6 triệu đô la, chỉ sử dụng GPU 2048, một sự tương phản rõ rệt với chi phí cao hơn đáng kể của các đối thủ cạnh tranh. Tuy nhiên, con số này là sai lệch.
Sự tự giới thiệu của Deepseek: "Xin chào, tôi đã được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên", gợi ý về khả năng của người mẫu, điều này đã gây ra sự giảm lớn về giá cổ phiếu của NVIDIA. Thành công của mô hình bắt nguồn từ các công nghệ sáng tạo:
- Dự đoán đa điểm (MTP): Dự đoán đồng thời nhiều từ, tăng độ chính xác và hiệu quả.
- Hỗn hợp các chuyên gia (MOE): sử dụng 256 mạng thần kinh, kích hoạt tám cho mỗi mã thông báo, tăng tốc đào tạo và hiệu suất.
- Sự chú ý tiềm ẩn đa đầu (MLA): Càng lấy chi tiết chính, giảm thiểu mất thông tin và nâng cao sự hiểu biết về sắc thái.
Hình ảnh: Obligame.com
Mặc dù có yêu cầu chi phí đào tạo thấp, một báo cáo bán phân giải cho thấy cơ sở hạ tầng đáng kể của Deepseek: khoảng 50.000 GPU phễu NVIDIA (bao gồm H800, H100 và H20 đơn vị) trải rộng trên nhiều trung tâm dữ liệu, có giá khoảng 1,6 tỷ đô la. Chi phí hoạt động được ước tính là 944 triệu đô la.
Hình ảnh: Obligame.com
Deepseek, một công ty con của High Flyer, một quỹ phòng hộ của Trung Quốc, sở hữu các trung tâm dữ liệu của mình, không giống như các đối thủ cạnh tranh dựa trên đám mây. Điều này cung cấp sự kiểm soát lớn hơn và đổi mới nhanh hơn. Công ty tự tài trợ thúc đẩy sự nhanh nhẹn. Mức lương cao (hơn 1,3 triệu đô la hàng năm cho một số nhà nghiên cứu) thu hút tài năng hàng đầu của Trung Quốc, không bao gồm các chuyên gia nước ngoài.
Hình ảnh: Obligame.com
Con số 6 triệu đô la chỉ bao gồm việc sử dụng GPU trước khi đào tạo, không bao gồm nghiên cứu, tinh chỉnh, xử lý dữ liệu và cơ sở hạ tầng. Tổng đầu tư AI của Deepseek vượt quá 500 triệu đô la. Cấu trúc nạc của nó tạo điều kiện cho sự đổi mới hiệu quả.
Hình ảnh: Obligame.com
Thành công của Deepseek cho thấy khả năng cạnh tranh của công ty AI độc lập được tài trợ tốt với những người chơi đã thành lập. Tuy nhiên, yêu cầu "thân thiện với ngân sách" của nó được phóng đại; Hàng tỷ người đầu tư, đột phá kỹ thuật và một nhóm mạnh là yếu tố chính. Sự tương phản là Stark: R1 của Deepseek có giá 5 triệu đô la, trong khi TATGPT-4 có giá 100 triệu đô la, nhấn mạnh sự khác biệt về chi phí đáng kể. Mặc dù có yêu cầu tăng cao, chi phí của Deepseek vẫn thấp hơn đáng kể so với các đối thủ cạnh tranh.