Удивительно недорогие модели ИИ Deepseek бросают вызов гигантам отрасли. Компания утверждает, что обучила свою мощную нейронную сеть Deepseek V3 всего за 6 миллионов долларов, используя только 2048 графических процессоров, что резко контрастирует со значительно более высокими затратами конкурентов. Однако эта цифра вводит в заблуждение.
Самостояние DeepSeek: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас»,-намекает на возможности модели, что вызвало значительный падение цены акций Nvidia. Успех модели проистекает из инновационных технологий:
- Multi-Token Production (MTP): предсказывает несколько слов одновременно, повышение точности и эффективности.
- Смесь экспертов (MOE): использует 256 нейронных сетей, активируя восемь для каждого токена, ускоряя обучение и производительность.
- Многополосное скрытое внимание (MLA): Повторно извлекает ключевые детали, минимизируя потерю информации и улучшая понимание нюансов.
Изображение: Ensigame.com
Несмотря на требование о низких затратах на обучение, отчет о полуализации показывает существенную инфраструктуру Deepseek: приблизительно 50 000 графических процессоров Nvidia Hopper (включая H800, H100 и H20) распространяются по нескольким центрам обработки данных, стоимостью около 1,6 миллиарда долларов. Операционные расходы оцениваются в 944 миллиона долларов.
Изображение: Ensigame.com
DeepSeek, дочерняя компания High-Flyer, китайского хедж-фонда, владеет своими центрами обработки данных, в отличие от конкурентов. Это обеспечивает больший контроль и более быстрые инновации. Самофинансирование компании способствует гибкости. Высокая заработная плата (более 1,3 миллиона долларов в год для некоторых исследователей) привлекает лучших китайских талантов, за исключением иностранных специалистов.
Изображение: Ensigame.com
Цифра в 6 миллионов долларов охватывает только предварительное использование графического процессора, за исключением исследований, уточнения, обработки данных и инфраструктуры. Общее количество инвестиций DeepSeek в области ИИ превышает 500 миллионов долларов. Его бережливая структура облегчает эффективные инновации.
Изображение: Ensigame.com
Успех DeepSeek демонстрирует способность хорошо финансируемой независимой компании ИИ конкурировать с известными игроками. Тем не менее, его «Бюджетный» требование преувеличено; Миллиарды инвестиций, технические прорывы и сильная команда являются ключевыми факторами. Контраст-stark: Deepseek R1 стоит 5 миллионов долларов, а CHATGPT-4 стоит 100 миллионов долларов, что подчеркивает значительную разницу в стоимости. Несмотря на завышенную претензию, стоимость Deepseek остается существенно ниже, чем у его конкурентов.