Китайская компания по разработке искусственного интеллекта (ИИ) под названием DeepSeek вырвала ветер из парусов крупнейших мировых ИИ-компаний. Она также породила слухи о том, что в скором времени Китай может заменить США в качестве центра искусственного интеллекта и спровоцировать ценовую войну, которая может иметь реальные последствия. Но что же такое DeepSeek? Почему все одновременно очарованы и встревожены ею? И чего добилась компания?
Lifter предлагает узнать все, что известно об этом проекте на сегодняшний день и как он может изменить наш технологический мир.
Что такое DeepSeek и кому она принадлежит?

Дипсик – это название китайской фирмы по разработке искусственного интеллекта, базирующейся в Ханчжоу. Фирма, работающая как специализированная лаборатория, была открыта в мае 2023 года как отдельное подразделение хедж-фонда High-Flyer, также расположенного в этом городе.
Главным исполнительным директором (CEO) фирмы является Лян Вэньфэн. Он также является соучредителем High-Flyer вместе со своими однокурсниками по Чжэцзянскому университету Сюй Цзинем и Чжэн Давэем.
High-Flyer, которая является спонсором Дипсик, потратила 200 миллионов юаней (около 27 миллионов долларов США) в течение двух лет на создание кластера ИИ Fire-Flyer I. Впоследствии она потратила 1 миллиард юаней (около 137 миллионов долларов США) на создание преемника Fire Flyer I – Fire-Flyer II. По данным компании, в течение 2022 года Fire-Flyer II выполнял 1,35 миллиона задач. Что в общей сложности составило 56,74 миллиона часов работы GPU. Около 27 процентов из них составили часы работы GPU в режиме простоя, которые использовались для поддержки исследований.
High-Flyer был одним из самых сильных количественных фондов в Китае. Он управлял активами на сумму около 8 миллиардов долларов США по состоянию на 2024 год.
Позиция High-Flyer по-прежнему заключается в торговле с помощью алгоритмов машинного обучения. Но создание Дипсик направлено на достижение заявленной цели – создать «ИИ, который принесет пользу всему человечеству».
Что делает High-Flyer и, соответственно, Дипсик особенно примечательными, так это то, что ни один из основателей или команды не имеет американского или европейского опыта обучения или работы, в отличие от других крупных китайских квантовых фондов. Все члены компании учились в Китае и разрабатывали свои стратегии в этой стране.
Что такое DeepSeek-V3?
DeepSeek-V3 – это LLM-преемник DeepSeek-V2.
В три раза быстрее своего предшественника, V3 был запущен в решающую последнюю неделю декабря 2024 года в Китае. Именно эта модель впервые удивила гигантов, а DeepSeek-R1 вообще поверг их в шок. DeepSeek-V3 в значительной степени ориентирован на работу с текстом и может делать все — от перевода до написания эссе и кодирования. По данным Techcrunch, платформа для проведения соревнований по программированию Codeforces обнаружила, что V3 вскоре превзойдет GPT-4o от OpenAI, Llama 3.1 405B от Meta и Qwen 2.5 72B от Alibaba.
Он также способен писать новый код, который легко интегрируется в существующий. Это было доказано в тесте Aider Polyglot. По данным компании, LLM был обучен на наборе данных из 14,8 триллиона лексем. Поскольку 1 лексема примерно равна трем четвертям слова в английском тексте, обучающий набор V3 составляет около 11 триллионов слов.
Что такое DeepSeek-R1?
Компания, занимающаяся разработкой искусственного интеллекта, запустила DeepSeek-R1 и DeepSeek-R1-Zero 20 января 2025 года, примерно через два месяца после запуска предварительной версии LLM.
DeepSeek-R1 – это модель рассуждений, которая всколыхнула американских корпоративных гигантов ИИ, поскольку заголовки газет кричали, что она позволяет Дипсик соперничать с OpenAI. Как известно, это – ведущая компания и исследовательская организация в области ИИ в мире.
По словам представителей Дипсик, R1-Zero LLM «продемонстрировал замечательные результаты в рассуждениях». Он обучается с помощью крупномасштабного обучения с подкреплением (RL) без предварительной контролируемой тонкой настройки (SFT).
Компания заявила, что R1 был разработан для решения проблем бесконечного повторения, плохой читаемости и смешения языков, с которыми столкнулся R1-Zero. Он гораздо лучше справляется с такими задачами, как написание кода и математика, а также логическое мышление и общие знания, чем V3 и GPT-4o.
Почему достижение и создание DeepSeek так грандиозно?

На обучение DeepSeek-V3 LLM у Лян Вэньфэна и его команды ушло всего два месяца. Интересным моментом является то, что небольшой ИИ-лаборатории удалось сделать это с помощью графических процессоров NVIDIA H800 до того, как они попали в число вычислительных чипов, экспорт которых в Китай был ограничен администрацией Джо Байдена.
Графические процессоры H800 — это одно из последних поколений американских чипов для целей ИИ. Большинство мощных ИИ-центров в США уже использовали передовые графические процессоры NVIDIA H100, когда Дипсик полагалась на H800.
Другими словами, Дипсик, как сообщается, достигла того же уровня производительности, что и американские гиганты ИИ, используя чипы, которые по вычислительной мощности уступают последним. Неудивительно, что акции NVIDIA, которые за короткий срок сделали Дженсена Хуанга одним из самых богатых людей в мире, упали в считанные дни после выхода DeepSeek-R1 и роста популярности по всему миру.
DeepSeek-V3 также мощнее других в предсказаниях и решениях. Его размер составляет 671 миллиард параметров — почти в 1,6 раза больше, чем у Llama 3.1 405B. DeepSeek R1 тоже обучался на устаревших в США GPU и, тем не менее, показал результаты на уровне или даже лучше, чем LLM американских гигантов ИИ.
«Необходимость — мать изобретения. Поскольку им пришлось искать обходные пути, в итоге они создали нечто гораздо более эффективное». Об этом сказал генеральный директор Perplexity Аравинд Шринивас.
Что за шумиха вокруг цен на Дипсик?
В социальных сетях постоянно поднимаются цены на LLM, V3 и R1 компании Дипсик. По словам Дипсик, на обучение DeepSeek V3 было потрачено всего 5,5 млн долларов США, что в несколько раз меньше, чем 100 млн долларов США на разработку GPT-4 от OpenAI.
Обе модели также дешевле для пользователей. Например, DeepSeek-R1 можно использовать всего за 0,55 доллара США за миллион входных лексем и 2,19 доллара США за миллион выходных лексем. Аналогичные расходы на использование OpenAI LLMs примерно в 30 раз выше — 15 долларов США за миллион входных токенов и 60 долларов США за миллион выходных токенов. Стоимость использования DeepSeek-R1 примерно в четыре-семь раз выше стоимости использования DeepSeek-V3,. То есть последняя намного дешевле, чем любой признанный американский LLM.
Конечно, DeepSeek спровоцировал ценовую войну между гигантами ИИ. Но для компании это не впервой. Когда в мае 2024 года компания выпустила DeepSeek-V2, соотношение цены и производительности было настолько низким, что это заставило других китайских технологических гигантов, инвестировавших в разработку ИИ LLM, таких как ByteDance, Tencent, Baidu и Alibaba, радикально снизить цены. Для сравнения, DeepSeek V2, как сообщается, примерно в 70 раз дешевле, чем GPT-4 Turbo от OpenAI.
Является ли Дипсик открытым исходным кодом?
DeepSeek-V2, DeepSeek-V3 и DeepSeek-R1 – это лишь некоторые из нескольких моделей, созданных китайской лабораторией искусственного интеллекта. Среди других – DeepSeek Coder и типовая модель DeepSeek LLM.
Модели имеют открытый исходный код. То есть они доступны для свободного использования разработчиками, которые могут использовать модели DeepSeek для создания своих собственных моделей или их модификации. Это сильно отличается от политики компании OpenAI. Напомним, она в 2019 году из некоммерческой организации превратилась в коммерческую. И этот шаг часто критиковал Илон Маск, один из первых инвесторов OpenAI.
Как загрузить новую музыку на Facebook? Вот пошаговое руководство, как и где это можно сделать.