DeepSeek – аналог ChatGPT или его "убийца"?

В январе текущего года китайская компания из города Ханчжоу, специализирующаяся в области разработки искусственного интеллекта (ИИ) представила версию R1 модели ИИ под названием DeepSeek. Эта новость буквально потрясла мир технологической индустрии, что наиболее ярко проявилось в резком падении акций производителей графических процессоров (GPU) на фондовых рынках, чего никогда ранее не фиксировалось в США. В чём же феномен «китайского чуда» и насколько серьезными могут быть последствия?      

В чем секрет успеха DeepSeek

Представленная китайскими инженерами модель ИИ является разновидностью большой языковой модели LLM (Large Language Model), которая используется для построения нейронных сетей для приложений ИИ. На их основе можно строить системы ИИ для внедрения в любую отрасль знаний – IT, автоматику, лингвистику, финансы и т. д.

Факт появления очередной модели ИИ сам по себе не является основанием для ажиотажа, ведь ежегодно в мире их появляются сотни штук и обычно на это обращают внимание только узкие специалисты. Но только не в этот раз.

Первая версия языковой модели под названием DeepSeek Coder увидела свет совсем недавно – в ноябре 2023 года и была ориентирована на решение задач по программированию. Тогда на неё мало кто обратил внимание. После этого последовали версии VL (март 2024г.) и V2 в мае того же года. Последний вариант оказался настолько успешным, что произвёл обвал цен на рынке китайских брендов, работающих в области IT – Alibaba, Baidu, Tencent и многих других.

В ноябре прошлого года вышел DeepSeek V3, который совершил прорыв в скорости вывода ответов по сравнению с более ранними версиями. Январская 2025 года версия DeepSeek R1 была построена на основе V3 и вобрала в себя её лучшие черты. Её основной задачей стало решение задач «на логику» и выполнение математических расчётов в реальном режиме времени.

Проект DeepSeek финансировался и финансируется исключительно с фонда китайской инвестиционной компании High-Flyer, оценённой примерно в $8 млрд., владельцем которой является частный предприниматель Лян Веньфэн. Около года назад, после выхода первой версии модели, он дал одно из первых своих интервью, где сформулировал основные тезисы своей концепции «новой революции» в мире IT.

Вот некоторые из его тезисов: «наша доминирующая стратегия – открытый исходный код, а не коммерциализация», «мы делаем упор на молодых местных талантов, а не на опытных или зарубежных специалистов», «мы не смотрим на то, выгодно это или невыгодно, а лишь на то, правильно это или неправильно», «мы хотим сломать традиционное мнение, что только американцы способны к разработке фундаментальных основ инноваций, а мы можем работать лишь с инновациями приложений».  

Генеральный директор Лян Веньфэн (справа) во время интервью осенью 2023 года.

Очевидно, что этот сорокалетний разработчик и руководитель проекта имеет амбиции претендовать на нечто большее, нежели просто создание «китайского чуда». Кстати, по словам некоторых из подчинённых Лян Веньфэна, он не похож на «классического босса», а «скорее на коллегу по научным изысканиям».    

Китайские инженеры на своём сайте открыли посредством API свободный доступ к LLM. Также был представлен рабочий вариант чата на базе DeepSeek R1 и подробная техническая документация к новой LLM со всеми экономическими расчётами по эффективности её использования.

   По результатам изучения представленных документов стало ясно, что новшество на несколько сотен процентов (!) эффективнее использующихся ныне LLM для приложений
ИИ.Это особенно важно для наукоёмкой области ИИ, которая требует больших капиталовложений на всех этапах технологического цикла – изучения, разработки, внедрения и эксплуатации.

Для объективной оценки эффективности того или иного технологического решения или IT-продукта необходимо иметь результаты по двум его основным показателям – производительности и сумме общих затрат. Только на основании этих показателей можно делать окончательные выводы об их эффективности. Рассмотрим эти показатели, опираясь на указанные выше документы.

Производительность

Китайская сторона представила результаты проведённых тестов для своих моделей DeepSeek версий R1 (январь 2025г.) и V3 (ноябрь 2024г.), а также новейших моделей компании OpenAI, Inc версий o1 1217 и o1 mini, разработанных в ноябре 2024г.

Тесты проводились для разных направлений развития искусственного интеллекта по известным во всём мире методикам:

Результаты тестирования сведём в Таблицу 1:

Таблица 1. Результаты тестирования DeepSeek V3, R1 и их аналогов.

Вид проверки

DeepSeek-R1 (%)

OpenAI o1-1217 (%)

Итоги

AIME 2024

79.8

79.2

DeepSeek-R1 – лучшая в решении математических задач

Codeforces

96.3

96.6

OpenAI-o1-1217 – лучшая в соревновательном программировании

GPQA Diamond

71.5

75.7

OpenAI-o1-1217 победила в общей производительности

MATH-500

97.3

96.4

DeepSeek-R1 победила в теме математических рассуждений

MMLU

90.8

91.8

OpenAI-o1-1217 показала лучшие результаты в теме общих знаний

SWE-bench Verified

49.2

48.9

DeepSeek-R1 победила в теме разработка ПО

Из результатов тестирования видно, что последняя версия китайской LLM в 50% тестов превосходит своих конкурентов. Следует отметить, что LLM o1 1217 и o1 mini от компании OpenAI, Inc являются основой для построения интеллектуального чат-бота ChatGPT, «взорвавшего» мир своей «интеллектуальностью» и широким спектром применения.

Сумма общих затрат

В документации от производителя приводятся данные об общих затратах на подготовку и ввод в эксплуатацию базовой версии DeepSeek V3, выраженные в GPU-часах и их денежном эквиваленте в USD. Были применены GPU-процессоры компании Nvidia модели H800. Здесь принималось, что 1 час работы GPU стоит $2. Общие результаты с разбивкой по каждому виду затрат сведены нами в Таблицу 2 в том же формате, в котором они были представлены самим производителем. 

Таблица 2. Общие затраты на подготовку и ввод в эксплуатацию модели DeepSeek V3.

Ед. измерения  затрат

Предварительное обучение модели

Расширение контекста

Последующая подстройка

Всего затрат

H800 GPU-часы

2664K

119K

5K

2788K

USD

$5,328M

0,238M

0,01M

5,576M

Таким образом, общая подготовка базовой  модели V3 и её ввод в эксплуатацию обошлись производителю в $5,576 млн. При этом было затрачено 2, 788 млн. GPU-часов. Время подготовки – в пределах двух месяцев.

Если сравнивать с конкурентами затраты по количеству часов, то подготовка моделей того же уровня компанией Meta AI обошлась последней в 30,8 млн. GPU-часов, что примерно в 10 (!) раз больше.   

Если сравнивать с ближайшими конкурентами затраты в денежном эквиваленте, то, например, общие инвестиции компании OpenAI, Inc в подготовку и выпуск модели o1 1217 оцениваются примерно в $6 млрд., что на несколько порядков выше.

Из приведённых данных можно сделать вывод, что эффективность представленной LLM DeepSeek в сравнении с имеющимися аналогами просто зашкаливает. То есть, это действительно технологический прорыв, и очень серьезный. Именно это явилось причиной обвала цен на фондовых биржах и «повергло в шок» компании монополистов – производителей GPU и моделей ИИ.

Чем DeepSeek уникален от других ИИ-моделей

Уникальность DeepSeek состоит в использовании ряда «нестандартных» решений при построении конфигурации LLM и разработке новых алгоритмов её обработки / обучения. Выделим основные из них:

Попробуйте удобный бесплатный Онлайн генератор доменов со встроенным AI - быстро, креативно и с учетом трендов! 

Мультимодальность (Multimodality) архитектуры языковой модели. Обеспечивается за счёт применения технологии MoE (Mixture-of-Experts), суть которой состоит в «разбивке» общего вычислительного пространства модели на отдельные подсети или «эксперты», каждый из которых специализируется в своей предметной области. Такая архитектура позволяет повысить производительность вычислений за счёт перенаправления входного потока данных (задачи) тем «экспертам», которые «в теме», и поэтому способны быстро решить задачу и выдать ответ.

Мы описали итоговую конфигурацию модели, полученную в результате применения указанной технологии, то есть, когда модель уже обучена. Для того, чтобы получить такой результат, нужно создать условия для обучения каждого из «экспертов». Причём, их обучение должно происходить постоянно, даже когда они просто отвечают на поставленные вопросы. И чем дольше длится процесс обучения, тем «умнее» становятся «эксперты», а, значит выше производительность модели в целом.

О возможностях применения MoE в нейронных сетях начали говорить ещё с 90-х годов прошлого столетия, например, в работах"Hierarchies of adaptive experts" и "Hierarchical Mixtures of Experts and the EM Algorithm" . Более того, MoE несколько лет назад начало рассматриваться, как возможное эффективное средство для глубокого обучения моделей ИИ. Первая научная статья об этом под названием «Learning Factored Representations in a Deep Mixture of Experts» была опубликована в 2013 году. Однако широкого практического применения в качестве средства обучения технология пока не получила, если, конечно, не считать DeepSeek.   

Использование методов смешанного обучения на основе самообучения. Для обучения модели здесь используется два подхода – самообучение и «тонкая настройка». Самообучение или обучение без учителя является одним из видов машинного обучения, при котором обучаемая сеть учится самостоятельно без «подсказок» извне. В этом случае системе не задаются правильные ответы для решения задач, и поэтому она должна находить их самостоятельно. Такой подход наиболее близок к принципам обучения или самообучения биологических систем, когда ответ на любой вопрос заранее неизвестен, а его нужно найти «своими силами».

Также преимуществом алгоритма является более высокий уровень производительности, поскольку здесь не нужно производить ресурсозатратные операции сравнения с предопределёнными ответами, поскольку система будет искать их самостоятельно. Теоретические основы рассматриваемого алгоритма ещё более 20-ти лет назад были заложены известным исследователем в области нейронных сетей Кохоненом и многими другими исследователями в области ИИ.       

Метод «тонкой настройки» является дополнительным и, как правило, используется для уточнения «знаний» уже обученной системы. Алгоритм особенно эффективен для «узких» областей знаний и не требует больших ресурсных затрат. Обучение происходит путём введения новой группы весовых коэффициентов, которые связывают последний слой модели с выходными данными последующего задания. Эта новая группа коэффициентов и подлежит изучению, оставляя в стороне исходные, уже изученные коэффициенты. Хотя и они в процессе обучения могут периодически модифицироваться системой. Этот метод подробно описан в 2023 году в работе Дэниела Джурафски из Стэндфордского Университета.

Использование технологии MLA (Multi-head Latent Attention). Технология является альтернативой известной технологии MHA (Multi-Head Attention) и позволяет оптимизировать используемую память кэша (KV) при выполнении вычислений в нейронных сетях. Это достигается за счёт увеличения числа параллельно обрабатываемых потоков в сравнении с традиционной технологией MHA, что, в конечном счете, ведёт к повышению производительности модели и увеличению её масштабируемости.      

Сравнение указанных технологий при организации вычислений в малой нейронной сети было сделано в недавно опубликованной работе одного из научных сотрудников Riot Games из США. В ней он допустил возможность эффективности MLA в случае её применения в больших сетях, что и было сделано в DeepSeek.

Сравнение DeepSeek и ChatGPT

На базе LLM-моделей могут создаваться всевозможные приложения ИИ, одним из которых является интеллектуальный чат-бот. Первый такой чат-бот под названием ChatGPT был выпущен американской компанией OpenAI, Inc ещё осенью 2022 года. В его названии присутствует название версии LLM-модели, разработанной той же компанией. Позже компания изменила порядок формирования названий версий, в результате чего появились o1 1217 и её «усечённый» вариант o1 mini, о которых уже говорилось выше.

На модели ChatGPT работает сервис подбора доменов HyperHost

Одновременно с выходом DeepSeek R1, разработчики модели представили Миру конкурирующий чат-бот, который по внешним признакам аналогичен проекту ChatGPT, но имеет своё «внутреннее наполнение» в виде новой конфигурации нейронной сети и алгоритмов её обработки, о чём говорилось выше.

Некоторыми независимыми экспертами был произведён ряд тестов нового чат-бота, в ходе которых выяснилось, что в целом он «адекватен» и его «способности» примерно соответствуют результатам тестов, приведённых нами ранее. Так, DeepSeek отлично справляется с решением математических задач на рассуждение, а также показывает хорошие результаты по программированию.       

Среди недостатков бота многие эксперты выделяют его определённую предвзятость в некоторых политических вопросах, касающихся КНР. Например, на вопрос о принадлежности Тайваня, бот «старался» вообще не отвечать или «излагал» ответ в пространных выражениях, что в целом соответствовало политическому видению данного вопроса действующей властью КНР. В остальном же бот давал вполне удовлетворительные ответы на поставленные экспертами вопросы.

Также было отмечено как недостаток отсутствие некоторых дополнительных функций, которые уже присутствуют в ChatGPT, например, это касается поддержки голоса и прочих кейсов.

Однако, для объективной оценки конкурирующих между собой чат-ботов, следует воспользоваться анализом сравнительной характеристики LLM-моделей, на базе которых они построены. Только в этом случае можно получить объективный вывод, опирающийся на научный подход.

В Таблице 3 представлены примерные сравнительные характеристики их моделей.

Таблица 3. Сравнение характеристик LLM-моделей чат-ботов ChatGPT и DeepSeek.

Показатель

ChatGPT

DeepSeek

Генеративный трансформер

Да

Да

Мультимодальность

Да. За счёт подсетей – «экспертов»

Оптимизация KV

Неизвестно

Да.

Технология MoE

Поддерживается

Тип обучения

Смешанное с упором на «обучение с учителем»

Смешанное на основании самообучения

Данные для обучения

Большие закрытые наборы

Открытые наборы данных

Обработка данных

В одном выч. пространстве

Разбивка на задачи между разными подсетями

Универсальность

Да. Больше подходит для общих заданий

Нет. Ориентирована на конкретные задачи

Распределение выч нагрузки

Отсутствуют механизмы

Оптимизировано между подсетями

Прогнозирование вывода

Последовательное

Параллельное

Скорость вывода результата

Зависит от типа запроса

Высокая всегда

Прозрачность

Ограниченный доступ к ресурсам

Открытый исходный код

Модель безопасности

Централизованная высоконадёжная

Децентрализованная с поддержкой приватности

Стоимость использования на 1 млн. токенов, $

60

2,19

Тип лицензии

Проприетарная

Свободная (Open Weights & MIT License)

Можно убедиться, что по многим показателям внутренней архитектуры и подходам к обработке данных модели различаются, несмотря на близкие показатели результатов их работы. Более того, их различие лежит в глубинной плоскости структуры LLM-сети. Модель ChatGPT является ярким примером централизованной полностью закрытой системы обработки информации, в то время, как DeepSeek использует все преимущества децентрализации и открытости – равномерное распределение нагрузки, низкая стоимость, высокая производительность, открытый код и возможность модификации структуры. Всё это делает DeepSeek более перспективной моделью, отвечающей веяниям времени.

Какую опасность несет DeepSeek

Из истории хорошо известно, что любое техническое новшество несёт в себе прогресс для человечества и одновременно упадок для тех, кто жил и продолжает жить по старому. И DeepSeek здесь не исключение. Именно он явился тем движителем, который заставит идти вперёд абсолютно всех, кто работает в области ИИ, начиная от разработчиков моделей и заканчивая производителями GPU-чипов. И этот процесс уже начался, хотя прошло всего несколько дней после презентации. Кто-то сменит методологию разработки и производства продуктов ИИ, а кто-то сократится или обанкротится. И это нормально. Также продолжится обесценивание всех наукоёмких Интернет-проектов и блокчейн здесь не исключение. Однозначно, «крипта» «пойдёт вниз» и этот процесс уже начался, судя по её текущей стоимости.

Польза для человечества вскоре проявится в широком внедрении сравнительно дешёвых систем и механизмов, построенных на основе ИИ, поскольку монополия на «дорогие» модели практически уже закончилась и поэтому любая рядовая IT-компания сможет создавать такие «чудеса техники», как говорящие роботы-контролёры, автопилоты для всех средств передвижения и многое другое.

Что же касается оценки того, насколько широкое внедрение ИИ отразится на каждом человеке, то давайте оставим это философам, которые лет через сто, возможно, найдут на это правильный ответ.