Выпуск DeepSeek V3 0324: Краткий обзор

DeepSeek V3-0324 является обновленной версией контрольной точки модели DeepSeek V3, дата выпуска которой зафиксирована в ее названии — 24 марта 2025 года. Первые обсуждения предполагают улучшения в возможностях кодирования и сложном рассуждении, о чем упоминается в недавних статьях. Модель доступна на GitHub DeepSeek-V3 GitHub и Hugging Face DeepSeek-V3-0324 Hugging Face, отражая

Build APIs Faster & Together in Apidog

Выпуск DeepSeek V3 0324: Краткий обзор

Start for free
Inhalte

DeepSeek V3-0324 является обновленной версией контрольной точки модели DeepSeek V3, дата выпуска которой зафиксирована в ее названии — 24 марта 2025 года. Первые обсуждения предполагают улучшения в возможностях кодирования и сложном рассуждении, о чем упоминается в недавних статьях. Модель доступна на GitHub DeepSeek-V3 GitHub и Hugging Face DeepSeek-V3-0324 Hugging Face, отражая ее открытый исходный код и доступность.

Anakin.ai - One-Stop AI App Platform
Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.


Введение в DeepSeek V3-0324

DeepSeek V3-0324 — это передовая языковая модель с открытым исходным кодом, разработанная компанией DeepSeek AI, выпущенная 24 марта 2025 года. Эта модель является обновленной версией предыдущей DeepSeek V3, известной своим большим масштабом и эффективностью. С 671 миллиардом параметров и только 37 миллиардами, активируемыми на токен, она использует современные архитектуры для обработки сложных задач, таких как кодирование, логическое рассуждение и многиязычная обработка. Эта статья исследует ее архитектуру, обучение, производительность и потенциал, предлагая идеи для тех, кто заинтересован в развитии ИИ.

Архитектура модели DeepSeek V3-0324

DeepSeek V3-0324 использует подход Mixture-of-Experts (MoE), где множество экспертных сетей специализируются на разных аспектах данных. Это позволяет использовать 671 миллиард параметров, при этом только 37 миллиардов активны на токен, что увеличивает эффективность. Многоглавое латентное внимание (MLA) сжимает векторы ключей и значений, уменьшая использование памяти и ускоряя вывод, особенно для длинных контекстов. Архитектура DeepSeekMoE, усовершенствованный вариант MoE, обеспечивает балансировку нагрузки без дополнительных потерь, стабилизируя обучение. Кроме того, цель Multi-Token Prediction (MTP) предсказывает несколько будущих токенов, увеличивая плотность обучающих сигналов и позволяя более быструю генерацию через спекулятивное декодирование.

💡
Хотите узнать о последних трендах в ИИ?

Тогда вам нельзя пропустить Anakin AI!

Anakin AI — это универсальная платформа для автоматизации всех ваших рабочих процессов, создание мощного ИИ-приложения с помощью простого конструктора No Code, с Deepseek, o3-mini-high от OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

Создайте ваше ИИ-приложение мечты за считанные минуты, а не недели с Anakin AI!
Anakin AI: Ваша универсальная платформа для ИИ
Anakin AI: Ваша универсальная платформа для ИИ

Модель была предобучена на 14.8 триллионах высококачественных, разнообразных токенов, охватывающих математику, программирование и множество языков. Она использует смешанную точность FP8 для эффективности, сокращая затраты и время обучения по сравнению с традиционными методами. Постобучение включает в себя управляемую тонкую настройку на 1.5 миллионах примеров в различных областях, улучшенную с помощью обучения с подкреплением, что уточняет возможности, такие как рассуждение и генерация кода. Этот процесс, обошедшийся в 2.788 миллиона часов GPU H800, подчеркивает его экономическую эффективность.

Производительность и оценка DeepSeek V3-0324

DeepSeek V3-0324 демонстрирует отличные результаты в различных бенчмарках, особенно в кодировании и рассуждении. Она достигает 65.2% на HumanEval для генерации кода и 89.3% на GSM8K для математики, превосходя многие модели с открытым исходным кодом. В постобучении она набирает 88.5% на MMLU и 70.0% на AlpacaEval 2.0, конкурируя с закрытыми моделями, такими как GPT-4o и Claude-3.5-Sonnet. Ее способность справляться с окном контекста 128K и достигать 1.8 раза токенов в секунду (TPS) через MTP подчеркивает ее практическую эффективность.


Это обзорное примечание предоставляет подробное изучение DeepSeek V3-0324, модели с открытым исходным кодом, выпущенной DeepSeek AI 24 марта 2025 года. Она основана на оригинальной DeepSeek V3, выпущенной ранее, и примечательна своими достижениями в задачах кодирования и рассуждения. Далее будут рассмотрены ее архитектура, обучение, оценка и будущие последствия, предлагая всесторонний анализ для исследователей и энтузиастов ИИ.

Фон и выпуск

Архитектура модели

Архитектура DeepSeek V3-0324 основана на фреймворке Mixture-of-Experts (MoE), с 671 миллиардом параметров и 37 миллиардами активируемыми на токен. Этот дизайн, подробно описанный в техническом отчете, позволяет эффективно рассчитывать, активируя только подмножество экспертов на токен. Многоглавое латентное внимание (MLA), как описано в отчете, сжимает векторы ключей и значений, чтобы уменьшить кэш KV, увеличивая скорость вывода. Архитектура DeepSeekMoE, состоящая из 61 слоя трансформеров и 256 маршрутизированных экспертов на слой MoE, включает стратегию балансировки нагрузки без дополнительной потери, обеспечивая стабильное обучение без дополнительных потерь. Цель Multi-Token Prediction (MTP), предсказывающая один дополнительный токен (D=1), увеличивает плотность обучающих сигналов и поддерживает спекулятивное декодирование, достигая 1.8 токенов в секунду (TPS) во время вывода.

Компонент архитектуры Детали
Всего параметров 671B, из которых 37B активируемы на токен
MLA Сжимает кэш KV, размер встраивания 7168, 128 голов, по 128 на голову
DeepSeekMoE 61 слой, 1 общий эксперт, 256 маршрутизированных, 8 активируемых на токен
Цель MTP Предсказывает следующие 2 токена, вес потерь 0.3 изначально, затем 0.1, D=1

Процесс обучения

Обучение включало предобучение на 14.8 триллионах токенов, дополненное математическими, программными и многоязычными примерами. Конструкция данных уточнила минимизацию избыточности и использовала упаковку документов без маскирования перекрестного внимания между примерами, наряду со стратегией Fill-in-Middle (FIM) с 0.1 ставкой через Prefix-Suffix-Middle (PSM). Токенизатор, основанный на уровне байтов BPE с 128K токенами, был модифицирован для многоязычной эффективности. Обучение с смешанной точностью FP8, проверенное на больших масштабах, сократило затраты, составив 2.664 миллиона часов GPU H800 для предобучения, в общей сложности 2.788 миллиона для полного обучения, обходясь в приблизительно 5.576 миллионов долларов по ставке 2 доллара за час GPU. Постобучение включало управляемую тонкую настройку на 1.5 миллионах экземпляров, с данными от DeepSeek-R1 для рассуждений и DeepSeek-V2.5 для нерассуждений, проверенные людьми, после чего следовало обучение с подкреплением.

Аспект обучения Детали
Токены предобучения 14.8T, разнообразные и высококачественные
Точность Смешанная FP8, по плитам для активаций, по блокам для весов
Данные постобучения 1.5M экземпляров, SFT и RL, области включают рассуждения и код
Часы GPU 2.788M H800, общая стоимость 5.576M долларов по 2 доллара за час GPU

Оценка и производительность

Результаты оценки, согласно техническому отчету, показывают мастерство DeepSeek V3-0324 в различных бенчмарках. Оценки предобучения включают:

Бенчмарк Метрика Результат Сравнение
BBH 3-shot EM 87.5% Превосходит Qwen2.5 72B (79.8%), LLaMA-3.1 405B (82.9%)
MMLU 5-shot EM 87.1% Опередила DeepSeek-V2 Base (78.4%), близка к Qwen2.5 (85.0%)
HumanEval 0-shot P@1 65.2% Превосходит LLaMA-3.1 405B (54.9%), Qwen2.5 72B (53.0%)
GSM8K 8-shot EM 89.3% Лучше, чем Qwen2.5 72B (88.3%), LLaMA-3.1 405B (83.5%)

После обучения модель чата демонстрирует 88.5% на MMLU, 70.0% на AlpacaEval 2.0 и более 86% выигрышного рейтинга на Arena-Hard против GPT-4-0314, конкурируя с закрытыми моделями, такими как GPT-4o и Claude-3.5-Sonnet. Ее окно контекста 128K и TPS 1.8x, активируемое MTP, подчеркивающее практическую эффективность, отмечается на ранних обсуждениях улучшения способностей кодирования по сравнению с предыдущими версиями.

Применения и будущие направления

Возможности DeepSeek V3-0324 предполагают приложения в автоматизированном кодировании, системах продвинутого рассуждения и многоязычных чат-ботах. Ее открытый исходный код, лицензия MIT для кода, поддерживает коммерческое использование, способствуя вкладу сообщества. Будущие направления могут включать уточнение архитектур для бесконечного контекста, улучшение качества данных и исследование комплексных методов оценки, о чем упоминается в заключении технического отчета.

Заключение

DeepSeek V3-0324 является значительным достижением в сфере открытого ИИ, заполняя пробелы с закрытыми моделями. Ее эффективная архитектура, обширное обучение и высокая производительность позиционируют ее как лидера, с потенциалом дальнейшего продвижения инноваций в области обработки естественного языка.