Lançamento do DeepSeek V3 0324: Uma Visão Geral

DeepSeek V3-0324 é um checkpoint atualizado do modelo DeepSeek V3, com sua data de lançamento, 24 de março de 2025, incorporada em seu nome. Discussões iniciais sugerem melhorias nas capacidades de codificação e raciocínio complexo, conforme observado em artigos recentes. O modelo está disponível no GitHub DeepSeek-V3 GitHub e no

Build APIs Faster & Together in Apidog

Lançamento do DeepSeek V3 0324: Uma Visão Geral

Start for free
Inhalte

DeepSeek V3-0324 é um checkpoint atualizado do modelo DeepSeek V3, com sua data de lançamento, 24 de março de 2025, incorporada em seu nome. Discussões iniciais sugerem melhorias nas capacidades de codificação e raciocínio complexo, conforme observado em artigos recentes. O modelo está disponível no GitHub DeepSeek-V3 GitHub e no Hugging Face DeepSeek-V3-0324 Hugging Face, refletindo sua natureza de código aberto e acessibilidade.

Anakin.ai - One-Stop AI App Platform
Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.


Introdução ao DeepSeek V3-0324

DeepSeek V3-0324 é um modelo de linguagem de código aberto de ponta, desenvolvido pela DeepSeek AI, lançado em 24 de março de 2025. Este modelo é uma versão atualizada do DeepSeek V3 anterior, conhecido por sua grande escala e eficiência. Com 671 bilhões de parâmetros totais e apenas 37 bilhões ativados por token, ele utiliza arquiteturas avançadas para lidar com tarefas complexas como codificação, raciocínio e processamento multilíngue. Este artigo explora sua arquitetura, treinamento, desempenho e potencial, oferecendo insights para aqueles interessados nos avanços em IA.

Arquitetura do Modelo do DeepSeek V3-0324

DeepSeek V3-0324 emprega uma abordagem de Mistura de Especialistas (MoE), onde múltiplas redes de especialistas se especializam em diferentes aspectos dos dados. Isso permite um massivo total de 671 bilhões de parâmetros, com apenas 37 bilhões ativos por token, aumentando a eficiência. A Atenção Latente Multi-head (MLA) comprime vetores-chave e de valor, reduzindo o uso de memória e acelerando a inferência, especialmente para contextos longos. A arquitetura DeepSeekMoE, uma variante refinada do MoE, garante balanceamento de carga sem termos adicionais de perda, estabilizando o treinamento. Além disso, o objetivo de Previsão de Múltiplos Tokens (MTP) prevê vários tokens futuros, densificando os sinais de treinamento e permitindo uma geração mais rápida por meio da decodificação especulativa.

💡
Interessado na última tendência em IA?

Então, você não pode perder Anakin AI!

Anakin AI é uma plataforma tudo-em-um para toda a sua automação de fluxo de trabalho, criando aplicativos poderosos de IA com um construtor de aplicativos No Code fácil de usar, com Deepseek, o o3-mini-high da OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

Construa seu aplicativo de IA dos sonhos em minutos, não em semanas, com Anakin AI!
Anakin AI: Sua Plataforma de IA Tudo-em-Um
Anakin AI: Sua Plataforma de IA Tudo-em-Um

O modelo foi pré-treinado em 14,8 trilhões de tokens de alta qualidade e diversos, abrangendo matemática, programação e múltiplas línguas. Ele utiliza precisão mista FP8 para eficiência, reduzindo custos e tempo de treinamento em comparação com métodos tradicionais. O pós-treinamento inclui ajuste fino supervisionado com 1,5 milhão de instâncias em diferentes domínios, aprimorado pela aprendizagem por reforço, refinando capacidades como raciocínio e geração de código. Este processo, com custo de 2.788 milhões de horas de GPU H800, destaca sua relação custo-efetividade.

Desempenho e Avaliação do DeepSeek V3-0324

DeepSeek V3-0324 se destaca em várias métricas, particularmente em codificação e raciocínio. Ele alcança 65,2% no HumanEval para geração de código e 89,3% no GSM8K para matemática, superando muitos modelos de código aberto. No pós-treinamento, ele pontua 88,5% no MMLU e 70,0% no AlpacaEval 2.0, competindo com modelos de código fechado como GPT-4o e Claude-3.5-Sonnet. Sua capacidade de lidar com uma janela de contexto de 128K e alcançar 1,8 vezes Tokens Por Segundo (TPS) via MTP destaca sua eficiência prática.


Esta nota de pesquisa fornece uma análise detalhada do DeepSeek V3-0324, um modelo de linguagem de código aberto lançado pela DeepSeek AI em 24 de março de 2025. Ele se baseia no DeepSeek V3 original, lançado anteriormente, e é notado por seus avanços em tarefas de codificação e raciocínio. As seções a seguir discutem sua arquitetura, treinamento, avaliação e implicações futuras, oferecendo uma análise completa para pesquisadores e entusiastas de IA.

Contexto e Lançamento

Arquitetura do Modelo

A arquitetura do DeepSeek V3-0324 está fundamentada no framework de Mistura de Especialistas (MoE), com 671 bilhões de parâmetros totais e 37 bilhões ativados por token. Este design, detalhado no relatório técnico, permite um cálculo eficiente ativando apenas um subconjunto de especialistas por token. A Atenção Latente Multi-head (MLA), conforme descrito no relatório, comprime vetores-chave e de valor para reduzir o cache KV, aumentando a velocidade de inferência. A arquitetura DeepSeekMoE, com 61 camadas de transformadores e 256 especialistas roteados por camada de MoE, inclui uma estratégia de balanceamento de carga sem perda auxiliar, garantindo um treinamento estável sem termos de perda adicionais. O objetivo de Previsão de Múltiplos Tokens (MTP), prevendo um token adicional (D=1), densifica sinais de treinamento e suporta decodificação especulativa, alcançando 1,8 vezes Tokens Por Segundo (TPS) durante a inferência.

Componente da Arquitetura Detalhes
Total de Parâmetros 671B, com 37B ativados por token
MLA Comprime o cache KV, dimensão de embedding 7168, 128 cabeças, por-cabeça 128
DeepSeekMoE 61 camadas, 1 especialista compartilhado, 256 roteados, 8 ativados por token
Objetivo MTP Prevê os próximos 2 tokens, peso de perda 0.3 inicialmente, depois 0.1, D=1

Processo de Treinamento

O treinamento envolveu pré-treinamento em 14,8 trilhões de tokens, aprimorado com amostras matemáticas, de programação e multilíngues. A construção de dados refinou a minimização de redundância e utilizou empacotamento de documentos sem mascaramento de atenção cruzada entre amostras, juntamente com uma estratégia de Preenchimento no Meio (FIM) a uma taxa de 0,1 por meio de Prefixo-Sufixo-Meio (PSM). O tokenizador, um BPE de nível byte com 128K tokens, foi modificado para eficiência multilíngue. O treinamento com precisão mista FP8, validado em larga escala, reduziu custos, com 2,664 milhões de horas de GPU H800 para pré-treinamento, totalizando 2,788 milhões para o treinamento completo, custando uma estimativa de $5.576 milhões a $2 por hora de GPU. O pós-treinamento incluiu ajuste fino supervisionado em 1,5 milhão de instâncias, com dados da DeepSeek-R1 para raciocínio e da DeepSeek-V2.5 para não-raciocínio, verificados por humanos, seguidos de aprendizagem por reforço.

Aspecto do Treinamento Detalhes
Tokens de Pré-treinamento 14.8T, diversos e de alta qualidade
Precisão FP8 mista, por bloco para ativações, por bloco para pesos
Dados Pós-treinamento 1.5M instâncias, SFT e RL, domínios incluem raciocínio e código
Horas de GPU 2.788M H800, custo total $5.576M a $2/hora de GPU

Avaliação e Desempenho

Os resultados da avaliação, conforme o relatório técnico, mostram a destreza do DeepSeek V3-0324 em várias métricas. Avaliações de pré-treinamento incluem:

Métrica Métrico Resultado Comparação
BBH 3-shot EM 87,5% Supera Qwen2.5 72B (79,8%), LLaMA-3.1 405B (82,9%)
MMLU 5-shot EM 87,1% Supera DeepSeek-V2 Base (78,4%), perto de Qwen2.5 (85,0%)
HumanEval 0-shot P@1 65,2% Supera LLaMA-3.1 405B (54,9%), Qwen2.5 72B (53,0%)
GSM8K 8-shot EM 89,3% Melhor que Qwen2.5 72B (88,3%), LLaMA-3.1 405B (83,5%)

No pós-treinamento, o modelo de chat se destaca com 88,5% no MMLU, 70,0% no AlpacaEval 2.0, e mais de 86% de taxa de vitória no Arena-Hard contra GPT-4-0314, competindo com modelos de código fechado como GPT-4o e Claude-3.5-Sonnet. Sua janela de contexto de 128K e MTP habilitado 1.8x TPS destacam a eficiência prática, com discussões iniciais observando melhorias nas capacidades de codificação em comparação com versões anteriores.

Aplicações e Direções Futuras

As capacidades do DeepSeek V3-0324 sugerem aplicações em codificação automatizada, sistemas avançados de raciocínio e chatbots multilíngues. Sua natureza de código aberto, sob licença MIT para o código, apoia o uso comercial, promovendo contribuições da comunidade. Direções futuras podem incluir o refinamento de arquiteturas para contexto infinito, aprimoramento da qualidade dos dados e exploração de métodos de avaliação abrangentes, conforme sugerido na conclusão do relatório técnico.

Conclusão

DeepSeek V3-0324 representa um avanço significativo em IA de código aberto, conectando lacunas com modelos de código fechado. Sua arquitetura eficiente, extenso treinamento e forte desempenho o posicionam como um líder, com potencial para impulsionar mais inovações no processamento de linguagem natural.