DeepSeek V3-0324 è un checkpoint aggiornato del modello DeepSeek V3, con la data di rilascio, 24 marzo 2025, incorporata nel suo nome. Le discussioni preliminari suggeriscono miglioramenti nelle capacità di codifica e nel ragionamento complesso, come segnalato in articoli recenti. Il modello è disponibile su GitHub DeepSeek-V3 GitHub e Hugging Face DeepSeek-V3-0324 Hugging Face, riflettendo la sua natura open-source e accessibilità.
Vuoi provare DeepSeek V3 0304 ora?Usa Anakin AI ora! Anakin AI è la piattaforma All-in-One che ha Claude 3.7 Sonnet Thinking, o1-Pro, Google Gemini 2.0, FLUX AI Image Generation, Minimax AI Video Generation e molto altro in un unico posto!


Introduzione a DeepSeek V3-0324
DeepSeek V3-0324 è un modello linguistico open-source all'avanguardia sviluppato da DeepSeek AI, rilasciato il 24 marzo 2025. Questo modello è una versione aggiornata del precedente DeepSeek V3, noto per la sua grande scala e efficienza. Con 671 miliardi di parametri totali e solo 37 miliardi attivi per token, sfrutta architetture avanzate per gestire compiti complessi come la codifica, il ragionamento e l'elaborazione multilingue. Questo articolo esplora la sua architettura, formazione, prestazioni e potenzialità, offrendo approfondimenti per coloro che sono interessati ai progressi dell'AI.

Architettura del Modello di DeepSeek V3-0324
DeepSeek V3-0324 impiega un approccio Mixture-of-Experts (MoE), in cui molteplici reti esperte si specializzano in diversi aspetti dei dati. Questo consente di avere un'imponente quantità di 671 miliardi di parametri, con solo 37 miliardi attivi per token, migliorando l'efficienza. L'attenzione latente multi-testa (MLA) comprime i vettori chiave e valore, riducendo l'uso della memoria e accelerando l'inferenza, specialmente per contesti lunghi. L'architettura DeepSeekMoE, una variante raffinata del MoE, garantisce un bilanciamento del carico senza termini di perdita aggiuntivi, stabilizzando l'addestramento. Inoltre, l'obiettivo di Multi-Token Prediction (MTP) prevede più token futuri, densificando i segnali di addestramento e abilitando una generazione più veloce attraverso la decodifica speculativa.
Allora non puoi perderti Anakin AI!
Anakin AI è una piattaforma tutto-in-uno per tutta la tua automazione del lavoro, crea app AI potenti con un facile costruttore di app No Code, con Deepseek, OpenAI's o3-mini-high, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...
Costruisci la tua app AI da sogno in pochi minuti, non settimane con Anakin AI!

Il modello è stato pre-addestrato su 14,8 trilioni di token di alta qualità e diversificati, coprendo matematica, programmazione e più lingue. Utilizza precisione mista FP8 per efficienza, riducendo i costi e il tempo di addestramento rispetto ai metodi tradizionali. L'addestramento post-prevede un fine-tuning supervisionato con 1,5 milioni di istanze tra domini, migliorato dall'apprendimento per rinforzo, raffinando capacità come il ragionamento e la generazione di codice. Questo processo, costato 2,788 milioni di ore GPU H800, sottolinea la sua cost-effectiveness.
Prestazioni e Valutazione di DeepSeek V3-0324
DeepSeek V3-0324 eccelle in vari benchmark, particolarmente nella codifica e nel ragionamento. Ottiene il 65,2% su HumanEval per la generazione di codice e l'89,3% su GSM8K per la matematica, superando molti modelli open-source. Nel post-addestramento, ottiene l'88,5% su MMLU e il 70,0% su AlpacaEval 2.0, competendo con modelli closed-source come GPT-4o e Claude-3.5-Sonnet. La sua capacità di gestire una finestra di contesto di 128K e raggiungere 1,8 volte Tokens Per Second (TPS) tramite MTP evidenzia la sua efficienza pratica.

Questa nota di sondaggio fornisce un'analisi dettagliata di DeepSeek V3-0324, un modello linguistico open-source rilasciato da DeepSeek AI il 24 marzo 2025. Si basa sull'originale DeepSeek V3, rilasciato in precedenza, ed è noto per i suoi progressi in compiti di codifica e ragionamento. Le sezioni seguenti approfondiscono la sua architettura, formazione, valutazione e implicazioni future, offrendo un'analisi approfondita per ricercatori e appassionati di AI.
Contesto e Rilascio
Architettura del Modello
L'architettura di DeepSeek V3-0324 è radicata nel framework Mixture-of-Experts (MoE), con 671 miliardi di parametri totali e 37 miliardi attivati per token. Questo design, dettagliato nel rapporto tecnico, consente un calcolo efficiente attivando solo un sottoinsieme di esperti per token. L'attenzione latente multi-testa (MLA), come descritto nel rapporto, comprime i vettori chiave e valore per ridurre la cache KV, migliorando la velocità di inferenza. L'architettura DeepSeekMoE, con 61 livelli di trasformatore e 256 esperti instradati per livello MoE, include una strategia di bilanciamento del carico senza perdita ausiliaria, garantendo un addestramento stabile senza termini di perdita aggiuntivi. L'obiettivo di Multi-Token Prediction (MTP), prevedendo un token aggiuntivo (D=1), densifica i segnali di addestramento e supporta la decodifica speculativa, raggiungendo 1,8 volte Tokens Per Second (TPS) durante l'inferenza.
Componente dell'Architettura | Dettagli |
---|---|
Parametri Totali | 671B, con 37B attivati per token |
MLA | Comprimi la cache KV, dimensione di embedding 7168, 128 teste, per-testa 128 |
DeepSeekMoE | 61 livelli, 1 esperto condiviso, 256 instradati, 8 attivati per token |
Obiettivo MTP | Prevede i successivi 2 token, peso della perdita inizialmente 0.3, poi 0.1, D=1 |
Processo di Addestramento
L'addestramento ha previsto un pre-addestramento su 14,8 trilioni di token, migliorato con campioni matematici, di programmazione e multilingue. La costruzione dei dati ha raffinato la minimizzazione della ridondanza e ha utilizzato il packing dei documenti senza mascheramento dell'attenzione cross-campione, insieme a una strategia Fill-in-Middle (FIM) con tasso 0.1 tramite Prefix-Suffix-Middle (PSM). Il tokenizer, un BPE a livello di byte con 128K token, è stato modificato per l'efficienza multilingue. L'addestramento in precisione mista FP8, validato su larga scala, ha ridotto i costi, con 2,664 milioni di ore GPU H800 per il pre-addestramento, per un totale di 2,788 milioni per il training completo, costando un totale stimato di $5,576 milioni a $2 per ora GPU. L'addestramento post ha incluso un fine-tuning supervisionato su 1,5 milioni di istanze, con dati da DeepSeek-R1 per il ragionamento e DeepSeek-V2.5 per il non ragionamento, verificati da esseri umani, seguiti dall'apprendimento per rinforzo.
Aspetto dell'Addestramento | Dettagli |
---|---|
Token di Pre-addestramento | 14.8T, vari e di alta qualità |
Precisione | FP8 mista, a livello di tasselli per le attivazioni, a livello di blocco per i pesi |
Dati Post-addestramento | 1.5M di istanze, SFT e RL, i domini includono ragionamento e codice |
Ore GPU | 2.788M H800, costo totale $5.576M a $2/ora GPU |
Valutazione e Prestazioni
I risultati della valutazione, secondo il rapporto tecnico, mostrano le capacità di DeepSeek V3-0324 attraverso i benchmark. Le valutazioni del pre-addestramento includono:
Benchmark | Metodologia | Risultato | Confronto |
---|---|---|---|
BBH | 3-shot EM | 87.5% | Supera Qwen2.5 72B (79.8%), LLaMA-3.1 405B (82.9%) |
MMLU | 5-shot EM | 87.1% | Batte DeepSeek-V2 Base (78.4%), vicino a Qwen2.5 (85.0%) |
HumanEval | 0-shot P@1 | 65.2% | Supera LLaMA-3.1 405B (54.9%), Qwen2.5 72B (53.0%) |
GSM8K | 8-shot EM | 89.3% | Meglio di Qwen2.5 72B (88.3%), LLaMA-3.1 405B (83.5%) |
Nel post-addestramento, il modello di chat eccelle con l'88,5% su MMLU, il 70,0% su AlpacaEval 2.0 e oltre l'86% di tasso di vittoria su Arena-Hard contro GPT-4-0314, competendo con modelli closed-source come GPT-4o e Claude-3.5-Sonnet. La sua finestra di contesto di 128K e l'abilitazione MTP di 1.8x TPS evidenziano l'efficienza pratica, con discussioni preliminari che segnalano capacità di codifica migliorate rispetto alle versioni precedenti.
Applicazioni e Direzioni Future
Le capacità di DeepSeek V3-0324 suggeriscono applicazioni nella codifica automatizzata, sistemi di ragionamento avanzati e chatbot multilingue. La sua natura open-source, sotto licenza MIT per il codice, supporta l'uso commerciale, favorendo i contributi della comunità. Le direzioni future potrebbero includere il perfezionamento delle architetture per un contesto infinito, il miglioramento della qualità dei dati e l'esplorazione di metodi di valutazione completi, come suggerito nella conclusione del rapporto tecnico.
Conclusione
DeepSeek V3-0324 rappresenta un significativo avanzamento nell'AI open-source, colmando le lacune con i modelli closed-source. La sua architettura efficiente, un addestramento esteso e prestazioni solide la posizionano come leader, con il potenziale di guidare ulteriori innovazioni nel processamento del linguaggio naturale.