DeepSeek V3-0324 est un point de contrôle mis à jour du modèle DeepSeek V3, avec sa date de sortie, le 24 mars 2025, intégrée dans son nom. Les premières discussions suggèrent des améliorations dans les capacités de codage et le raisonnement complexe, comme noté dans des articles récents. Le modèle est disponible sur GitHub DeepSeek-V3 GitHub et Hugging Face DeepSeek-V3-0324 Hugging Face, reflétant sa nature open-source et son accessibilité.


Introduction à DeepSeek V3-0324
DeepSeek V3-0324 est un modèle de langage open-source à la pointe de la technologie développé par DeepSeek AI, sorti le 24 mars 2025. Ce modèle est une version mise à jour de l'ancien DeepSeek V3, connu pour sa grande échelle et son efficacité. Avec 671 milliards de paramètres au total et seulement 37 milliards activés par token, il utilise des architectures avancées pour gérer des tâches complexes telles que le codage, le raisonnement et le traitement multilingue. Cet article explore son architecture, son entraînement, ses performances et son potentiel, offrant des perspectives pour ceux intéressés par les avancées en IA.

Architecture du Modèle de DeepSeek V3-0324
DeepSeek V3-0324 utilise une approche de Mixture-of-Experts (MoE), où plusieurs réseaux d'experts se spécialisent dans différents aspects des données. Cela permet d'avoir un total de 671 milliards de paramètres, avec seulement 37 milliards actifs par token, améliorant ainsi l'efficacité. La Multi-head Latent Attention (MLA) compresse les vecteurs de clés et de valeurs, réduisant l'utilisation de mémoire et accélérant l'inférence, en particulier pour de longs contextes. L'architecture DeepSeekMoE, une variante raffinée de MoE, assure un équilibrage de charge sans termes de perte supplémentaires, stabilisant ainsi l'entraînement. De plus, l'objectif Multi-Token Prediction (MTP) prédit plusieurs tokens futurs, densifiant les signaux d'entraînement et permettant une génération plus rapide grâce à un décodage spéculatif.
Alors, vous ne pouvez pas manquer Anakin AI !
Anakin AI est une plateforme tout-en-un pour toute votre automatisation de workflow, créez des applications IA puissantes avec un constructeur d'applications sans code facile à utiliser, avec Deepseek, OpenAI's o3-mini-high, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...
Construisez votre application IA de rêve en quelques minutes, pas en semaines avec Anakin AI !

Le modèle a été pré-entraîné sur 14,8 trillions de tokens divers et de haute qualité, couvrant les mathématiques, la programmation et plusieurs langues. Il utilise la précision mixte FP8 pour l'efficacité, réduisant les coûts et le temps d'entraînement par rapport aux méthodes traditionnelles. Après l'entraînement, il inclut un affinage supervisé avec 1,5 million d'instances à travers différents domaines, amélioré par l'apprentissage par renforcement, affinant des capacités telles que le raisonnement et la génération de code. Ce processus, coûtant 2,788 millions d'heures GPU H800, souligne son rapport coût-efficacité.
Performance et Évaluation de DeepSeek V3-0324
DeepSeek V3-0324 excelle dans divers benchmarks, notamment dans le codage et le raisonnement. Il atteint 65,2 % sur HumanEval pour la génération de code et 89,3 % sur GSM8K pour les mathématiques, surpassant de nombreux modèles open-source. Après l'entraînement, il obtient 88,5 % sur MMLU et 70,0 % sur AlpacaEval 2.0, rivalisant avec des modèles fermés tels que GPT-4o et Claude-3.5-Sonnet. Sa capacité à gérer une fenêtre de contexte de 128K et à atteindre 1,8 fois les Tokens Par Seconde (TPS) via MTP met en évidence son efficacité pratique.

Cette note de sondage fournit un examen détaillé de DeepSeek V3-0324, un modèle de langage open-source publié par DeepSeek AI le 24 mars 2025. Il s'appuie sur l'original DeepSeek V3, publié auparavant, et est noté pour ses avancées dans les tâches de codage et de raisonnement. Les sections suivantes plongent dans son architecture, son entraînement, son évaluation et ses implications futures, offrant une analyse approfondie pour les chercheurs et les passionnés d'IA.
Contexte et Publication
Architecture du Modèle
L'architecture de DeepSeek V3-0324 est ancrée dans le cadre Mixture-of-Experts (MoE), avec 671 milliards de paramètres au total et 37 milliards activés par token. Ce design, détaillé dans le rapport technique, permet un calcul efficace en activant uniquement un sous-ensemble d'experts par token. Multi-head Latent Attention (MLA), comme décrit dans le rapport, compresse les vecteurs de clés et de valeurs pour réduire le cache KV, améliorant la vitesse d'inférence. L'architecture DeepSeekMoE, avec 61 couches de transformateurs et 256 experts routés par couche MoE, inclut une stratégie d'équilibrage de charge sans perte auxiliaire, garantissant un entraînement stable sans termes de perte supplémentaires. L'objectif Multi-Token Prediction (MTP), prédisant un token supplémentaire (D=1), densifie les signaux d'entraînement et soutient le décodage spéculatif, atteignant 1,8 fois les Tokens Par Seconde (TPS) lors de l'inférence.
Composant de l'Architecture | Détails |
---|---|
Paramètres Totaux | 671B, avec 37B activés par token |
MLA | Comprime le cache KV, dimension d'embedding 7168, 128 têtes, par tête 128 |
DeepSeekMoE | 61 couches, 1 expert partagé, 256 routés, 8 activés par token |
Objectif MTP | Prédit les 2 tokens suivants, poids de perte 0,3 initialement, puis 0,1, D=1 |
Processus d'Entraînement
L'entraînement a impliqué un pré-entraînement sur 14,8 trillions de tokens, enrichi par des échantillons mathématiques, de programmation et multilingues. La construction des données a affiné la minimisation de la redondance et utilisé un empaquetage de documents sans masquage d'attention croisée, accompagné d'une stratégie Fill-in-Middle (FIM) à 0,1 taux via Prefix-Suffix-Middle (PSM). Le tokenizer, un BPE au niveau des octets avec 128K tokens, a été modifié pour une efficacité multilingue. L'entraînement en précision mixte FP8, validé à grande échelle, a réduit les coûts, avec 2,664 millions d'heures GPU H800 pour le pré-entraînement, totalisant 2,788 millions pour l'entraînement complet, coûtant environ 5,576 millions de dollars à 2 dollars par heure GPU. Après l'entraînement, un affinage supervisé a été effectué sur 1,5 million d'instances, avec des données de DeepSeek-R1 pour le raisonnement et DeepSeek-V2.5 pour le non-raisonnement, vérifiées par des humains, suivies d'un apprentissage par renforcement.
Aspect de l'Entraînement | Détails |
---|---|
Tokens de Pré-entraînement | 14,8T, divers et de haute qualité |
Précision | FP8 mixte, par tuiles pour les activations, par blocs pour les poids |
Données Post-entraînement | 1,5M instances, SFT et RL, les domaines incluent le raisonnement et le code |
Heures GPU | 2,788M H800, coût total 5,576M $ à 2 $/heure GPU |
Évaluation et Performance
Les résultats d'évaluation, selon le rapport technique, montrent la puissance de DeepSeek V3-0324 à travers les benchmarks. Les évaluations de pré-entraînement comprennent :
Benchmark | Métrique | Résultat | Comparaison |
---|---|---|---|
BBH | 3-shot EM | 87,5 % | Surpasse Qwen2.5 72B (79,8 %), LLaMA-3.1 405B (82,9 %) |
MMLU | 5-shot EM | 87,1 % | Devance DeepSeek-V2 Base (78,4 %), proche de Qwen2.5 (85,0 %) |
HumanEval | 0-shot P@1 | 65,2 % | Surpasse LLaMA-3.1 405B (54,9 %), Qwen2.5 72B (53,0 %) |
GSM8K | 8-shot EM | 89,3 % | Meilleur que Qwen2.5 72B (88,3 %), LLaMA-3.1 405B (83,5 %) |
Après l'entraînement, le modèle de chat excelle avec 88,5 % sur MMLU, 70,0 % sur AlpacaEval 2.0, et plus de 86 % de taux de victoire sur Arena-Hard contre GPT-4-0314, rivalisant avec des modèles fermés tels que GPT-4o et Claude-3.5-Sonnet. Sa fenêtre de contexte de 128K et MTP activé à 1,8x TPS soulignent l'efficacité pratique, les premières discussions notant des capacités de codage améliorées par rapport aux versions précédentes.
Applications et Directions Futures
Les capacités de DeepSeek V3-0324 suggèrent des applications dans le codage automatisé, les systèmes de raisonnement avancés et les chatbots multilingues. Sa nature open-source, sous licence MIT pour le code, soutient l'utilisation commerciale, favorisant les contributions de la communauté. Les directions futures pourraient inclure le raffinement des architectures pour un contexte infini, l'amélioration de la qualité des données et l'exploration de méthodes d'évaluation complètes, comme le suggère la conclusion du rapport technique.
Conclusion
DeepSeek V3-0324 représente une avancée significative dans l'IA open-source, comblant les lacunes avec des modèles fermés. Son architecture efficace, son entraînement approfondi et ses performances solides le positionnent comme un leader, avec potentiel d'entraîner d'autres innovations dans le traitement du langage naturel.