Lanzamiento de DeepSeek V3 0324: Una Visión Rápida

DeepSeek V3-0324 es un punto de control actualizado del modelo DeepSeek V3, con su fecha de lanzamiento, 24 de marzo de 2025, incorporada en su nombre. Las discusiones iniciales sugieren mejoras en las capacidades de codificación y razonamiento complejo, como se indica en artículos recientes. El modelo está disponible en

Build APIs Faster & Together in Apidog

Lanzamiento de DeepSeek V3 0324: Una Visión Rápida

Start for free
Inhalte

DeepSeek V3-0324 es un punto de control actualizado del modelo DeepSeek V3, con su fecha de lanzamiento, 24 de marzo de 2025, incorporada en su nombre. Las discusiones iniciales sugieren mejoras en las capacidades de codificación y razonamiento complejo, como se indica en artículos recientes. El modelo está disponible en GitHub DeepSeek-V3 GitHub y Hugging Face DeepSeek-V3-0324 Hugging Face, reflejando su naturaleza de código abierto y accesibilidad.

Anakin.ai - One-Stop AI App Platform
Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.


Introducción a DeepSeek V3-0324

DeepSeek V3-0324 es un modelo de lenguaje de código abierto de vanguardia desarrollado por DeepSeek AI, lanzado el 24 de marzo de 2025. Este modelo es una versión actualizada del anterior DeepSeek V3, conocido por su gran escala y eficiencia. Con 671 mil millones de parámetros totales y solo 37 mil millones activados por token, aprovecha arquitecturas avanzadas para manejar tareas complejas como codificación, razonamiento y procesamiento multilingüe. Este artículo explora su arquitectura, entrenamiento, rendimiento y potencial, ofreciendo ideas para aquellos interesados en los avances en IA.

Arquitectura del Modelo de DeepSeek V3-0324

DeepSeek V3-0324 emplea un enfoque de Mezcla de Expertos (MoE), donde múltiples redes de expertos se especializan en diferentes aspectos de los datos. Esto permite un masivo total de 671 mil millones de parámetros, con solo 37 mil millones activos por token, aumentando la eficiencia. La Atención Latente Multi-cabeza (MLA) comprime los vectores de clave y valor, reduciendo el uso de memoria y acelerando la inferencia, especialmente para contextos largos. La arquitectura DeepSeekMoE, una variante refinada de MoE, asegura un balance de carga sin términos de pérdida adicionales, estabilizando el entrenamiento. Además, el objetivo de Predicción Multi-Token (MTP) predice múltiples tokens futuros, densificando las señales de entrenamiento y permitiendo una generación más rápida a través de la decodificación especulativa.

💡
¿Interesado en la última tendencia en IA?

Entonces, ¡no puedes perderte Anakin AI!

Anakin AI es una plataforma todo en uno para toda tu automatización de flujo de trabajo, crea potentes aplicaciones de IA con un constructor de aplicaciones sin código fácil de usar, con Deepseek, o3-mini-high de OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

¡Construye tu aplicación de IA de ensueño en minutos, no en semanas con Anakin AI!
Anakin AI: Tu Plataforma de IA Todo en Uno
Anakin AI: Tu Plataforma de IA Todo en Uno

El modelo fue preentrenado en 14.8 billones de tokens diversos y de alta calidad, abarcando matemáticas, programación y múltiples idiomas. Utiliza precisión mixta FP8 para eficiencia, reduciendo los costos y el tiempo de entrenamiento en comparación con los métodos tradicionales. El post-entrenamiento incluye un ajuste fino supervisado con 1.5 millones de instancias a través de dominios, mejorado por aprendizaje por refuerzo, refinando capacidades como razonamiento y generación de código. Este proceso, que costó 2.788 millones de horas de GPU H800, subraya su rentabilidad.

Rendimiento y Evaluación de DeepSeek V3-0324

DeepSeek V3-0324 destaca en varias pruebas, particularmente en codificación y razonamiento. Logra un 65.2% en HumanEval para generación de código y un 89.3% en GSM8K para matemáticas, superando muchos modelos de código abierto. En el post-entrenamiento, obtiene un 88.5% en MMLU y un 70.0% en AlpacaEval 2.0, compitiendo con modelos de código cerrado como GPT-4o y Claude-3.5-Sonnet. Su capacidad para manejar una ventana de contexto de 128K y lograr 1.8 veces Tokens Por Segundo (TPS) a través de MTP resalta su eficiencia práctica.


Esta nota de encuesta proporciona un examen detallado de DeepSeek V3-0324, un modelo de lenguaje de código abierto lanzado por DeepSeek AI el 24 de marzo de 2025. Se basa en el original DeepSeek V3, lanzado anteriormente, y se destaca por sus avances en tareas de codificación y razonamiento. Las siguientes secciones profundizarán en su arquitectura, entrenamiento, evaluación y futuras implicaciones, ofreciendo un análisis exhaustivo para investigadores y entusiastas de la IA.

Contexto y Lanzamiento

Arquitectura del Modelo

La arquitectura de DeepSeek V3-0324 se basa en el marco de Mezcla de Expertos (MoE), con 671 mil millones de parámetros totales y 37 mil millones activados por token. Este diseño, detallado en el informe técnico, permite cálculos eficientes al activar solo un subconjunto de expertos por token. La Atención Latente Multi-cabeza (MLA), como se describe en el informe, comprime los vectores de clave y valor para reducir la caché KV, mejorando la velocidad de inferencia. La arquitectura DeepSeekMoE, con 61 capas de transformadores y 256 expertos enrutados por capa de MoE, incluye una estrategia de balanceo de carga libre de pérdida auxiliar, garantizando un entrenamiento estable sin términos de pérdida adicionales. El objetivo de Predicción Multi-Token (MTP), que predice un token adicional (D=1), densifica las señales de entrenamiento y apoya la decodificación especulativa, logrando 1.8 veces Tokens Por Segundo (TPS) durante la inferencia.

Componente de Arquitectura Detalles
Parámetros Totales 671B, con 37B activados por token
MLA Comprime caché KV, dimensión de incrustación 7168, 128 cabezas, 128 por cabeza
DeepSeekMoE 61 capas, 1 experto compartido, 256 enrutados, 8 activados por token
Objetivo MTP Predice los siguientes 2 tokens, peso de pérdida 0.3 inicialmente, luego 0.1, D=1

Proceso de Entrenamiento

El entrenamiento involucró preentrenamiento en 14.8 billones de tokens, mejorado con muestras matemáticas, de programación y multilingües. La construcción de datos refinó la minimización de redundancias y utilizó empaquetado de documentos sin enmascaramiento de atención entre muestras, junto con una estrategia de Llenado en el Medio (FIM) a una tasa de 0.1 a través de Prefijo-Sufijo-Medio (PSM). El tokenizador, un BPE a nivel de bytes con 128K tokens, se modificó para eficiencia multilingüe. El entrenamiento de precisión mixta FP8, validado a gran escala, redujo costos, con 2.664 millones de horas de GPU H800 para el preentrenamiento, totalizando 2.788 millones para el entrenamiento completo, costando un estimado de $5.576 millones a $2 por hora de GPU. El post-entrenamiento incluyó un ajuste fino supervisado en 1.5 millones de instancias, con datos de DeepSeek-R1 para razonamiento y DeepSeek-V2.5 para no razonamiento, verificado por humanos, seguido de aprendizaje por refuerzo.

Aspecto del Entrenamiento Detalles
Tokens de Pre-entrenamiento 14.8T, diversos y de alta calidad
Precisión FP8 mixta, por bloques para activaciones, por bloques para pesos
Datos de Post-entrenamiento 1.5M instancias, SFT y RL, los dominios incluyen razonamiento y código
Horas de GPU 2.788M H800, costo total $5.576M a $2/hora de GPU

Evaluación y Rendimiento

Los resultados de la evaluación, según el informe técnico, muestran la destreza de DeepSeek V3-0324 en varios benchmarks. Las evaluaciones de pre-entrenamiento incluyen:

Benchmark Métrica Resultado Comparación
BBH 3-shot EM 87.5% Supera a Qwen2.5 72B (79.8%), LLaMA-3.1 405B (82.9%)
MMLU 5-shot EM 87.1% Supera a DeepSeek-V2 Base (78.4%), cerca de Qwen2.5 (85.0%)
HumanEval 0-shot P@1 65.2% Supera a LLaMA-3.1 405B (54.9%), Qwen2.5 72B (53.0%)
GSM8K 8-shot EM 89.3% Mejor que Qwen2.5 72B (88.3%), LLaMA-3.1 405B (83.5%)

En el post-entrenamiento, el modelo de chat sobresale con un 88.5% en MMLU, un 70.0% en AlpacaEval 2.0, y más del 86% de tasa de victoria en Arena-Hard contra GPT-4-0314, compitiendo con modelos de código cerrado como GPT-4o y Claude-3.5-Sonnet. Su ventana de contexto de 128K y los 1.8x TPS habilitados por MTP resaltan su eficiencia práctica, con discusiones iniciales señalando habilidades de codificación mejoradas en comparación con versiones anteriores.

Aplicaciones y Direcciones Futuras

Las capacidades de DeepSeek V3-0324 sugieren aplicaciones en codificación automatizada, sistemas de razonamiento avanzados y chatbots multilingües. Su naturaleza de código abierto, bajo licencia MIT para el código, apoya el uso comercial, fomentando contribuciones de la comunidad. Las direcciones futuras pueden incluir el refinamiento de arquitecturas para contexto infinito, la mejora de la calidad de los datos y la exploración de métodos de evaluación integrales, como se sugiere en la conclusión del informe técnico.

Conclusión

DeepSeek V3-0324 representa un avance significativo en la IA de código abierto, cerrando brechas con modelos de código cerrado. Su arquitectura eficiente, entrenamiento extensivo y fuerte rendimiento lo posicionan como un líder, con el potencial de impulsar innovaciones futuras en el procesamiento del lenguaje natural.