DeepSeek V3-0324는 DeepSeek V3 모델의 업데이트된 체크포인트로, 이름에 2025년 3월 24일의 릴리즈 날짜가 포함되어 있습니다. 초기 논의에서는 최근의 기사에서 언급된 바와 같이 코딩 능력 및 복잡한 추론에서의 개선이 제안되고 있습니다. 이 모델은 GitHub DeepSeek-V3 GitHub와 Hugging Face DeepSeek-V3-0324 Hugging Face에서 사용할 수 있으며, 이는 오픈소스 성격과 접근성을 반영합니다.


DeepSeek V3-0324 소개
DeepSeek V3-0324는 DeepSeek AI에서 개발한 최첨단 오픈소스 언어 모델로, 2025년 3월 24일에 출시되었습니다. 이 모델은 대규모와 효율성으로 알려진 이전 DeepSeek V3의 업데이트된 버전입니다. 총 6710억 개의 매개변수를 가지며 토큰당 370억 개만 활성화되어 있어, 코딩, 추론 및 다국어 처리와 같은 복잡한 작업을 수행하기 위해 고급 아키텍처를 활용합니다. 이 기사에서는 아키텍처, 훈련, 성능 및 잠재력을 탐구하여 AI 발전에 관심이 있는 사람들에게 통찰력을 제공합니다.

DeepSeek V3-0324의 모델 아키텍처
DeepSeek V3-0324는 여러 전문가 네트워크가 데이터의 다양한 측면에 특화되는 전문가 혼합(Mixture-of-Experts, MoE) 방식을 사용합니다. 이를 통해 총 6710억 개의 매개변수가 가능해지며, 토큰당 370억 개만 활성화되어 효율성을 향상시킵니다. 다중 헤드 잠재 주의(Multi-head Latent Attention, MLA)는 키 및 값 벡터를 압축하여 메모리 사용을 줄이고 긴 컨텍스트에서 추론 속도를 높입니다. DeepSeekMoE 아키텍처는 정제된 MoE 변형으로, 추가 손실 항목 없이 부하 균형을 보장하여 훈련을 안정화합니다. 또한, 다중 토큰 예측(Multi-Token Prediction, MTP) 목표는 여러 미래 토큰을 예측하여 훈련 신호를 밀집하게 하고, 투기적 디코딩을 통해 더 빠른 생성을 가능하게 합니다.
그렇다면 Anakin AI를 놓치지 마세요!
Anakin AI는 여러분의 워크플로우 자동화를 위한 올인원 플랫폼으로, 사용하기 쉬운 노코드 앱 빌더로 강력한 AI 앱을 만들 수 있습니다, Deepseek, OpenAI의 o3-mini-high, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...
Anakin AI로 몇 분 안에 꿈의 AI 앱을 구축하세요!

이 모델은 수학, 프로그래밍 및 여러 언어를 포함한 14.8조 개의 고품질 다양한 토큰으로 사전 훈련되었습니다. FP8 혼합 정밀도를 사용하여 효율성을 높이며, 기존 방법에 비해 훈련 비용과 시간을 줄입니다. 사후 훈련에는 150만 개의 사례를 포함한 감독적 미세 조정이 포함되어 있으며, 이는 강화 학습에 의해 향상되어 추론 및 코드 생성과 같은 능력을 다듬어줍니다. 이 과정은 278만 H800 GPU 시간의 비용이 소요되며 비용 효율성을 강조합니다.
DeepSeek V3-0324의 성능 및 평가
DeepSeek V3-0324는 다양한 벤치마크에서 뛰어났으며, 특히 코딩 및 추론에 강점을 보입니다. 코드 생성을 위한 HumanEval에서 65.2%를 달성하고, 수학 문제인 GSM8K에서는 89.3%를 기록하며 많은 오픈소스 모델을 초월합니다. 사후 훈련에서 MMLU에서 88.5%, AlpacaEval 2.0에서 70.0%를 기록하며 GPT-4o 및 Claude-3.5-Sonnet과 같은 폐쇄형 모델과 경쟁합니다. 128K 컨텍스트 창을 처리하고 MTP를 통해 초당 토큰 1.8배를 달성하는 능력은 실제 효율성을 강조합니다.

이 조사 노트는 2025년 3월 24일 DeepSeek AI에서 출시한 오픈소스 언어 모델 DeepSeek V3-0324에 대한 자세한 검토를 제공합니다. 이는 이전에 발표된 원래 DeepSeek V3를 기반으로 하며, 코딩 및 추론 작업에서의 발전으로 주목받고 있습니다. 다음 섹션은 아키텍처, 훈련, 평가 및 미래의 함의에 대해 깊이 탐구하며, AI 연구자 및 애호가를 위한 철저한 분석을 제공합니다.
배경 및 출시
모델 아키텍처
DeepSeek V3-0324의 아키텍처는 Mixture-of-Experts (MoE) 프레임워크에 뿌리를 두고 있으며, 총 6710억 개의 매개변수와 토큰당 370억 개가 활성화되어 있습니다. 이 설계는 기술 보고서에 자세히 설명되어 있으며, 각 토큰에 대해 전문가의 하위 집합만 활성화하여 효율적인 계산이 가능하게 합니다. 보고서에 설명된 바와 같이 다중 헤드 잠재 주의(MLA)는 키 및 값 벡터를 압축하여 KV 캐시를 줄이며, 추론 속도를 향상시킵니다. DeepSeekMoE 아키텍처는 61개의 트랜스포머 레이어와 MoE 레이어당 256개의 라우팅된 전문가를 포함하며, 추가 손실 항목 없이 부하 균형 전략을 적용하여 안정된 훈련을 보장합니다. Multi-Token Prediction (MTP) 목표는 하나의 추가 토큰(D=1)을 예측하여 훈련 신호를 밀집시키고, 특성을 통해 추론 동안 1.8배의 TPS를 달성할 수 있도록 지원합니다.
아키텍처 구성 요소 | 상세 |
---|---|
총 매개변수 | 671B, 토큰당 370B 활성화 |
MLA | KV 캐시 압축, 임베딩 차원 7168, 128 헤드, 헤드당 128 |
DeepSeekMoE | 61 레이어, 1 공유 전문가, 256 라우팅, 토큰당 8개 활성화 |
MTP 목표 | 다음 2개의 토큰 예측, 손실 가중치 초기 0.3, 이후 0.1, D=1 |
훈련 과정
훈련 과정에는 14.8조 개의 토큰에 대한 사전 훈련이 포함되었으며, 수학, 프로그래밍, 다국어 샘플로 향상되었습니다. 데이터 구성은 중복 최소화를 정제하고, 교차 샘플 주의 마스킹 없이 문서 포장을 사용했으며, Prefix-Suffix-Middle (PSM) 전략을 통해 0.1 비율로 Fill-in-Middle (FIM) 전략을 적용했습니다. 128K 토큰을 가진 바이트 수준 BPE 토크나이저는 다국어 효율성을 위해 수정되었습니다. FP8 혼합 정밀도 훈련은 대규모에서 검증되어 비용을 줄였으며, 사전 훈련에는 266만 H800 GPU 시간이 소요되었고, 전체 훈련에는 총 278만 시간이 소요되어 GPU 시간당 2달러로 추정된 비용은 약 557.6만 달러입니다. 사후 훈련에는 150만 개의 사례가 포함되며, DeepSeek-R1의 데이터를 기반으로 한 추론 및 비추론을 위한 DeepSeek-V2.5에서 데이터 작업이 이루어졌으며, 인간에 의해 검증된 후 강화 학습이 포함되었습니다.
훈련 측면 | 상세 |
---|---|
사전 훈련 토큰 | 14.8T, 다양하고 고품질 |
정밀도 | FP8 혼합, 활성화에 대해 타일 단위, 가중치에 대해 블록 단위 |
사후 훈련 데이터 | 150만 개의 사례, SFT 및 RL, 도메인에는 추론 및 코드 포함 |
GPU 시간 | 278만 H800, 총 비용 557.6만 달러, GPU 시간당 2달러 |
평가 및 성능
기술 보고서에 따른 평가 결과는 DeepSeek V3-0324의 다양한 벤치마크에서의 성능을 보여줍니다. 사전 훈련 평가에는 다음이 포함됩니다:
벤치마크 | 지표 | 결과 | 비교 |
---|---|---|---|
BBH | 3-shot EM | 87.5% | Qwen2.5 72B(79.8%), LLaMA-3.1 405B(82.9%) 초과 |
MMLU | 5-shot EM | 87.1% | DeepSeek-V2 Base(78.4%) 초과, Qwen2.5(85.0%)와 유사 |
HumanEval | 0-shot P@1 | 65.2% | LLaMA-3.1 405B(54.9%), Qwen2.5 72B(53.0%) 초과 |
GSM8K | 8-shot EM | 89.3% | Qwen2.5 72B(88.3%) 초과, LLaMA-3.1 405B(83.5%) 초과 |
사후 훈련에서 채팅 모델은 MMLU에서 88.5%, AlpacaEval 2.0에서 70.0%를 기록하며, GPT-4-0314와 Arena-Hard에서 86% 이상의 승률을 보이며 GPT-4o 및 Claude-3.5-Sonnet과 같은 폐쇄형 모델과 경쟁합니다. 128K 컨텍스트 창 및 MTP를 통한 1.8배 TPS는 실제적인 효율성을 강조하며, 초기 논의에서는 이전 버전에 비해 개선된 코딩 능력이 언급되고 있습니다.
응용 프로그램 및 미래 방향
DeepSeek V3-0324의 능력은 자동화된 코딩, 고급 추론 시스템 및 다국어 챗봇에 대한 응용 가능성을 제시합니다. MIT 라이선스 하에 오픈소스 성격은 상업적 사용을 지원하며, 커뮤니티 기여를 촉진합니다. 미래의 방향은 무한 컨텍스트를 위한 아키텍처를 개선하고 데이터 품질을 향상시키며, 기술 보고서 결론에서 제안한 종합 평가 방법을 탐구하는 것이 될 수 있습니다.
결론
DeepSeek V3-0324는 폐쇄형 모델과의 격차를 줄이는 오픈소스 AI의 중요한 발전으로 자리잡고 있습니다. 효율적인 아키텍처, 광범위한 훈련 및 강력한 성능으로 자연어 처리 분야에서 더 많은 혁신을 주도할 잠재력을 가지고 있습니다.