DeepSeek V3-0324 adalah cek poin terbaru dari model DeepSeek V3, dengan tanggal rilis, 24 Maret 2025, tertanam dalam namanya. Diskusi awal menunjukkan perbaikan dalam kemampuan pengkodean dan penalaran kompleks, seperti yang dicatat dalam artikel-artikel terbaru. Model ini tersedia di GitHub DeepSeek-V3 GitHub dan Hugging Face DeepSeek-V3-0324 Hugging Face, mencerminkan sifat open-source dan keterjangkauannya.


Pengenalan DeepSeek V3-0324
DeepSeek V3-0324 adalah model bahasa open-source canggih yang dikembangkan oleh DeepSeek AI, dirilis pada 24 Maret 2025. Model ini adalah versi terbaru dari DeepSeek V3 sebelumnya, yang dikenal karena skala dan efisiensinya yang besar. Dengan total 671 miliar parameter dan hanya 37 miliar yang diaktifkan per token, ia memanfaatkan arsitektur canggih untuk menangani tugas kompleks seperti pengkodean, penalaran, dan pemrosesan multibahasa. Artikel ini mengeksplorasi arsitekturnya, pelatihan, kinerja, dan potensi, menawarkan wawasan bagi mereka yang tertarik pada kemajuan AI.

Arsitektur Model DeepSeek V3-0324
DeepSeek V3-0324 menerapkan pendekatan Mixture-of-Experts (MoE), di mana beberapa jaringan ahli berspesialisasi dalam aspek data yang berbeda. Hal ini memungkinkan untuk memiliki 671 miliar parameter, dengan hanya 37 miliar aktif per token, meningkatkan efisiensi. Multi-head Latent Attention (MLA) mengompresi vektor kunci dan nilai, mengurangi penggunaan memori dan mempercepat inferensi, terutama untuk konteks yang panjang. Arsitektur DeepSeekMoE, varian MoE yang disempurnakan, memastikan penyeimbangan beban tanpa istilah kehilangan tambahan, menstabilkan pelatihan. Selain itu, tujuan Multi-Token Prediction (MTP) memprediksi beberapa token masa depan, memperdensitas sinyal pelatihan dan memungkinkan generasi lebih cepat melalui decoding spekulatif.
Maka, Anda tidak boleh melewatkan Anakin AI!
Anakin AI adalah platform all-in-one untuk semua otomatisasi alur kerja Anda, buat aplikasi AI powerful dengan Pembuat Aplikasi Tanpa Kode yang mudah digunakan, dengan Deepseek, o3-mini-high dari OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...
Buat Aplikasi AI Impian Anda dalam hitungan menit, bukan minggu dengan Anakin AI!

Model ini dilatih sebelumnya menggunakan 14,8 triliun token yang berkualitas tinggi dan beragam, mencakup matematika, pemrograman, dan berbagai bahasa. Ia menggunakan presisi campuran FP8 untuk efisiensi, mengurangi biaya dan waktu pelatihan dibandingkan metode tradisional. Pelatihan lanjutan mencakup penyempurnaan terawasi dengan 1,5 juta contoh di berbagai domain, ditingkatkan oleh pembelajaran penguatan, menyempurnakan kemampuan seperti penalaran dan generasi kode. Proses ini, yang menghabiskan 2.788 juta jam GPU H800, menggarisbawahi efisiensinya dalam biaya.
Kinerja dan Evaluasi DeepSeek V3-0324
DeepSeek V3-0324 unggul dalam berbagai tolok ukur, terutama dalam pengkodean dan penalaran. Model ini mencapai 65,2% di HumanEval untuk generasi kode dan 89,3% di GSM8K untuk matematika, melampaui banyak model open-source lainnya. Dalam pelatihan lanjutan, ia mencetak 88,5% di MMLU dan 70,0% di AlpacaEval 2.0, bersaing dengan model closed-source seperti GPT-4o dan Claude-3.5-Sonnet. Kemampuan model ini untuk menangani jendela konteks 128K dan mencapai 1,8 kali Token Per Detik (TPS) melalui MTP menyoroti efisiensinya yang praktis.

Catatan survei ini menyediakan pemeriksaan mendetail tentang DeepSeek V3-0324, model bahasa open-source yang dirilis oleh DeepSeek AI pada 24 Maret 2025. Ini dibangun berdasarkan DeepSeek V3 asli, yang dirilis sebelumnya, dan dicatat untuk kemajuannya dalam tugas pengkodean dan penalaran. Bagian berikut mengeksplorasi arsitekturnya, pelatihan, evaluasi, dan implikasi masa depan, menawarkan analisis mendalam untuk peneliti dan penggemar AI.
Latar Belakang dan Rilis
Arsitektur Model
Arsitektur DeepSeek V3-0324 berakar pada kerangka Mixture-of-Experts (MoE), dengan total 671 miliar parameter dan 37 miliar diaktifkan per token. Desain ini, yang dijelaskan dalam laporan teknis, memungkinkan perhitungan yang efisien dengan mengaktifkan hanya subset ahli per token. Multi-head Latent Attention (MLA), seperti yang dijelaskan dalam laporan, mengompresi vektor kunci dan nilai untuk mengurangi cache KV, meningkatkan kecepatan inferensi. Arsitektur DeepSeekMoE, dengan 61 lapisan transformer dan 256 ahli terlanjur per lapisan MoE, termasuk strategi penyeimbangan beban tanpa kehilangan tambahan, memastikan pelatihan yang stabil tanpa istilah kehilangan tambahan. Tujuan Multi-Token Prediction (MTP), yang memprediksi satu token tambahan (D=1), memperdensitas sinyal pelatihan dan mendukung decoding spekulatif, mencapai 1,8 kali Token Per Detik (TPS) selama inferensi.
Komponen Arsitektur | Rincian |
---|---|
Total Parameter | 671B, dengan 37B diaktifkan per token |
MLA | Mengompresi cache KV, dimensi embedding 7168, 128 kepala, per kepala 128 |
DeepSeekMoE | 61 lapisan, 1 ahli bersama, 256 terrouting, 8 aktif per token |
Tujuan MTP | Memprediksi 2 token berikutnya, bobot kehilangan 0.3 awalnya, kemudian 0.1, D=1 |
Proses Pelatihan
Pelatihan melibatkan pelatihan awal pada 14,8 triliun token, ditingkatkan dengan sampel matematis, pemrograman, dan multibahasa. Konstruksi data menyempurnakan minimisasi redundansi dan menggunakan pengemasan dokumen tanpa penyaringan perhatian antar-sampel, bersama dengan strategi Fill-in-Middle (FIM) pada tingkat 0.1 melalui Prefix-Suffix-Middle (PSM). Tokenizer, BPE tingkat byte dengan 128K token, dimodifikasi untuk efisiensi multibahasa. Pelatihan presisi campuran FP8, yang divalidasi pada skala besar, mengurangi biaya, dengan 2,664 juta jam GPU H800 untuk pelatihan awal, total 2,788 juta untuk pelatihan penuh, dengan biaya estimasi sebesar $5,576 juta pada $2 per jam GPU. Pelatihan lanjutan mencakup penyempurnaan terawasi pada 1,5 juta contoh, dengan data dari DeepSeek-R1 untuk penalaran dan DeepSeek-V2.5 untuk non-penalaran, diverifikasi oleh manusia, diikuti oleh pembelajaran penguatan.
Aspek Pelatihan | Rincian |
---|---|
Token Pelatihan Awal | 14.8T, beragam dan berkualitas tinggi |
Presisi | FP8 campuran, tile-wise untuk aktivasi, block-wise untuk bobot |
Data Pasca-pelatihan | 1.5 juta contoh, SFT dan RL, domain mencakup penalaran dan kode |
Jam GPU | 2.788 juta H800, total biaya $5.576 juta pada $2/jam GPU |
Evaluasi dan Kinerja
Hasil evaluasi, menurut laporan teknis, menunjukkan keunggulan DeepSeek V3-0324 di berbagai tolok ukur. Evaluasi pra-pelatihan mencakup:
Tolok Ukur | Metrik | Hasil | Perbandingan |
---|---|---|---|
BBH | 3-shot EM | 87.5% | Melampaui Qwen2.5 72B (79.8%), LLaMA-3.1 405B (82.9%) |
MMLU | 5-shot EM | 87.1% | Mengalahkan DeepSeek-V2 Base (78.4%), dekat dengan Qwen2.5 (85.0%) |
HumanEval | 0-shot P@1 | 65.2% | Melampaui LLaMA-3.1 405B (54.9%), Qwen2.5 72B (53.0%) |
GSM8K | 8-shot EM | 89.3% | Lebih baik dari Qwen2.5 72B (88.3%), LLaMA-3.1 405B (83.5%) |
Pasca-pelatihan, model obrolan ini unggul dengan 88.5% di MMLU, 70.0% di AlpacaEval 2.0, dan lebih dari 86% tingkat kemenangan di Arena-Hard melawan GPT-4-0314, bersaing dengan model closed-source seperti GPT-4o dan Claude-3.5-Sonnet. Jendela konteks 128K dan TPS 1.8x yang didukung MTP menyoroti efisiensi praktis, dengan diskusi awal mencatat kemampuan pengkodean yang ditingkatkan dibandingkan versi sebelumnya.
Aplikasi dan Arah Masa Depan
Kemampuan DeepSeek V3-0324 menunjukkan aplikasi dalam pengkodean otomatis, sistem penalaran canggih, dan chatbot multibahasa. Sifat open-source-nya, di bawah lisensi MIT untuk kode, mendukung penggunaan komersial, mendorong kontribusi masyarakat. Arah masa depan dapat mencakup penyempurnaan arsitektur untuk konteks tak terbatas, peningkatan kualitas data, dan eksplorasi metode evaluasi komprehensif, seperti yang disarankan dalam kesimpulan laporan teknis.
Kesimpulan
DeepSeek V3-0324 merupakan kemajuan signifikan dalam AI open-source, menjembatani kesenjangan dengan model closed-source. Arsitektur efisien, pelatihan yang luas, dan kinerja yang kuat memposisikannya sebagai pemimpin, dengan potensi untuk mendorong inovasi lebih lanjut dalam pemrosesan bahasa alami.