การเปิดตัว DeepSeek V3 0324: มองอย่างรวบรัด

DeepSeek V3-0324 เป็นจุดตรวจสอบที่ปรับปรุงแล้วของโมเดล DeepSeek V3 โดยมีวันเปิดตัวคือ 24 มีนาคม 2025 รวมอยู่ในชื่อของมัน การสนทนาเบื้องต้นแสดงให้เห็นถึงการปรับปรุงในความสามารถด้านการเขียนโค้ดและการวิเคราะห์ที่ซับซ้อน ตามที่ได้กล่าวไว้ในบทความล่าสุด โมเดลนี้สามารถใช้

Build APIs Faster & Together in Apidog

การเปิดตัว DeepSeek V3 0324: มองอย่างรวบรัด

Start for free
Inhalte

DeepSeek V3-0324 เป็นจุดตรวจสอบที่ปรับปรุงแล้วของโมเดล DeepSeek V3 โดยมีวันเปิดตัวคือ 24 มีนาคม 2025 รวมอยู่ในชื่อของมัน การสนทนาเบื้องต้นแสดงให้เห็นถึงการปรับปรุงในความสามารถด้านการเขียนโค้ดและการวิเคราะห์ที่ซับซ้อน ตามที่ได้กล่าวไว้ในบทความล่าสุด โมเดลนี้สามารถใช้งานได้ที่ GitHub DeepSeek-V3 GitHub และ Hugging Face DeepSeek-V3-0324 Hugging Face ซึ่งสะท้อนให้เห็นถึงธรรมชาติของการเป็น open-source และการเข้าถึงได้ง่าย

Anakin.ai - One-Stop AI App Platform
Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.


บทนำสู่ DeepSeek V3-0324

DeepSeek V3-0324 เป็นโมเดลการประมวลผลภาษาที่ทันสมัยและเป็น open-source พัฒนาโดย DeepSeek AI ซึ่งเปิดตัวเมื่อวันที่ 24 มีนาคม 2025 โมเดลนี้เป็นเวอร์ชันที่ปรับปรุงจาก DeepSeek V3 ก่อนหน้านี้ที่มีชื่อเสียงในด้านขนาดใหญ่และประสิทธิภาพ ด้วยพารามิเตอร์ทั้งหมด 671 พันล้าน และมีการเปิดใช้งานเพียง 37 พันล้านต่อโทเค็น โมเดลนี้ใช้โครงสร้างขั้นสูงเพื่อจัดการงานที่ซับซ้อน เช่น การเขียนโค้ด การวิเคราะห์ และการประมวลผลหลายภาษา บทความนี้สำรวจโครงสร้าง การฝึกฝน ประสิทธิภาพ และศักยภาพของมัน โดยนำเสนอข้อมูลเชิงลึกสำหรับผู้ที่สนใจในความก้าวหน้าของ AI

สถาปัตยกรรมโมเดล DeepSeek V3-0324

DeepSeek V3-0324 ใช้แนวทาง Mixture-of-Experts (MoE) ซึ่งมีเครือข่ายผู้เชี่ยวชาญหลายตัวที่เชี่ยวชาญในด้านข้อมูลที่แตกต่างกัน สิ่งนี้ทำให้สามารถมีพารามิเตอร์จำนวนมากถึง 671 พันล้าน โดยมีเพียง 37 พันล้านที่เปิดใช้งานต่อโทเค็น ซึ่งเพิ่มประสิทธิภาพ Multi-head Latent Attention (MLA) บีบอัดเวกเตอร์คีย์และค่า เพื่อลดการใช้หน่วยความจำและเพิ่มความเร็วในการอนุมาน โดยเฉพาะอย่างยิ่งสำหรับบริบทที่ยาว สถาปัตยกรรม DeepSeekMoE ซึ่งเป็น MoE รุ่นที่ประณีต มั่นใจในความสมดุลของภาระงานโดยไม่ต้องมีการสูญเสียเพิ่มเติม เพื่อเสถียรภาพในการฝึกฝน นอกจากนี้ เป้าหมาย Multi-Token Prediction (MTP) สามารถคาดการณ์ได้หลายโทเค็นในอนาคต ทำให้การฝึกสัญญาณหนาแน่นขึ้นและช่วยให้การสร้างเร็วขึ้นผ่านการถอดรหัสโดยการคาดการณ์

💡
สนใจแนวโน้มล่าสุดใน AI หรือไม่?

แล้วคุณจะไม่ควรพลาด Anakin AI!

Anakin AI เป็นแพลตฟอร์มแบบครบวงจรสำหรับการทำงานอัตโนมัติของคุณ สร้างแอป AI ที่ทรงพลังด้วย No Code App Builder ที่ใช้งานง่าย โดยมี Deepseek, OpenAI's o3-mini-high, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

สร้างแอป AI ในฝันของคุณภายในไม่กี่นาที ไม่ใช่หลายสัปดาห์ด้วย Anakin AI!
Anakin AI: แพลตฟอร์ม AI แบบครบวงจรของคุณ
Anakin AI: แพลตฟอร์ม AI แบบครบวงจรของคุณ

โมเดลนี้ได้รับการฝึกจากการเรียนรู้ด้วยข้อมูลโทเค็นคุณภาพสูงหลากหลายจำนวน 14.8 ล้านล้านโทเค็น ซึ่งครอบคลุมด้านคณิตศาสตร์ การเขียนโปรแกรม และหลายภาษา ใช้ FP8 แบบผสมเพื่อเพิ่มประสิทธิภาพ ลดต้นทุนการฝึกอบรมและเวลาเมื่อเปรียบเทียบกับวิธีการแบบดั้งเดิม การฝึกอบรมหลังการใช้งานประกอบด้วยการปรับแต่งแบบมีผู้ควบคุมด้วยตัวอย่าง 1.5 ล้านชุดทั่วทุกโดเมน รวมถึงการเสริมกำลังที่ช่วยเพิ่มขีดความสามารถ เช่น การวิเคราะห์และการสร้างโค้ด กระบวนการนี้ใช้เวลา 2.788 ล้านชั่วโมงบน GPU H800 ทำให้แสดงถึงความคุ้มค่าด้านต้นทุน

ประสิทธิภาพและการประเมินผลของ DeepSeek V3-0324

DeepSeek V3-0324 มีความโดดเด่นในเกณฑ์มาตรฐานหลายประการ โดยเฉพาะในด้านการเขียนโค้ดและการวิเคราะห์ มันได้คะแนน 65.2% ใน HumanEval สำหรับการสร้างโค้ดและ 89.3% ใน GSM8K สำหรับคณิตศาสตร์ โดยทำคะแนนสูงกว่าหลายโมเดล open-source ในการฝึกอบรมหลังจากนั้น มีคะแนน 88.5% ใน MMLU และ 70.0% ใน AlpacaEval 2.0 ซึ่งแข่งขันกับโมเดลปิดเช่น GPT-4o และ Claude-3.5-Sonnet ความสามารถในการจัดการกับหน้าต่างบริบท 128K และทำคะแนน 1.8 เท่าในการทำงานต่อวินาที (TPS) ผ่าน MTP แสดงให้เห็นถึงประสิทธิภาพในการใช้งานจริง


หมายเหตุการสำรวจนี้นำเสนอการตรวจสอบอย่างละเอียดเกี่ยวกับ DeepSeek V3-0324 ซึ่งเป็นโมเดลการประมวลผลภาษาที่เปิดเผยโดย DeepSeek AI เมื่อวันที่ 24 มีนาคม 2025 มันสร้างจาก DeepSeek V3 ดั้งเดิมที่เปิดตัวก่อนหน้านี้ และมีชื่อเสียงในด้านความก้าวหน้าในงานการเขียนโค้ดและการวิเคราะห์ งานถัดไปจะสำรวจเกี่ยวกับสถาปัตยกรรม การฝึกอบรม การประเมินผล และผลกระทบในอนาคต โดยเสนอการวิเคราะห์อย่างละเอียดสำหรับนักวิจัยและผู้สนใจใน AI

พื้นหลังและการเปิดตัว

สถาปัตยกรรมโมเดล

สถาปัตยกรรมของ DeepSeek V3-0324 ถูกสร้างขึ้นจากโครงสร้าง Mixture-of-Experts (MoE) โดยมีพารามิเตอร์รวม 671 พันล้าน และมี 37 พันล้านที่เปิดใช้งานต่อโทเค็น การออกแบบนี้ซึ่งอธิบายไว้ในรายงานทางเทคนิค ช่วยอนุญาตการคำนวณแบบมีประสิทธิภาพโดยการเปิดใช้งานเพียงกลุ่มผู้เชี่ยวชาญบางส่วนต่อโทเค็น Multi-head Latent Attention (MLA) ตามที่ถูกอธิบายในรายงาน จะบีบอัดเวกเตอร์คีย์และค่าเพื่อลด KV cache ซึ่งเพิ่มความเร็วในการอนุมาน สถาปัตยกรรม DeepSeekMoE มีชั้น Transformer 61 ชั้น พร้อมผู้เชี่ยวชาญที่ถูกแบ่งปันจำนวน 256 คน และเปิดใช้งาน 8 คนต่อโทเค็น นอกจากนี้ยังมีกลยุทธ์ในการปรับสมดุลภาระงานแบบไม่มีการสูญเสียเพิ่มเติม เพื่อให้มั่นใจว่าการฝึกอบรมมีเสถียรภาพ โดยไม่มีการสูญเสียเพิ่มเติม เป้าหมาย Multi-Token Prediction (MTP) คาดการณ์โทเค็นเพิ่มเติมอีกหนึ่งตัว (D=1) ซึ่งทำให้การฝึกสัญญาณหนาแน่นขึ้นและสนับสนุนการถอดรหัสโดยการคาดการณ์ ทำให้ได้ 1.8 เท่า TPS ในระหว่างการอนุมาน

ส่วนประกอบของสถาปัตยกรรม รายละเอียด
พารามิเตอร์ทั้งหมด 671B, โดยมี 37B ที่เปิดใช้งานต่อโทเค็น
MLA บีบอัด KV cache, มิติของการฝัง 7168, 128 หัว, ต่อหัว 128
DeepSeekMoE 61 ชั้น, 1 ผู้เชี่ยวชาญที่แบ่งปัน, 256 เส้นทาง, 8 ที่เปิดใช้งานต่อโทเค็น
เป้าหมาย MTP คาดการณ์ 2 โทเค็นถัดไป, น้ำหนักการสูญเสีย 0.3 เริ่มต้น, แล้ว 0.1, D=1

กระบวนการฝึกอบรม

การฝึกอบรมเกี่ยวข้องกับการฝึกโดยใช้ 14.8 ล้านล้านโทเค็น โดยมีการปรับความให้เข้ากับข้อมูลทางคณิตศาสตร์ การเขียนโปรแกรม และตัวอย่างหลายภาษา การสร้างข้อมูลได้ช่วยปรับปรุงการลดความซ้ำซ้อน และใช้งานการบรรจุเอกสารโดยไม่มีการปิดหน้าตัวอย่างข้าม ขณะเดียวกันก็ใช้กลยุทธ์ Fill-in-Middle (FIM) ที่อัตรา 0.1 ผ่าน Prefix-Suffix-Middle (PSM ตัวแปล ประเภท byte-level BPE ที่มีโทเค็น 128K ถูกปรับเปลี่ยนเพื่อเพิ่มประสิทธิภาพหลายภาษา การฝึกอบรมที่มีความแม่นยำแบบ FP8 ที่ได้รับการตรวจสอบในสเกลใหญ่ทำให้ลดต้นทุน ใช้เวลา 2.664 ล้านชั่วโมง H800 GPU สำหรับการฝึกอบรมเบื้องต้น รวมเป็น 2.788 ล้านชั่วโมงสำหรับการฝึกอบรมเต็มที่ ค่าใช้จ่ายโดยประมาณอยู่ที่ 5.576 ล้านดอลลาร์ที่อัตรา 2 ดอลลาร์ต่อชั่วโมง GPU หลังการฝึกอบรมมีการปรับแต่งโดยมีผู้ควบคุมจำนวน 1.5 ล้านชุด โดยข้อมูลจาก DeepSeek-R1 สำหรับการวิเคราะห์และ DeepSeek-V2.5 สำหรับไม่ใช่การวิเคราะห์ ที่ผ่านการตรวจสอบโดยมนุษย์ ตามด้วยการเรียนรู้เสริมกำลัง

ด้านการฝึกอบรม รายละเอียด
โทเค็นการฝึกอบรมเบื้องต้น 14.8T, หลากหลายและมีคุณภาพสูง
ความแม่นยำ FP8 แบบผสม, tile-wise สำหรับการเปิดใช้งาน, block-wise สำหรับน้ำหนัก
ข้อมูลหลังการฝึกอบรม 1.5M ตัวอย่าง, SFT และ RL, รวมถึงโดเมนการวิเคราะห์และโค้ด
ชั่วโมง GPU 2.788M H800, ค่าใช้จ่ายรวม 5.576M ที่อัตรา 2 ดอลลาร์/ชั่วโมง GPU

การประเมินและประสิทธิภาพ

ผลการประเมินตามรายงานทางเทคนิค แสดงให้เห็นถึงความสามารถของ DeepSeek V3-0324 ในเกณฑ์มาตรฐาน การประเมินผลเบื้องต้นรวมถึง:

เกณฑ์มาตรฐาน มาตรวัด ผลลัพธ์ การเปรียบเทียบ
BBH 3-shot EM 87.5% ทำคะแนนดีกว่า Qwen2.5 72B (79.8%), LLaMA-3.1 405B (82.9%)
MMLU 5-shot EM 87.1% ดีกว่า DeepSeek-V2 Base (78.4%), ใกล้เคียงกับ Qwen2.5 (85.0%)
HumanEval 0-shot P@1 65.2% มากกว่าหมายถึง LLaMA-3.1 405B (54.9%), Qwen2.5 72B (53.0%)
GSM8K 8-shot EM 89.3% ดีกว่า Qwen2.5 72B (88.3%), LLaMA-3.1 405B (83.5%)

หลังการฝึกอบรม โมเดลแชทยังมีความโดดเด่นด้วยคะแนน 88.5% ใน MMLU, 70.0% ใน AlpacaEval 2.0 และมีอัตราชนะกว่า 86% ใน Arena-Hard กับ GPT-4-0314 ซึ่งแข่งขันกับโมเดลปิดเช่น GPT-4o และ Claude-3.5-Sonnet หน้าต่างบริบท 128K และ MTP ที่เปิดใช้งาน 1.8x TPS แสดงถึงประสิทธิภาพในการใช้งานจริง โดยการสนทนาตั้งแต่เริ่มมีการปรับปรุงความสามารถในการเขียนโค้ดเมื่อเปรียบเทียบกับเวอร์ชันที่ผ่านมา

การประยุกต์ใช้และทิศทางในอนาคต

ความสามารถของ DeepSeek V3-0324 แนะนำถึงการใช้งานในการเขียนโค้ดอัตโนมัติ ระบบการวิเคราะห์ขั้นสูง และแชทบอทที่หลายภาษา ธรรมชาติของ open-source โดยใช้ใบอนุญาต MIT สำหรับโค้ดสนับสนุนการใช้งานเชิงพาณิชย์ ซึ่งส่งเสริมการมีส่วนร่วมของชุมชน ทิศทางในอนาคตอาจรวมถึงการปรับปรุงสถาปัตยกรรมให้มีบริบทไม่รู้จบ การเพิ่มคุณภาพข้อมูล และการสำรวจวิธีการประเมินผลที่ครอบคลุมตามที่ได้แนะนำในบทสรุปของรายงานทางเทคนิค

บทสรุป

DeepSeek V3-0324 ยืนหยัดเป็นความก้าวหน้าใน AI แบบ open-source ที่สำคัญ โดยเชื่อมช่องว่างกับโมเดลปิด สถาปัตยกรรมที่มีประสิทธิภาพ การฝึกอบรมอย่างกว้างขวาง และประสิทธิภาพสูง ทำให้มันเป็นผู้นำ พร้อมทั้งมีศักยภาพในการพัฒนาให้เกิดนวัตกรรมในด้านการประมวลผลภาษาธรรมชาติ