DeepSeek V3-0324 là một điểm kiểm tra đã được cập nhật của mô hình DeepSeek V3, với ngày phát hành là 24 tháng 3 năm 2025, được nhúng trong tên của nó. Những cuộc thảo luận ban đầu gợi ý về việc cải thiện khả năng lập trình và lý luận phức tạp, như đã được ghi nhận trong các bài viết gần đây. Mô hình này có sẵn trên GitHub DeepSeek-V3 GitHub và Hugging Face DeepSeek-V3-0324 Hugging Face, phản ánh tính chất mã nguồn mở và khả năng tiếp cận của nó.


Giới thiệu về DeepSeek V3-0324
DeepSeek V3-0324 là một mô hình ngôn ngữ mã nguồn mở tiên tiến được phát triển bởi DeepSeek AI, phát hành vào ngày 24 tháng 3 năm 2025. Mô hình này là phiên bản cập nhật của DeepSeek V3 trước đó, nổi tiếng với quy mô lớn và hiệu quả. Với 671 tỷ tham số tổng và chỉ 37 tỷ được kích hoạt cho mỗi token, nó tận dụng các kiến trúc tiên tiến để xử lý các nhiệm vụ phức tạp như lập trình, lý luận và xử lý đa ngôn ngữ. Bài viết này khám phá cấu trúc, đào tạo, hiệu suất và tiềm năng của nó, cung cấp những hiểu biết cho những ai quan tâm đến sự tiến bộ trong AI.

Kiến trúc mô hình của DeepSeek V3-0324
DeepSeek V3-0324 áp dụng phương pháp Mixture-of-Experts (MoE), trong đó nhiều mạng lưới chuyên gia khác nhau chuyên môn hóa trong các khía cạnh dữ liệu khác nhau. Điều này cho phép có tổng cộng 671 tỷ tham số, với chỉ 37 tỷ hoạt động cho mỗi token, nâng cao hiệu quả. Multi-head Latent Attention (MLA) nén các vector khóa và giá trị, giảm thiểu việc sử dụng bộ nhớ và tăng tốc độ suy luận, đặc biệt là với các ngữ cảnh dài. Kiến trúc DeepSeekMoE, một biến thể MoE tinh chỉnh, đảm bảo cân bằng tải mà không cần thêm các điều khoản mất mát, ổn định quá trình đào tạo. Thêm vào đó, mục tiêu Dự đoán Đa Token (MTP) dự đoán nhiều token trong tương lai, làm đặc tín hiệu đào tạo và cho phép tạo ra nhanh hơn thông qua giải mã dự đoán.
Nếu có, bạn không thể bỏ qua Anakin AI!
Anakin AI là một nền tảng tất cả trong một cho tất cả các quy trình tự động của bạn, giúp bạn tạo ra ứng dụng AI mạnh mẽ với một Trình tạo ứng dụng Không cần mã dễ sử dụng, với Deepseek, o3-mini-high của OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...
Xây dựng ứng dụng AI mơ ước của bạn chỉ trong vài phút, không phải vài tuần với Anakin AI!

Mô hình đã được tiền đào tạo trên 14.8 triệu tỷ token chất lượng cao và đa dạng, bao gồm toán học, lập trình và nhiều ngôn ngữ khác nhau. Nó sử dụng độ chính xác hỗn hợp FP8 để đạt hiệu quả, giảm chi phí và thời gian đào tạo so với các phương pháp truyền thống. Sau khi đào tạo bao gồm tinh chỉnh giám sát với 1.5 triệu trường hợp trên nhiều lĩnh vực, được hỗ trợ bởi học tăng cường, tinh chỉnh các khả năng như lý luận và tạo mã. Quá trình này, tốn 2.788 triệu giờ GPU H800, nhấn mạnh tính hiệu quả về chi phí của nó.
Hiệu suất và Đánh giá của DeepSeek V3-0324
DeepSeek V3-0324 xuất sắc trong nhiều tiêu chuẩn đánh giá, đặc biệt là trong lập trình và lý luận. Nó đạt được 65.2% trên HumanEval cho việc tạo mã và 89.3% trên GSM8K cho toán học, vượt qua nhiều mô hình mã nguồn mở khác. Trong giai đoạn sau đào tạo, nó ghi được 88.5% trên MMLU và 70.0% trên AlpacaEval 2.0, cạnh tranh với các mô hình mã nguồn đóng như GPT-4o và Claude-3.5-Sonnet. Khả năng xử lý cửa sổ ngữ cảnh 128K và đạt được 1.8 lần Token Mỗi Giây (TPS) thông qua MTP làm nổi bật hiệu quả thực tiễn của nó.

Ghi chú khảo sát này cung cấp một cái nhìn chi tiết về DeepSeek V3-0324, một mô hình ngôn ngữ mã nguồn mở được phát hành bởi DeepSeek AI vào ngày 24 tháng 3 năm 2025. Nó xây dựng trên nền tảng của DeepSeek V3 gốc, đã được phát hành trước đó, và được ghi nhận với những tiến bộ trong các nhiệm vụ lập trình và lý luận. Các phần tiếp theo sẽ đi vào các khía cạnh của cấu trúc, đào tạo, đánh giá và những tác động trong tương lai, cung cấp phân tích kỹ lưỡng cho các nhà nghiên cứu và người đam mê AI.
Nền tảng và Phát hành
Kiến trúc Mô hình
Kiến trúc của DeepSeek V3-0324 được xây dựng trên khung Mixture-of-Experts (MoE), với 671 tỷ tham số tổng và 37 tỷ được kích hoạt cho mỗi token. Thiết kế này, được chi tiết trong báo cáo kỹ thuật, cho phép tính toán hiệu quả bằng cách kích hoạt chỉ một tập hợp nhỏ các chuyên gia cho mỗi token. Multi-head Latent Attention (MLA), như được mô tả trong báo cáo, nén các vector khóa và giá trị để giảm KV cache, tăng tốc độ suy diễn. Kiến trúc DeepSeekMoE, với 61 lớp transformer và 256 chuyên gia được định tuyến cho mỗi lớp MoE, bao gồm một chiến lược cân bằng tải không kèm theo mất mát bổ sung, đảm bảo quá trình đào tạo ổn định mà không cần thêm các điều khoản mất mát. Mục tiêu Dự đoán Đa Token (MTP), dự đoán một token bổ sung (D=1), làm đặc tín hiệu đào tạo và hỗ trợ giải mã dự đoán, đạt được 1.8 lần Token Mỗi Giây (TPS) trong quá trình suy diễn.
Thành phần Kiến trúc | Chi tiết |
---|---|
Tổng Số Tham Số | 671B, với 37B được kích hoạt cho mỗi token |
MLA | Nén KV cache, kích thước nhúng 7168, 128 đầu, mỗi đầu 128 |
DeepSeekMoE | 61 lớp, 1 chuyên gia chung, 256 chuyên gia được định tuyến, 8 được kích hoạt cho mỗi token |
Mục tiêu MTP | Dự đoán 2 token tiếp theo, trọng số mất mát 0.3 ban đầu, sau đó 0.1, D=1 |
Quá trình Đào tạo
Quá trình đào tạo liên quan đến việc tiền đào tạo trên 14.8 triệu tỷ token, được củng cố với các mẫu toán học, lập trình và đa ngôn ngữ. Việc xây dựng dữ liệu đã tinh chỉnh việc giảm thiểu độ dư thừa và sử dụng đóng gói tài liệu mà không cần che giấu sự chú ý giữa các mẫu, cùng với một chiến lược Fill-in-Middle (FIM) với tỷ lệ 0.1 thông qua Prefix-Suffix-Middle (PSM). Trình phân tích token, một BPE theo cấp byte với 128K token, đã được điều chỉnh để cải thiện hiệu quả đa ngôn ngữ. Việc đào tạo với độ chính xác hỗn hợp FP8, được xác nhận trên quy mô lớn, đã giảm chi phí, với 2.664 triệu giờ GPU H800 cho tiền đào tạo, tổng cộng là 2.788 triệu cho toàn bộ quá trình đào tạo, với chi phí ước tính 5.576 triệu USD ở mức 2 USD mỗi giờ GPU. Sau khi đào tạo bao gồm tinh chỉnh giám sát trên 1.5 triệu trường hợp, với dữ liệu từ DeepSeek-R1 cho lý luận và DeepSeek-V2.5 cho không lý luận, được xác minh bởi con người, tiếp theo là việc học tăng cường.
Khía cạnh Đào tạo | Chi tiết |
---|---|
Token Tiền Đào tạo | 14.8T, đa dạng và chất lượng cao |
Độ Chính Xác | FP8 phối hợp, theo ô cho các hoạt động, theo khối cho trọng số |
Dữ liệu Sau Đào tạo | 1.5M trường hợp, SFT và RL, các lĩnh vực bao gồm lý luận và mã |
Giờ GPU | 2.788M H800, tổng chi phí 5.576 triệu USD ở mức 2 USD/giờ GPU |
Đánh Giá và Hiệu Suất
Kết quả đánh giá, theo báo cáo kỹ thuật, cho thấy khả năng nổi bật của DeepSeek V3-0324 qua các tiêu chí đánh giá. Các đánh giá trước đào tạo bao gồm:
Tiêu Chí Đánh Giá | Chỉ Số | Kết Quả | So Sánh |
---|---|---|---|
BBH | 3-shot EM | 87.5% | Vượt xa Qwen2.5 72B (79.8%), LLaMA-3.1 405B (82.9%) |
MMLU | 5-shot EM | 87.1% | Thắng DeepSeek-V2 Base (78.4%), gần với Qwen2.5 (85.0%) |
HumanEval | 0-shot P@1 | 65.2% | Vượt qua LLaMA-3.1 405B (54.9%), Qwen2.5 72B (53.0%) |
GSM8K | 8-shot EM | 89.3% | Tốt hơn Qwen2.5 72B (88.3%), LLaMA-3.1 405B (83.5%) |
Trong giai đoạn sau đào tạo, mô hình trò chuyện xuất sắc với 88.5% trên MMLU, 70.0% trên AlpacaEval 2.0, và tỷ lệ thắng trên 86% trong Arena-Hard so với GPT-4-0314, cạnh tranh với các mô hình mã nguồn đóng như GPT-4o và Claude-3.5-Sonnet. Cửa sổ ngữ cảnh 128K của nó và MTP cho phép TPS 1.8x làm nổi bật hiệu quả thực tiễn, với các cuộc thảo luận đầu tiên ghi nhận khả năng lập trình được cải thiện so với các phiên bản trước.
Ứng Dụng và Hướng Phát Triển Tương Lai
Khả năng của DeepSeek V3-0324 gợi ý ứng dụng trong lập trình tự động, hệ thống lý luận tiên tiến, và chatbot đa ngôn ngữ. Tính chất mã nguồn mở của nó, theo giấy phép MIT cho mã, hỗ trợ việc sử dụng thương mại, thúc đẩy các đóng góp từ cộng đồng. Các hướng phát triển tương lai có thể bao gồm việc tinh chỉnh kiến trúc cho ngữ cảnh vô hạn, nâng cao chất lượng dữ liệu, và khám phá các phương pháp đánh giá toàn diện, như đã được đề xuất trong phần kết của báo cáo kỹ thuật.
Kết luận
DeepSeek V3-0324 đứng vững như một bước tiến quan trọng trong AI mã nguồn mở, thu hẹp khoảng cách với các mô hình mã nguồn đóng. Kiến trúc hiệu quả, đào tạo rộng rãi và hiệu suất mạnh mẽ của nó định vị nó là một nhà lãnh đạo, với tiềm năng thúc đẩy các đổi mới hơn nữa trong xử lý ngôn ngữ tự nhiên.