Phiên bản DeepSeek V3 0324: Một cái nhìn nhanh

DeepSeek V3-0324 là một điểm kiểm tra đã được cập nhật của mô hình DeepSeek V3, với ngày phát hành là 24 tháng 3 năm 2025, được nhúng trong tên của nó. Những cuộc thảo luận ban đầu gợi ý về việc cải thiện khả năng lập trình và lý

Build APIs Faster & Together in Apidog

Phiên bản DeepSeek V3 0324: Một cái nhìn nhanh

Start for free
Inhalte

DeepSeek V3-0324 là một điểm kiểm tra đã được cập nhật của mô hình DeepSeek V3, với ngày phát hành là 24 tháng 3 năm 2025, được nhúng trong tên của nó. Những cuộc thảo luận ban đầu gợi ý về việc cải thiện khả năng lập trình và lý luận phức tạp, như đã được ghi nhận trong các bài viết gần đây. Mô hình này có sẵn trên GitHub DeepSeek-V3 GitHub và Hugging Face DeepSeek-V3-0324 Hugging Face, phản ánh tính chất mã nguồn mở và khả năng tiếp cận của nó.

Anakin.ai - One-Stop AI App Platform
Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.


Giới thiệu về DeepSeek V3-0324

DeepSeek V3-0324 là một mô hình ngôn ngữ mã nguồn mở tiên tiến được phát triển bởi DeepSeek AI, phát hành vào ngày 24 tháng 3 năm 2025. Mô hình này là phiên bản cập nhật của DeepSeek V3 trước đó, nổi tiếng với quy mô lớn và hiệu quả. Với 671 tỷ tham số tổng và chỉ 37 tỷ được kích hoạt cho mỗi token, nó tận dụng các kiến trúc tiên tiến để xử lý các nhiệm vụ phức tạp như lập trình, lý luận và xử lý đa ngôn ngữ. Bài viết này khám phá cấu trúc, đào tạo, hiệu suất và tiềm năng của nó, cung cấp những hiểu biết cho những ai quan tâm đến sự tiến bộ trong AI.

Kiến trúc mô hình của DeepSeek V3-0324

DeepSeek V3-0324 áp dụng phương pháp Mixture-of-Experts (MoE), trong đó nhiều mạng lưới chuyên gia khác nhau chuyên môn hóa trong các khía cạnh dữ liệu khác nhau. Điều này cho phép có tổng cộng 671 tỷ tham số, với chỉ 37 tỷ hoạt động cho mỗi token, nâng cao hiệu quả. Multi-head Latent Attention (MLA) nén các vector khóa và giá trị, giảm thiểu việc sử dụng bộ nhớ và tăng tốc độ suy luận, đặc biệt là với các ngữ cảnh dài. Kiến trúc DeepSeekMoE, một biến thể MoE tinh chỉnh, đảm bảo cân bằng tải mà không cần thêm các điều khoản mất mát, ổn định quá trình đào tạo. Thêm vào đó, mục tiêu Dự đoán Đa Token (MTP) dự đoán nhiều token trong tương lai, làm đặc tín hiệu đào tạo và cho phép tạo ra nhanh hơn thông qua giải mã dự đoán.

💡
Bạn có quan tâm đến xu hướng mới nhất trong AI không?

Nếu có, bạn không thể bỏ qua Anakin AI!

Anakin AI là một nền tảng tất cả trong một cho tất cả các quy trình tự động của bạn, giúp bạn tạo ra ứng dụng AI mạnh mẽ với một Trình tạo ứng dụng Không cần mã dễ sử dụng, với Deepseek, o3-mini-high của OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

Xây dựng ứng dụng AI mơ ước của bạn chỉ trong vài phút, không phải vài tuần với Anakin AI!
Anakin AI: Nền tảng AI tất cả trong một của bạn
Anakin AI: Nền tảng AI tất cả trong một của bạn

Mô hình đã được tiền đào tạo trên 14.8 triệu tỷ token chất lượng cao và đa dạng, bao gồm toán học, lập trình và nhiều ngôn ngữ khác nhau. Nó sử dụng độ chính xác hỗn hợp FP8 để đạt hiệu quả, giảm chi phí và thời gian đào tạo so với các phương pháp truyền thống. Sau khi đào tạo bao gồm tinh chỉnh giám sát với 1.5 triệu trường hợp trên nhiều lĩnh vực, được hỗ trợ bởi học tăng cường, tinh chỉnh các khả năng như lý luận và tạo mã. Quá trình này, tốn 2.788 triệu giờ GPU H800, nhấn mạnh tính hiệu quả về chi phí của nó.

Hiệu suất và Đánh giá của DeepSeek V3-0324

DeepSeek V3-0324 xuất sắc trong nhiều tiêu chuẩn đánh giá, đặc biệt là trong lập trình và lý luận. Nó đạt được 65.2% trên HumanEval cho việc tạo mã và 89.3% trên GSM8K cho toán học, vượt qua nhiều mô hình mã nguồn mở khác. Trong giai đoạn sau đào tạo, nó ghi được 88.5% trên MMLU và 70.0% trên AlpacaEval 2.0, cạnh tranh với các mô hình mã nguồn đóng như GPT-4o và Claude-3.5-Sonnet. Khả năng xử lý cửa sổ ngữ cảnh 128K và đạt được 1.8 lần Token Mỗi Giây (TPS) thông qua MTP làm nổi bật hiệu quả thực tiễn của nó.


Ghi chú khảo sát này cung cấp một cái nhìn chi tiết về DeepSeek V3-0324, một mô hình ngôn ngữ mã nguồn mở được phát hành bởi DeepSeek AI vào ngày 24 tháng 3 năm 2025. Nó xây dựng trên nền tảng của DeepSeek V3 gốc, đã được phát hành trước đó, và được ghi nhận với những tiến bộ trong các nhiệm vụ lập trình và lý luận. Các phần tiếp theo sẽ đi vào các khía cạnh của cấu trúc, đào tạo, đánh giá và những tác động trong tương lai, cung cấp phân tích kỹ lưỡng cho các nhà nghiên cứu và người đam mê AI.

Nền tảng và Phát hành

Kiến trúc Mô hình

Kiến trúc của DeepSeek V3-0324 được xây dựng trên khung Mixture-of-Experts (MoE), với 671 tỷ tham số tổng và 37 tỷ được kích hoạt cho mỗi token. Thiết kế này, được chi tiết trong báo cáo kỹ thuật, cho phép tính toán hiệu quả bằng cách kích hoạt chỉ một tập hợp nhỏ các chuyên gia cho mỗi token. Multi-head Latent Attention (MLA), như được mô tả trong báo cáo, nén các vector khóa và giá trị để giảm KV cache, tăng tốc độ suy diễn. Kiến trúc DeepSeekMoE, với 61 lớp transformer và 256 chuyên gia được định tuyến cho mỗi lớp MoE, bao gồm một chiến lược cân bằng tải không kèm theo mất mát bổ sung, đảm bảo quá trình đào tạo ổn định mà không cần thêm các điều khoản mất mát. Mục tiêu Dự đoán Đa Token (MTP), dự đoán một token bổ sung (D=1), làm đặc tín hiệu đào tạo và hỗ trợ giải mã dự đoán, đạt được 1.8 lần Token Mỗi Giây (TPS) trong quá trình suy diễn.

Thành phần Kiến trúc Chi tiết
Tổng Số Tham Số 671B, với 37B được kích hoạt cho mỗi token
MLA Nén KV cache, kích thước nhúng 7168, 128 đầu, mỗi đầu 128
DeepSeekMoE 61 lớp, 1 chuyên gia chung, 256 chuyên gia được định tuyến, 8 được kích hoạt cho mỗi token
Mục tiêu MTP Dự đoán 2 token tiếp theo, trọng số mất mát 0.3 ban đầu, sau đó 0.1, D=1

Quá trình Đào tạo

Quá trình đào tạo liên quan đến việc tiền đào tạo trên 14.8 triệu tỷ token, được củng cố với các mẫu toán học, lập trình và đa ngôn ngữ. Việc xây dựng dữ liệu đã tinh chỉnh việc giảm thiểu độ dư thừa và sử dụng đóng gói tài liệu mà không cần che giấu sự chú ý giữa các mẫu, cùng với một chiến lược Fill-in-Middle (FIM) với tỷ lệ 0.1 thông qua Prefix-Suffix-Middle (PSM). Trình phân tích token, một BPE theo cấp byte với 128K token, đã được điều chỉnh để cải thiện hiệu quả đa ngôn ngữ. Việc đào tạo với độ chính xác hỗn hợp FP8, được xác nhận trên quy mô lớn, đã giảm chi phí, với 2.664 triệu giờ GPU H800 cho tiền đào tạo, tổng cộng là 2.788 triệu cho toàn bộ quá trình đào tạo, với chi phí ước tính 5.576 triệu USD ở mức 2 USD mỗi giờ GPU. Sau khi đào tạo bao gồm tinh chỉnh giám sát trên 1.5 triệu trường hợp, với dữ liệu từ DeepSeek-R1 cho lý luận và DeepSeek-V2.5 cho không lý luận, được xác minh bởi con người, tiếp theo là việc học tăng cường.

Khía cạnh Đào tạo Chi tiết
Token Tiền Đào tạo 14.8T, đa dạng và chất lượng cao
Độ Chính Xác FP8 phối hợp, theo ô cho các hoạt động, theo khối cho trọng số
Dữ liệu Sau Đào tạo 1.5M trường hợp, SFT và RL, các lĩnh vực bao gồm lý luận và mã
Giờ GPU 2.788M H800, tổng chi phí 5.576 triệu USD ở mức 2 USD/giờ GPU

Đánh Giá và Hiệu Suất

Kết quả đánh giá, theo báo cáo kỹ thuật, cho thấy khả năng nổi bật của DeepSeek V3-0324 qua các tiêu chí đánh giá. Các đánh giá trước đào tạo bao gồm:

Tiêu Chí Đánh Giá Chỉ Số Kết Quả So Sánh
BBH 3-shot EM 87.5% Vượt xa Qwen2.5 72B (79.8%), LLaMA-3.1 405B (82.9%)
MMLU 5-shot EM 87.1% Thắng DeepSeek-V2 Base (78.4%), gần với Qwen2.5 (85.0%)
HumanEval 0-shot P@1 65.2% Vượt qua LLaMA-3.1 405B (54.9%), Qwen2.5 72B (53.0%)
GSM8K 8-shot EM 89.3% Tốt hơn Qwen2.5 72B (88.3%), LLaMA-3.1 405B (83.5%)

Trong giai đoạn sau đào tạo, mô hình trò chuyện xuất sắc với 88.5% trên MMLU, 70.0% trên AlpacaEval 2.0, và tỷ lệ thắng trên 86% trong Arena-Hard so với GPT-4-0314, cạnh tranh với các mô hình mã nguồn đóng như GPT-4o và Claude-3.5-Sonnet. Cửa sổ ngữ cảnh 128K của nó và MTP cho phép TPS 1.8x làm nổi bật hiệu quả thực tiễn, với các cuộc thảo luận đầu tiên ghi nhận khả năng lập trình được cải thiện so với các phiên bản trước.

Ứng Dụng và Hướng Phát Triển Tương Lai

Khả năng của DeepSeek V3-0324 gợi ý ứng dụng trong lập trình tự động, hệ thống lý luận tiên tiến, và chatbot đa ngôn ngữ. Tính chất mã nguồn mở của nó, theo giấy phép MIT cho mã, hỗ trợ việc sử dụng thương mại, thúc đẩy các đóng góp từ cộng đồng. Các hướng phát triển tương lai có thể bao gồm việc tinh chỉnh kiến trúc cho ngữ cảnh vô hạn, nâng cao chất lượng dữ liệu, và khám phá các phương pháp đánh giá toàn diện, như đã được đề xuất trong phần kết của báo cáo kỹ thuật.

Kết luận

DeepSeek V3-0324 đứng vững như một bước tiến quan trọng trong AI mã nguồn mở, thu hẹp khoảng cách với các mô hình mã nguồn đóng. Kiến trúc hiệu quả, đào tạo rộng rãi và hiệu suất mạnh mẽ của nó định vị nó là một nhà lãnh đạo, với tiềm năng thúc đẩy các đổi mới hơn nữa trong xử lý ngôn ngữ tự nhiên.