إصدار DeepSeek V3 0324: نظرة سريعة

ديب سيك V3-0324 هو نقطة تفتيش محدثة من نموذج ديب سيك V3، مع تاريخ إصداره، 24 مارس 2025، مضمن في اسمه. تشير المناقشات المبكرة إلى تحسينات في قدرات البرمجة والتفكير المعقد، كما هو ملاحظ في المقالات الأخيرة. النموذج متاح على GitHub ديب سيك V3 على GitHub وHugging Face ديب سيك

Build APIs Faster & Together in Apidog

إصدار DeepSeek V3 0324: نظرة سريعة

Start for free
Inhalte

ديب سيك V3-0324 هو نقطة تفتيش محدثة من نموذج ديب سيك V3، مع تاريخ إصداره، 24 مارس 2025، مضمن في اسمه. تشير المناقشات المبكرة إلى تحسينات في قدرات البرمجة والتفكير المعقد، كما هو ملاحظ في المقالات الأخيرة. النموذج متاح على GitHub ديب سيك V3 على GitHub وHugging Face ديب سيك V3-0324 على Hugging Face، مما يعكس طبيعته مفتوحة المصدر وسهولة الوصول إليه.

Anakin.ai - One-Stop AI App Platform
Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.


مقدمة إلى ديب سيك V3-0324

ديب سيك V3-0324 هو نموذج لغوي مفتوح المصدر متطور طورته ديب سيك AI، صدر في 24 مارس 2025. هذا النموذج هو نسخة محدثة من ديب سيك V3 السابقة، المعروفة بمدى حجمها وكفاءتها. مع 671 مليار معلمة إجمالية و37 مليار فقط مفعلة لكل توكن، يستفيد من البنى المتقدمة للتعامل مع المهام المعقدة مثل البرمجة والتفكير والمعالجة متعددة اللغات. يستكشف هذا المقال بنية النموذج، والتدريب، والأداء، والإمكانات، موفراً رؤى لأولئك المهتمين بتطورات الذكاء الاصطناعي.

بنية نموذج ديب سيك V3-0324

يعتمد ديب سيك V3-0324 على نهج مزيج من الخبراء (MoE)، حيث تتخصص شبكات خبراء متعددة في جوانب مختلفة من البيانات. يسمح ذلك بوجود 671 مليار معلمة، مع 37 مليار فقط نشطة لكل توكن، مما يعزز الكفاءة. يقوم الانتباه الكامن متعدد الرؤوس (MLA) بضغط المتجهات الأساسية والقيمة، مما يقلل من استخدام الذاكرة وي speeds up الاستدلال، خاصة للسياقات الطويلة. تضمن بنية DeepSeekMoE، وهي نسخة مصقولة من MoE، توزيع الحمل بدون مصطلحات خسارة إضافية، مما يؤدي إلى استقرار التدريب. بالإضافة إلى ذلك، يتنبأ الهدف المتعدد التوكن (MTP) بعدة توكنات مستقبلية، مما يزيد من كثافة إشارات التدريب ويمكّن من توليد أسرع من خلال فك التشفير التخميني.

💡
هل أنت مهتم بأحدث الاتجاهات في الذكاء الاصطناعي؟

إذاً، لا يمكنك تفويت Anakin AI!

Anakin AI هي منصة شاملة لجميع احتياجات أتمتة سير العمل، قم بإنشاء تطبيق ذكاء اصطناعي قوي باستخدام أداة بناء التطبيقات بدون كود سهلة الاستخدام، مع ديب سيك، o3-mini-high من OpenAI، Claude 3.7 Sonnet، FLUX، Minimax Video، Hunyuan...

قم ببناء تطبيق الذكاء الاصطناعي الذي تحلم به خلال دقائق، وليس أسابيع باستخدام Anakin AI!
Anakin AI: منصتك الشاملة للذكاء الاصطناعي
Anakin AI: منصتك الشاملة للذكاء الاصطناعي

تم تدريب النموذج مسبقاً على 14.8 تريليون توكن عالي الجودة، متنوع، يغطي الرياضيات، البرمجة، والعديد من اللغات. يستخدم دقة مختلطة FP8 للفعالية، مما يقلل من تكاليف التدريب والوقت مقارنة بالطرق التقليدية. تشمل مرحلة ما بعد التدريب تحسيناً تحت الإشراف مع 1.5 مليون حالة عبر مجالات، مدعومة بالتعلم التعزيزي، مما يكرّس المهارات مثل التفكير وتوليد الشيفرات. هذه العملية، التي تكلف 2.788 مليون ساعة GPU من نوع H800، تبرز فاعليتها من حيث التكلفة.

الأداء وتقييم ديب سيك V3-0324

يتفوق ديب سيك V3-0324 في معايير مختلفة، وخاصة في البرمجة والتفكير. يحقق 65.2% على HumanEval لتوليد الشيفرات و89.3% على GSM8K للرياضيات، متفوقاً على العديد من النماذج مفتوحة المصدر. في مرحلة ما بعد التدريب، سجل 88.5% على MMLU و70.0% على AlpacaEval 2.0، منافساً نماذج مغلقة المصدر مثل GPT-4o وClaude-3.5-Sonnet. تسلط قدرته على التعامل مع نافذة سياقية بحجم 128K وحقق 1.8 مرة من التوكنات في الثانية (TPS) عبر MTP الضوء على فعاليته العملية.


توفر هذه الملاحظة المسحية فحصاً مفصلاً لـ ديب سيك V3-0324، نموذج اللغة مفتوح المصدر الذي أصدرته ديب سيك AI في 24 مارس 2025. يبني على ديب سيك V3 الأصلي، الصادر سابقاً، ويشار إليه لتقدمه في مهام البرمجة والتفكير. تتناول الأقسام التالية بنيته، وتدريبه، وتقييمه، وآثاره المستقبلية، موفرة تحليلًا شاملاً للباحثين في الذكاء الاصطناعي والهواة.

الخلفية والإصدار

بنية النموذج

تنتمي بنية ديب سيك V3-0324 إلى إطار عمل مزيج من الخبراء (MoE)، مع 671 مليار معلمة إجمالية و37 مليار مفعلة لكل توكن. يسمح هذا التصميم، كما هو موضح في التقرير الفني، بالحساب الفعال من خلال تفعيل مجموعة فرعية فقط من الخبراء لكل توكن. يقوم الانتباه الكامن متعدد الرؤوس (MLA)، كما هو موضح في التقرير، بضغط المتجهات الأساسية والقيمة لتقليل الذاكرة المؤقتة للـ KV، مما يعزز سرعة الاستدلال. تشمل بنية DeepSeekMoE 61 طبقة من المحولات و256 خبيراً موزعين لكل طبقة MoE، وتشتمل على استراتيجية توزيع الحمل بدون خسائر إضافية، مما يضمن تدريباً مستقراً دون مصطلحات خسارة إضافية. الهدف من تنبؤ التوكن المتعدد (MTP)، الذي يتنبأ بتوكن إضافي (D=1)، يزيد من كثافة إشارات التدريب ويدعم فك الشفرة التخمينية، محققاً 1.8 مرة من التوكنات في الثانية (TPS) أثناء الاستدلال.

مكون البنية التفاصيل
إجمالي المعلمات 671 مليار، مع 37 مليار مفعلة لكل توكن
MLA يضغط KV cache، بعد الاستدلال 7168، 128 رأساً، لكل رأس 128
DeepSeekMoE 61 طبقة، خبير مشترك واحد، 256 موجه، 8 مفعلة لكل توكن
هدف MTP يتنبأ بالتوكنين القادمين، وزن الخسارة 0.3 في البداية، ثم 0.1، D=1

عملية التدريب

تضمن التدريب تدريباً مسبقاً على 14.8 تريليون توكن، معززة بعينات رياضية، برمجية، ومتعددة اللغات. تم تحسين إنشاء البيانات لتقليل التكرار واستخدم حزم الوثائق بدون قناع الانتباه بين العينات، جنباً إلى جنب مع استراتيجية Fill-in-Middle (FIM) بمعدل 0.1 عبر Prefix-Suffix-Middle (PSM). تم تعديل المحلل اللغوي، وهو BPE على مستوى بايت مع 128K توكنات، لكفاءة متعددة اللغات. قللت دقة التدريب المختلطة FP8، التي تم التحقق منها على نطاقات واسعة، من التكاليف، مع 2.664 مليون ساعة GPU من نوع H800 للتدريب المسبق، مما يجعل التكلفة الإجمالية 2.788 مليون، بتكلفة تقديرية قدرها 5.576 مليون دولار بمعدل 2 دولار لكل ساعة GPU. شملت مرحلة ما بعد التدريب تحسيناً تحت الإشراف على 1.5 مليون حالة، مع بيانات من DeepSeek-R1 للتفكير وDeepSeek-V2.5 لغير التفكير، تم التحقق منها بواسطة البشر، تلتها عملية تعلم تعزيزية.

جانب التدريب التفاصيل
توكنات التدريب المسبق 14.8 تريليون، متنوعة وعالية الجودة
الدقة مختلطة FP8، على مستوى البلاط للتفعيل، على مستوى الكتل للأوزان
بيانات ما بعد التدريب 1.5 مليون حالة، SFT وRL، تشمل مجالات التفكير والشيفرات
ساعات GPU 2.788 مليون H800، التكلفة الإجمالية 5.576 مليون دولار بمعدل 2 دولار لكل ساعة GPU

التقييم والأداء

تظهر نتائج التقييم، وفقاً للتقرير الفني، براعة ديب سيك V3-0324 عبر المعايير. تشمل تقييمات التدريب المسبق:

المعيار المقياس النتيجة المقارنة
BBH 3-shot EM 87.5% يتفوق على Qwen2.5 72B (79.8%)، LLaMA-3.1 405B (82.9%)
MMLU 5-shot EM 87.1% يضاهي DeepSeek-V2 Base (78.4%)، قريب من Qwen2.5 (85.0%)
HumanEval 0-shot P@1 65.2% يتفوق على LLaMA-3.1 405B (54.9%)، Qwen2.5 72B (53.0%)
GSM8K 8-shot EM 89.3% أفضل من Qwen2.5 72B (88.3%)، LLaMA-3.1 405B (83.5%)

بعد التدريب، يتفوق نموذج الدردشة على MMLU بنسبة 88.5%، 70.0% على AlpacaEval 2.0، ونسبة فوز تزيد عن 86% على Arena-Hard ضد GPT-4-0314، منافساً نماذج مغلقة المصدر مثل GPT-4o وClaude-3.5-Sonnet. تبرز نافذته السياقية بحجم 128K وMTP التي تتيح 1.8x TPS الفعالية العملية، مع ملاحظات مبكرة تشير إلى تحسينات في قدرات البرمجة مقارنة بالإصدارات السابقة.

التطبيقات والاتجاهات المستقبلية

تشير قدرات ديب سيك V3-0324 إلى تطبيقات في البرمجة الآلية، أنظمة التفكير المتقدمة، وروبوتات المحادثة متعددة اللغات. تدعم طبيعته مفتوحة المصدر، بموجب رخصة MIT للشفرة، الاستخدام التجاري، مما يعزز مساهمات المجتمع. قد تشمل الاتجاهات المستقبلية تحسين البنى لتمكين سياقات غير محدودة، تعزيز جودة البيانات، واستكشاف طرق تقييم شاملة، كما هو مقترح في استنتاج التقرير الفني.

الخاتمة

يعتبر ديب سيك V3-0324 تقدمًا كبيرًا في الذكاء الاصطناعي مفتوح المصدر، حيث يسد الفجوات مع النماذج المغلقة المصدر. تتوطن بنية النموذج الفعالة، والتدريب الواسع، والأداء القوي كمكانة رائدة، مع إمكانية دفع المزيد من الابتكارات في معالجة اللغة الطبيعية.