انسَ OpenAI Sora: تعرّف على Open-Sora، أداة الفيديو الذكية التي يتحدث عنها الجميع

هل حلمت يومًا بإنشاء مقاطع فيديو مذهلة تم إنشاؤها بواسطة الذكاء الاصطناعي ولكنك شعرت بالقيود بسبب أدوات باهظة الثمن واحتكارية مثل Sora من OpenAI؟ أنت لست وحدك. لقد أثار الإصدار الأخير من Open-Sora، وهو نموذج مفتوح المصدر لتوليد الفيديو باستخدام الذكاء الاصطناعي تم تطويره بواسطة HPC-AI Tech (فريق Colossal-AI)

Build APIs Faster & Together in Apidog

انسَ OpenAI Sora: تعرّف على Open-Sora، أداة الفيديو الذكية التي يتحدث عنها الجميع

Start for free
Inhalte

هل حلمت يومًا بإنشاء مقاطع فيديو مذهلة تم إنشاؤها بواسطة الذكاء الاصطناعي ولكنك شعرت بالقيود بسبب أدوات باهظة الثمن واحتكارية مثل Sora من OpenAI؟ أنت لست وحدك. لقد أثار الإصدار الأخير من Open-Sora، وهو نموذج مفتوح المصدر لتوليد الفيديو باستخدام الذكاء الاصطناعي تم تطويره بواسطة HPC-AI Tech (فريق Colossal-AI)، موجات من الحماس في المجتمعات الإبداعية والتكنولوجية. يوفر Open-Sora قدرات قوية قابلة للمقارنة مع البدائل التجارية، وهو ما يجعله بسرعة الحل المفضل لإنشاء مقاطع فيديو عالية الجودة باستخدام الذكاء الاصطناعي.

في هذه المقالة، سنغوص عميقًا في ما يجعل Open-Sora أداة رائدة، ونستكشف تطورها، وميزاتها الفنية، ومعايير أدائها، وكيف يقارن مع Sora من OpenAI. سواء كنت منشئ محتوى أو مطورًا أو مجرد متحمس للذكاء الاصطناعي، ستجد الكثير من الأسباب التي تجعلك متحمسًا بشأن Open-Sora.

هل أنت مستعد لاستكشاف المزيد من أدوات الفيديو الثورية باستخدام الذكاء الاصطناعي؟ تحقق من نماذج توليد الفيديو القوية من Anakin AI مثل Minimax Video، Tencent Hunyuan، وRunway ML — جميعها متاحة في منصة واحدة ميسرة. ارتق بمشاريعك الإبداعية اليوم: استكشف مولد فيديو Anakin AI

تطور Open-Sora: من بداية واعدة إلى منافس في الصناعة

Open-Sora لم يصبح ظاهرة بين عشية وضحاها. لقد تطور بشكل كبير منذ الإصدار الأولي، محسنًا قدراته وأدائه بشكل مستمر:

تاريخ الإصدارات في لمحة:

  • Open-Sora 1.0: الإصدار الأولي، عملية تدريب مفتوحة المصدر بالكامل وهيكل النموذج.
  • Open-Sora 1.1: تقديم توليد الفيديو متعدد الدقة، والطول، ونسب العرض إلى الارتفاع، إلى جانب معالجة وتحسين الصور/الفيديو.
  • Open-Sora 1.2: إضافة تدفق مصحح، و3D-VAE، وتحسين مقاييس التقييم.
  • Open-Sora 1.3: تنفيذ انتباه عبر النوافذ الموحدة وVAE المكاني الزماني، مع زيادة عدد المعلمات حتى 1.1 مليار.
  • Open-Sora 2.0: أحدث وأفضل إصدار، boasting 11 مليار معلمة تقارب النماذج الاحتكارية مثل Sora من OpenAI.

كل تكرار قرب Open-Sora من المعادلة مع النماذج التجارية الرائدة، مما يتيح الوصول إلى تقنية توليد الفيديو القوية باستخدام الذكاء الاصطناعي للجميع.

تحت الغطاء: الهيكل الفني والميزات الأساسية

ما الذي يجعل Open-Sora 2.0 بديلاً مثيرًا للاهتمام لـ Sora من OpenAI؟ دعونا نفصل هيكله المبتكر وقدراته القوية:

الهيكل النموذجي المبتكر:

  • Transformer لتوزيع الحركة المقنع (MMDiT): يستخدم آليات الانتباه الكامل المتقدمة ثلاثية الأبعاد، مما يعزز بشكل كبير نمذجة الميزات الزمانية المكانية.
  • Transformer لتوزيع الزمان والمكان (ST-DiT-2): يدعم مجموعة متنوعة من فترات الفيديو، والدقة، ونسب العرض إلى الارتفاع، ومعدلات الإطارات، مما يجعله متعدد الاستخدامات للغاية.
  • فيديو أوتوكودر عالي الضغط (Video DC-AE): يقلل بشكل كبير من وقت الاستدلال من خلال ضغط فعال، مما يسمح بتوليد فيديو أسرع.

قدرات توليد مثيرة للإعجاب:

يقدم Open-Sora 2.0 طرق توليد فيديو متنوعة وبديهية:

  • من نص إلى فيديو: إنشاء مقاطع فيديو جذابة مباشرة من الوصف النصي.
  • من صورة إلى فيديو: إحياء الصور الثابتة من خلال الحركة الديناميكية.
  • من فيديو إلى فيديو: تعديل محتوى الفيديو الحالي بسلاسة.
  • تحكم في كثافة الحركة: ضبط كثافة الحركة باستخدام معامل "نقاط الحركة" بسيط (يتراوح من 1 إلى 7).

تمكن هذه الميزات المبدعين من إنتاج محتوى مخصص للغاية وجذاب بصريًا بسهولة.

عملية تدريب فعالة: أداء عالي بتكلفة منخفضة

واحدة من إنجازات Open-Sora البارزة هي منهجية التدريب الفعالة من حيث التكلفة. من خلال استغلال استراتيجيات مبتكرة، تمكن فريق Open-Sora من تقليل نفقات التدريب بشكل كبير مقارنة بالمعايير الصناعية:

منهجية تدريب ذكية:

  • التدريب متعدد المراحل: يبدأ بإطارات منخفضة الدقة، ثم ينتهي تدريجيًا بإخراج عالي الدقة.
  • استراتيجية أولوية الدقة المنخفضة: تعطي الأولوية لتعلم ميزات الحركة أولاً، ثم تحسين الجودة، مما يوفر حتى 40 ضعف من موارد الحوسبة.
  • فرز البيانات بدقة: يضمن بيانات تدريب عالية الجودة، مما يعزز الكفاءة العامة.
  • المعالجة المتوازية: تستخدم ColossalAI للاستفادة المثلى من GPU في بيئات التدريب الموزعة.

كفاءة تكلفة ملحوظة:

  • Open-Sora 2.0: تم تطويرها بحوالي 200,000 دولار (ما يعادل 224 GPU).
  • Step-Video-T2V: تقدر بـ 2992 GPU (500k ساعة GPU).
  • Movie Gen: تتطلب حوالي 6144 GPU (1.25M ساعة GPU).

يمثل هذا تقليصًا مذهلاً يصل إلى 5-10 مرات مقارنةً بنماذج توليد الفيديو الاحتكارية، مما يجعل Open-Sora متاحة لمجموعة واسعة من المستخدمين والمطورين.

معايير الأداء: كيف يقارن Open-Sora؟

عند تقييم نماذج الذكاء الاصطناعي، تعتبر معايير الأداء ضرورية. أظهر Open-Sora 2.0 نتائج مثيرة للإعجاب، تقارب Sora من OpenAI في المقاييس الرئيسية:

نتائج تقييم VBench:

  • النتيجة الكلية: حقق Open-Sora 2.0 83.6، مقارنةً بـ 84.3 من Sora من OpenAI.
  • درجة الجودة: 84.4 (Open-Sora) مقابل 85.5 (OpenAI Sora).
  • الدرجة الدلالية: 80.3 (Open-Sora) مقابل 78.6 (OpenAI Sora).

لقد انخفض الفجوة في الأداء بين Open-Sora وSora من OpenAI بشكل كبير — من 4.52% في الإصدارات السابقة إلى 0.69% اليوم.

نسب فوز تفضيل المستخدم:

في المقارنات المباشرة، يتفوق Open-Sora 2.0 باستمرار على النماذج الرائدة الأخرى:

  • جودة بصرية: 69.5% نسبة فوز ضد Vidu-1.5، 61.0% ضد Hailuo T2V-01-Director.
  • اتباع التعليمات: 77.7% نسبة فوز ضد Runway Gen-3 Alpha، 72.3% ضد Step-Video-T2V.
  • جودة الحركة: 64.2% نسبة فوز ضد Runway Gen-3 Alpha، 55.8% ضد Luma Ray2.

توضح هذه النتائج بوضوح ميزة Open-Sora التنافسية، مما يجعلها بديلاً قابلاً للاعتبار للحلول الاحتكارية باهظة الثمن.

مواصفات توليد الفيديو: ماذا يمكن أن تتوقع؟

يقدم Open-Sora 2.0 قدرات توليد فيديو قوية مناسبة لاحتياجات إبداعية متنوعة:

الدقة والطول:

  • يدعم دقات متعددة (256px، 768px) ونسب عرض إلى ارتفاع (16:9، 9:16، 1:1، 2.39:1).
  • ينتج مقاطع الفيديو تصل إلى 16 ثانية بجودة عالية (720p).

معدل الإطار ووقت المعالجة:

  • نتاج ثابت 24 إطار في الثانية لجودة سينمائية سلسة.
  • تختلف أوقات المعالجة:
  • دقة 256×256: ~60 ثانية على GPU عالي الجودة.
  • دقة 768×768: ~4.5 دقائق مع 8 GPUs بالتوازي.
  • GPU RTX 3090: 30 ثانية لفيديو 240p مدته 2 ثانية، 60 ثانية لفيديو مدته 4 ثوان.

متطلبات الأجهزة والتثبيت: البدء

للشروع في استخدام Open-Sora، ستحتاج إلى تحقيق متطلبات معينة للأجهزة والبرامج:

متطلبات النظام:

  • Python: الإصدار 3.8 أو أعلى.
  • PyTorch: الإصدار 2.1.0 أو أعلى.
  • CUDA: الإصدار 11.7 أو أعلى.

متطلبات ذاكرة GPU:

  • GPUs الاستهلاكية (على سبيل المثال، RTX 3090 مع 24GB VRAM): مناسبة لمقاطع الفيديو القصيرة ذات الدقة المنخفضة.
  • GPUs الاحترافية (على سبيل المثال، RTX 6000 Ada مع 48GB VRAM): موصى بها للدقات العليا ومقاطع الفيديو الأطول.
  • GPUs H100/H800: مثالية لأقصى دقة وتسلسلات أطول.

خطوات التثبيت:

  1. استنساخ المستودع:

git clone https://github.com/hpcaitech/Open-Sora

  1. إعداد بيئة Python:

conda create -n opensora python=3.8 -y

  1. تثبيت الحزم المطلوبة:

pip install -e .

  1. تحميل أوزان النموذج من مستودعات Hugging Face.
  2. تحسين استخدام الذاكرة باستخدام العلامة --save_memory أثناء الاستدلال.

القيود والتطورات المستقبلية: ماذا يتبقى لـ Open-Sora؟

رغم قدراته الرائعة، لا يزال Open-Sora 2.0 يواجه بعض القيود:

  • طول الفيديو: حاليًا محدود بـ 16 ثانية للمخرجات عالية الجودة.
  • حدود الدقة: الدقات العليا تتطلب عدة GPUs عالية الجودة.
  • قيود الذاكرة: تمتلك GPUs الاستهلاكية قدرات محدودة.

ومع ذلك، يعمل فريق Open-Sora بنشاط على تحسينات مثل الاستيفاء متعدد الإطارات وتحسين التناسق الزمني، مما يعد بمزيد من مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي بسلاسة وبطول أكبر في المستقبل.

الأفكار النهائية: ديمقراطية توليد الفيديو باستخدام الذكاء الاصطناعي

يمثل Open-Sora 2.0 قفزة كبيرة إلى الأمام في ديمقراطية تكنولوجيا توليد الفيديو باستخدام الذكاء الاصطناعي. مع أداء يقارب النماذج الاحتكارية مثل Sora من OpenAI — ولكن بتكلفة أقل بكثير — يمكّن Open-Sora المبدعين والمطورين والشركات من استغلال قوة توليد الفيديو باستخدام الذكاء الاصطناعي دون نفقات باهظة.

بينما يواصل Open-Sora التطور، فإنه في وضع يتيح له إحداث ثورة في الصناعات الإبداعية، مقدمًا أدوات توليد فيديو عالية الجودة ومتاحة للجميع.

هل أنت مستعد لاستكشاف المزيد من أدوات توليد الفيديو القوية باستخدام الذكاء الاصطناعي؟ اكتشف Minimax Video، Tencent Hunyuan، Runway ML، والمزيد — جميعها متاحة على Anakin AI. أطلق إبداعك اليوم: استكشف مولد فيديو Anakin AI