كوين2.5-أومني-7ب: النموذج النهائي الشامل متعدد الوسائط للذكاء الاصطناعي

💡هل أنت مهتم بأحدث الاتجاهات في الذكاء الاصطناعي؟ إذن، لا يمكنك أن تفوت Anakin AI! Anakin AI هو منصة شاملة لجميع احتياجاتك في أتمتة سير العمل، أنشئ تطبيق ذكاء اصطناعي قوي باستخدام مُنشئ تطبيقات بدون رمز سهل الاستخدام، مع Deepseek، OpenAI's o3-mini-high، Claude 3.7 Sonnet، FLUX، Minimax Video،

Build APIs Faster & Together in Apidog

كوين2.5-أومني-7ب: النموذج النهائي الشامل متعدد الوسائط للذكاء الاصطناعي

Start for free
Inhalte
💡
هل أنت مهتم بأحدث الاتجاهات في الذكاء الاصطناعي؟

إذن، لا يمكنك أن تفوت Anakin AI!

Anakin AI هو منصة شاملة لجميع احتياجاتك في أتمتة سير العمل، أنشئ تطبيق ذكاء اصطناعي قوي باستخدام مُنشئ تطبيقات بدون رمز سهل الاستخدام، مع Deepseek، OpenAI's o3-mini-high، Claude 3.7 Sonnet، FLUX، Minimax Video، Hunyuan...

ابنِ تطبيق الذكاء الاصطناعي الذي تحلم به في غضون دقائق، وليس أسابيع، مع Anakin AI!
Anakin AI: منصة الذكاء الاصطناعي الشاملة الخاصة بك
Anakin AI: منصة الذكاء الاصطناعي الشاملة الخاصة بك

مقدمة

Qwen2.5-Omni-7B يمثل أحدث تقدم في تقنية الذكاء الاصطناعي متعدد الأبعاد من فريق Qwen في Alibaba Cloud. تم إصداره كجزء من سلسلة Qwen2.5، ويعتبر هذا النموذج المكون من 7 مليارات معلمة تقدماً كبيراً في القدرات متعددة الأبعاد من البداية إلى النهاية، وقادر على إدراك ومعالجة أنواع إدخال متنوعة تشمل النصوص والصور والصوت والفيديو، بينما يولد في الوقت نفسه ردود نصية وصوت طبيعي بطريقة متدفقة.

ما يميز Qwen2.5-Omni-7B هو تعدد استخداماته وأدائه الاستثنائي عبر جميع الأنماط، مما يجعله نموذجاً "شاملاً" حقيقياً لمختلف تطبيقات الذكاء الاصطناعي. القدرة على التعامل مع الصوت والرؤية والنص في الوقت نفسه تضعه بين النماذج الأكثر تقدماً مفتوحة المصدر المتاحة حالياً.

الميزات الرئيسية والقدرات

بنية المثقف والمتحدث الجديدة

في قلب Qwen2.5-Omni-7B تكمن بنية المثقف والمتحدث المبتكرة، التي صُممت خصيصًا لإدراك شامل متعدد الأبعاد. تenable هذه البنية النموذج لـ:

  • معالجة أنواع إدخال متعددة في الوقت نفسه
  • توليد مخرجات نصية وصوتية
  • تقديم ردود متدفقة في الوقت الحقيقي

تتضمن البنية نظام توضيحي موقعي جديد يسمى TMRoPE (الزمن المقترن متعدد الأبعاد)، الذي يزامن طوابع زمنية لمداخل الفيديو مع الصوت، مما يمكن من فهم متعدد الأبعاد أكثر تماسكًا.

الدردشة الصوتية والفيديو في الوقت الحقيقي

تم بناء النموذج للتفاعلات في الوقت الحقيقي بالكامل، داعماً معالجة المدخلات المجزأة وتوليد المخرجات الفورية. هذه القدرة ضرورية للتطبيقات التي تتطلب تدفقًا محادثيًا طبيعيًا، مثل المساعدين الافتراضيين والأنظمة التفاعلية.

توليد صوتي طبيعي وقوي

يظهر Qwen2.5-Omni-7B قدرات قوية في توليد الصوت مقارنة بالعديد من البدائل الحالية في البث وغير البث. تُميز مخرجات الصوت الخاصة بالنموذج بقوة استثنائية وطبيعية، مما يجعلها مناسبة للتطبيقات التي تتطلب مخرجات صوت عالية الجودة.

أداء قوي عبر الأبعاد

عند قياسه ضد نماذج ذات بُعد واحد بحجم مماثل، يظهر Qwen2.5-Omni-7B أداءً استثنائياً عبر جميع الأبعاد. يتفوق على Qwen2-Audio بحجم مماثل في القدرات الصوتية ويحقق أداءً موازياً لـ Qwen2.5-VL-7B في مهام الرؤية واللغة، مما يظهر تعدديته كنظام متعدد الأبعاد حقيقي.

التنفيذ الممتاز لتعليمات الصوت

أحد جوانب Qwen2.5-Omni-7B الأكثر إثارة للإعجاب هو قدرته على اتباع التعليمات من خلال الإدخال الصوتي بأداء ينافس قدراته على إدخال النص. يظهر هذا من خلال أدائه القوي في مقاييس مثل MMLU وGSM8K عندما يتم تزويده بإدخال صوتي، مما يظهر أن النموذج يحتفظ بقدرات معرفية عالية بغض النظر عن نوع الإدخال.

أداء التصنيف

لقد خضع Qwen2.5-Omni-7B لتقييم شامل عبر مقاييس متعددة، حيث أظهر باستمرار أداءً قويًا في مجالات مختلفة:

مقاييس متعددة الأبعاد

في OmniBench، الذي يختبر الأداء عبر فهم الصوت والأحداث الصوتية والموسيقى:

  • Qwen2.5-Omni-7B: 56.13% متوسط الأداء
  • Gemini-1.5-Pro: 42.91%
  • Baichuan-Omni-1.5: 42.90%
  • MiniCPM-o: 40.50%

هذا يضع Qwen2.5-Omni-7B في طليعة النماذج المتقدمة في مهام الفهم متعدد الأبعاد بحجم مشابه.

معالجة الصوت

للتعرف على الصوت في LibriSpeech:

  • Qwen2.5-Omni-7B: 1.8 WER في الاختبار النظيف، 3.4 WER في الاختبار الآخر
  • Qwen2-Audio: 1.6 WER في الاختبار النظيف، 3.6 WER في الاختبار الآخر
  • Whisper-large-v3: 1.8 WER في الاختبار النظيف، 3.6 WER في الاختبار الآخر

لفهم الصوت على MMAU:

  • Qwen2.5-Omni-7B: 65.60% (متوسط)
  • Gemini-Pro-V1.5: 54.90%
  • Qwen2-Audio: 49.20%

فهم الصورة والفيديو

في مقاييس فهم الصورة:

  • MMMU val: 59.2% (مقارنة بـ 60.0% لـ GPT-4o-mini و58.6% لـ Qwen2.5-VL-7B)
  • MMBench-V1.1-EN test: 81.8% (مقارنة بـ 82.6% لـ Qwen2.5-VL-7B و76.0% لـ GPT-4o-mini)

لفهم الفيديو:

  • MVBench: 70.3% (مقارنة بـ 69.6% لـ Qwen2.5-VL-7B)
  • Video-MME بدون ترجمات: 64.3% (مقارنة بـ 65.1% لـ Qwen2.5-VL-7B)

مقاييس النص فقط

رغم كونه نموذجًا متعدد الأبعاد، يحتفظ Qwen2.5-Omni-7B بأداء قوي في مقاييس النص فقط:

  • MMLU-redux: 71.0% (مقارنة بـ 75.4% لـ Qwen2.5-7B)
  • GSM8K: 88.7% (مقارنة بـ 91.6% لـ Qwen2.5-7B)
  • HumanEval: 78.7% (مقارنة بـ 84.8% لـ Qwen2.5-7B)

بينما الأداء في النص فقط أقل قليلاً من نظيره المتخصص في النص (Qwen2.5-7B)، فإنه يتفوق بشكل كبير على العديد من النماذج المقارنة مثل Llama3.1-8B وGemma2-9B عبر معظم القياسات.

تشغيل Qwen2.5-Omni-7B محليًا

يتطلب إعداد وتشغيل Qwen2.5-Omni-7B محليًا بعض التحضير نظرًا لمتطلباته متعددة الأبعاد. إليك دليل شامل للبدء:

متطلبات النظام

لتشغيل Qwen2.5-Omni-7B بفاعلية، ستحتاج إلى:

  • وحدة معالجة رسومية متوافقة مع CUDA بذاكرة كافية:
  • لفيديو 15 ثانية: 31.11 جيجا بايت (BF16)
  • لفيديو 30 ثانية: 41.85 جيجا بايت (BF16)
  • لفيديو 60 ثانية: 60.19 جيجا بايت (BF16)
  • ملاحظة: الاستخدام الفعلي للذاكرة عادة ما يكون أعلى بمعدل 1.2x من هذه الحدود الأدنى النظرية
  • متطلبات البرمجيات:
  • Python 3.8+
  • PyTorch 2.0+
  • FFmpeg (لعمليات معالجة الصوت/الفيديو)

خطوات التثبيت

قم بتثبيت الحزم اللازمة:

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356
pip install accelerate
pip install qwen-omni-utils[decord]

تثبيت Flash Attention 2 (اختياري ولكنه موصى به للأداء):

pip install -U flash-attn --no-build-isolation

مثال على الاستخدام الأساسي

إليك مثال أساسي لكيفية استخدام Qwen2.5-Omni-7B مع Transformers:

import soundfile as sf
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info

# Load the model
model = Qwen2_5OmniModel.from_pretrained(
    "Qwen/Qwen2.5-Omni-7B",
    torch_dtype="auto",
    device_map="auto",
    # Uncomment for better performance with compatible hardware
    # attn_implementation="flash_attention_2",
)

# Load the processor
processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")

# Prepare conversation
conversation = [
    {
        "role": "system",
        "content": "أنت Qwen، إنسان افتراضي تم تطويره بواسطة فريق Qwen، مجموعة علي بابا، قادر على إدراك المدخلات السمعية والبصرية، بالإضافة إلى توليد النصوص والكلام.",
    },
    {
        "role": "user",
        "content": [
            {"type": "video", "video": "<https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4>"},
        ],
    },
]

# Preparation for inference
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=True)
inputs = processor(
    text=text,
    audios=audios,
    images=images,
    videos=videos,
    return_tensors="pt",
    padding=True
)
inputs = inputs.to(model.device).to(model.dtype)

# Inference: Generation of the output text and audio
text_ids, audio = model.generate(**inputs, use_audio_in_video=True)
text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(text)

# Save audio output
sf.write(
    "output.wav",
    audio.reshape(-1).detach().cpu().numpy(),
    samplerate=24000,
)

نصائح الاستخدام

متطلبات مخرجات الصوت

لكي يتم تمكين مخرجات الصوت، يجب ضبط المطالبات النظامية بالضبط كما هو موضح:

{
    "role": "system",
    "content": "أنت Qwen، إنسان افتراضي تم تطويره بواسطة فريق Qwen، مجموعة علي بابا، قادر على إدراك المدخلات السمعية والبصرية، بالإضافة إلى توليد النصوص والكلام."
}

اختيار نوع الصوت

يدعم Qwen2.5-Omni-7B نوعين من الصوت:

  • تشيلسي (إناث): صوت عذب ومخمل مع دفء لطيف ووضوح لامع
  • إيثان (ذكور): صوت مشرق ونشيط مع طاقة ودفء معديين

يمكنك تحديد الصوت باستخدام معلمة spk:

text_ids, audio = model.generate(**inputs, spk="Ethan")

خيارات معالجة الفيديو

تعتمد توافق رابط الفيديو على إصدار المكتبة الخارجية:

  • torchvision >= 0.19.0: يدعم كل من HTTP و HTTPS
  • decord: يدعم HTTP فقط

يمكنك تغيير الخلفية عن طريق ضبط متغيرات البيئة:

FORCE_QWENVL_VIDEO_READER=torchvision
# or
FORCE_QWENVL_VIDEO_READER=decord

نشر باستخدام Docker

للنشر المبسط، يمكنك استخدام صورة Docker الرسمية:

docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash

لتشغيل العرض التوضيحي عبر الويب من خلال Docker:

bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2

نشر vLLM

للحصول على استنتاج أسرع، يُوصى باستخدام vLLM:

قم بتثبيت vLLM مع دعم Qwen2.5-Omni:

pip install git+https://github.com/huggingface/transformers@1d04f0d44251be5e236484f8c8a00e1c7aa69022
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 <https://github.com/fyabc/vllm.git> vllm
cd vllm
pip install .

الاستخدام الأساسي لـ vLLM (حاليًا دعم الإخراج النصي فقط):

import os
import torch
from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info

os.environ['VLLM_USE_V1'] = '0'  # vLLM engine v1 غير مدعوم بعد
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"

llm = LLM(
    model=MODEL_PATH,
    trust_remote_code=True,
    gpu_memory_utilization=0.9,
    tensor_parallel_size=torch.cuda.device_count(),
    limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
    seed=1234
)

# Process inputs and generate outputs as shown in the example

الختام

يمثل Qwen2.5-Omni-7B تقدمًا كبيرًا في تقنية الذكاء الاصطناعي متعدد الأبعاد، حيث يقدم أداءً مثيرًا للإعجاب في معالجة النصوص والصور والصوت والفيديو في نموذج واحد. مع حجمه البالغ 7 مليارات معلمة، يوفر توازنًا جيدًا بين القدرات ومتطلبات الموارد، مما يجعله قابلاً للوصول لسيناريوهات نشر متنوعة.

إن قدرة النموذج ليس فقط على فهم الأبعاد المتعددة ولكن أيضًا على توليد كلاً من النصوص والمخرجات الصوتية تفتح العديد من الإمكانيات للتطبيقات في المساعدات الافتراضية، إنشاء المحتوى، أدوات الوصول، والمزيد. إن أدائه التنافسي مقارنةً بالنماذج الكبيرة المتخصصة يظهر فعالية عمارة النموذج وطريقة تدريبه.

مع استمرار تطور الذكاء الاصطناعي نحو قدرات تفاعل أكثر شبه إنسانية، تمثل نماذج مثل Qwen2.5-Omni-7B خطوة مهمة للأمام في إنشاء أنظمة ذكاء اصطناعي أكثر طبيعية ومرونة يمكن أن تربط بسلاسة بين أشكال متعددة من التواصل.