Qwen2.5-Omni-7B: โมเดลปัญญาประดิษฐ์มัลติฟังก์ชันแบบเอนด์ทูเอนด์ที่ดีที่สุด

💡

สนใจแนวโน้มล่าสุดใน AI ไหม?

แล้วคุณไม่ควรพลาด Anakin AI!

Anakin AI เป็นแพลตฟอร์มแบบออล-อิน-วันสำหรับการทำงานอัตโนมัติของคุณ สร้างแอป AI ที่ทรงพลังด้วยตัวสร้างแอปที่ใช้งานง่ายแบบ No Code พร้อมด้วย Deepseek, OpenAI's o3-mini-high, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

สร้างแอป AI ในฝันของคุณภายในไม่กี่นาที ไม่ใช่หลายสัปดาห์กับ Anakin AI!

Anakin AI: แพลตฟอร์ม AI ออล-อิน-วันของคุณ

เริ่มต้นฟรี

บทนำ

Qwen2.5-Omni-7B แสดงถึงความก้าวหน้าล่าสุดในเทคโนโลยี AI แบบหลายรูปแบบจากทีม Qwen ที่ Alibaba Cloud เปิดตัวเป็นส่วนหนึ่งของซีรีส์ Qwen2.5 โมเดล 7B นี้หมายถึงความก้าวหน้าที่สำคัญในความสามารถหลายรูปแบบแบบครบวงจร สามารถรับรู้และประมวลผลข้อมูลนำเข้าที่หลากหลายรูปแบบ รวมถึงข้อความ รูปภาพ เสียง และวิดีโอ ในขณะที่สร้างข้อความและคำตอบแบบพูดตามธรรมชาติในลักษณะสตรีมมิ่งได้พร้อมกัน

สิ่งที่ทำให้ Qwen2.5-Omni-7B แตกต่างคือความหลากหลายและประสิทธิภาพที่ยอดเยี่ยมในทุกโมดัล ทำให้เป็นโมเดลที่เป็นจริง "ทุกด้าน" สำหรับแอปพลิเคชัน AI ที่หลากหลาย ความสามารถของโมเดลในการจัดการกับเสียง วิสัยทัศน์ และข้อความพร้อมกัน ทำให้มันอยู่ในหมวดหมู่โมเดลแบบหลายรูปแบบที่ทันสมัยที่สุดในปัจจุบัน

คุณสมบัติหลักและความสามารถ

สถาปัตยกรรม Thinker-Talker ใหม่

ที่หัวใจของ Qwen2.5-Omni-7B คือสถาปัตยกรรม Thinker-Talker ที่เป็นนวัตกรรมซึ่งออกแบบมาเพื่อการรับรู้หลายรูปแบบอย่างครอบคลุม สถาปัตยกรรมนี้ช่วยให้โมเดลสามารถ:

ประมวลผลข้อมูลนำเข้าหลายรูปแบบพร้อมกัน
สร้างผลลัพธ์ทั้งข้อความและเสียง
ให้คำตอบในการสตรีมแบบเรียลไทม์

สถาปัตยกรรมนี้รวมถึงระบบการฝังตำแหน่งใหม่ที่เรียกว่า TMRoPE (Time-aligned Multimodal RoPE) ซึ่งช่วยให้ซิงโครไนซ์เวลาของข้อมูลวิดีโอและเสียง ทำให้เข้าใจหลายรูปแบบได้อย่างสอดคล้องกันมากขึ้น

การแชทด้วยเสียงและวิดีโอแบบเรียลไทม์

โมเดลถูกสร้างขึ้นสำหรับการโต้ตอบแบบเรียลไทม์อย่างเต็มที่ รองรับการประมวลผลข้อมูลที่แบ่งส่วนและการสร้างผลลัพธ์ทันที ความสามารถนี้เป็นสิ่งสำคัญสำหรับแอปพลิเคชันที่ต้องการความไหลลื่นในการสนทนาตามธรรมชาติ เช่น ผู้ช่วยเสมือนและระบบโต้ตอบ

การสร้างเสียงพูดที่เป็นธรรมชาติและมีความแข็งแกร่ง

Qwen2.5-Omni-7B แสดงให้เห็นถึงความสามารถในการสร้างเสียงพูดที่เหนือกว่าทางเลือกหลายตัวที่มีอยู่ในปัจจุบัน โมเดลดังกล่าวมีคุณภาพเสียงที่แข็งแกร่งและเป็นธรรมชาติ ทำให้เหมาะสำหรับแอปพลิเคชันที่ต้องการคุณภาพเสียงที่ยอดเยี่ยม

ประสิทธิภาพข้ามโมดัลที่แข็งแกร่ง

เมื่อทำการเปรียบเทียบกับโมเดลโมดัลเดียวที่มีขนาดใกล้เคียงกัน Qwen2.5-Omni-7B แสดงประสิทธิภาพที่ยอดเยี่ยมในทุกโมดัล มันทำงานได้ดีกว่า Qwen2-Audio ที่มีขนาดใกล้เคียงกันในด้านความสามารถเสียง และมีประสิทธิภาพที่Comparable กับ Qwen2.5-VL-7B ในงานวิสัยทัศน์-ภาษา แสดงให้เห็นถึงความหลากหลายของมันในฐานะระบบโมดัลหลายรูปแบบจริงๆ

ติดตามคำแนะนำเสียงได้อย่างยอดเยี่ยม

หนึ่งในด้านที่น่าประทับใจที่สุดของ Qwen2.5-Omni-7B คือความสามารถในการติดตามคำแนะนำผ่านข้อมูลเสียงโดยมีประสิทธิภาพเทียบเท่ากับความสามารถในการรับข้อมูลข้อความ โดยมีประสิทธิภาพที่แข็งแกร่งในเกณฑ์เช่น MMLU และ GSM8K เมื่อได้รับข้อมูลเสียง ทำให้โมเดลยังคงมีความสามารถทางปัญญาสูงไม่ว่าจะเป็นรูปแบบการนำเข้าใด

ประสิทธิภาพ Benchmark

Qwen2.5-Omni-7B ได้รับการประเมินอย่างครอบคลุมในหลายเกณฑ์ โดยมีประสิทธิภาพที่แข็งแกร่งในโดเมนต่างๆ:

เกณฑ์หลายรูปแบบ

ใน OmniBench ซึ่งทดสอบประสิทธิภาพในด้านเสียง เหตุการณ์เสียง และการทำความเข้าใจดนตรี:

Qwen2.5-Omni-7B: ประสิทธิภาพเฉลี่ย 56.13%
Gemini-1.5-Pro: 42.91%
Baichuan-Omni-1.5: 42.90%
MiniCPM-o: 40.50%

ซึ่งทำให้ Qwen2.5-Omni-7B เป็นโมเดลที่ทันสมัยที่สุดสำหรับงานการทำความเข้าใจหลายรูปแบบในกลุ่มโมเดลที่มีขนาดใกล้เคียงกัน

การประมวลผลเสียง

สำหรับการรู้จำเสียงใน LibriSpeech:

Qwen2.5-Omni-7B: 1.8 WER ในชุดทดสอบที่สะอาด, 3.4 WER ในชุดทดสอบอื่นๆ
Qwen2-Audio: 1.6 WER ในชุดทดสอบที่สะอาด, 3.6 WER ในชุดทดสอบอื่นๆ
Whisper-large-v3: 1.8 WER ในชุดทดสอบที่สะอาด, 3.6 WER ในชุดทดสอบอื่นๆ

สำหรับการทำความเข้าใจเสียงใน MMAU:

Qwen2.5-Omni-7B: 65.60% (เฉลี่ย)
Gemini-Pro-V1.5: 54.90%
Qwen2-Audio: 49.20%

การทำความเข้าใจภาพและวิดีโอ

ในเกณฑ์การทำความเข้าใจภาพ:

MMMU val: 59.2% (เปรียบเทียบกับ 60.0% ของ GPT-4o-mini และ 58.6% ของ Qwen2.5-VL-7B)
MMBench-V1.1-EN test: 81.8% (เปรียบเทียบกับ 82.6% ของ Qwen2.5-VL-7B และ 76.0% ของ GPT-4o-mini)

สำหรับการทำความเข้าใจวิดีโอ:

MVBench: 70.3% (เปรียบเทียบกับ 69.6% ของ Qwen2.5-VL-7B)
Video-MME ไม่มีคำบรรยาย: 64.3% (เปรียบเทียบกับ 65.1% ของ Qwen2.5-VL-7B)

เกณฑ์เฉพาะข้อความ

แม้ว่า Qwen2.5-Omni-7B จะเป็นโมเดลหลายรูปแบบ แต่ก็ยังคงมีประสิทธิภาพที่แข็งแกร่งในเกณฑ์เฉพาะข้อความ:

MMLU-redux: 71.0% (เปรียบเทียบกับ 75.4% ของ Qwen2.5-7B)
GSM8K: 88.7% (เปรียบเทียบกับ 91.6% ของ Qwen2.5-7B)
HumanEval: 78.7% (เปรียบเทียบกับ 84.8% ของ Qwen2.5-7B)

แม้ว่าประสิทธิภาพเฉพาะข้อความจะต่ำกว่าสูงกว่าสำหรับ Qwen2.5-7B แต่ก็ยังดีกว่าโมเดลหลายตัวที่มีขนาดใกล้เคียงกัน เช่น Llama3.1-8B และ Gemma2-9B ในเกณฑ์ส่วนใหญ่

การรัน Qwen2.5-Omni-7B ในเครื่อง

การตั้งค่าและการรัน Qwen2.5-Omni-7B ในเครื่องต้องการการเตรียมการบางอย่างเนื่องจากความต้องการหลายรูปแบบ นี่คือคู่มือครอบคลุมเพื่อเริ่มต้น:

ข้อกำหนดของระบบ

เพื่อรัน Qwen2.5-Omni-7B อย่างมีประสิทธิภาพ คุณจะต้องมี:

GPU ที่เข้ากันได้กับ CUDA ที่มีหน่วยความจำเพียงพอ:
สำหรับวิดีโอ 15 วินาที: 31.11 GB (BF16)
สำหรับวิดีโอ 30 วินาที: 41.85 GB (BF16)
สำหรับวิดีโอ 60 วินาที: 60.19 GB (BF16)
หมายเหตุ: การใช้งานหน่วยความจำจริงมักจะสูงกว่าค่าเหล่านี้ประมาณ 1.2 เท่า
ข้อกำหนดซอฟต์แวร์:
Python 3.8+
PyTorch 2.0+
FFmpeg (สำหรับการประมวลผลเสียง/วิดีโอ)

ขั้นตอนการติดตั้ง

ติดตั้งแพ็คเกจที่จำเป็น:

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356
pip install accelerate
pip install qwen-omni-utils[decord]

ติดตั้ง Flash Attention 2 (เป็นออปชั่นแต่แนะนำสำหรับประสิทธิภาพ):

pip install -U flash-attn --no-build-isolation

ตัวอย่างการใช้งานเบื้องต้น

นี่คือตัวอย่างเบื้องต้นเกี่ยวกับการใช้ Qwen2.5-Omni-7B กับ Transformers:

import soundfile as sf
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info

# โหลดโมเดล
model = Qwen2_5OmniModel.from_pretrained(
    "Qwen/Qwen2.5-Omni-7B",
    torch_dtype="auto",
    device_map="auto",
    # ยกเลิกการคอมเมนต์เพื่อประสิทธิภาพที่ดีขึ้นกับฮาร์ดแวร์ที่เข้ากันได้
    # attn_implementation="flash_attention_2",
)

# โหลดโปรเซสเซอร์
processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")

# เตรียมการสนทนา
conversation = [
    {
        "role": "system",
        "content": "คุณคือ Qwen มนุษย์เสมือนที่พัฒนาโดยทีม Qwen, Alibaba Group ซึ่งสามารถรับรู้ข้อมูลเสียงและการมองเห็น และสร้างข้อความและเสียงได้",
    },
    {
        "role": "user",
        "content": [
            {"type": "video", "video": "<https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4>"},
        ],
    },
]

# การเตรียมการสำหรับการอนุมาน
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=True)
inputs = processor(
    text=text,
    audios=audios,
    images=images,
    videos=videos,
    return_tensors="pt",
    padding=True
)
inputs = inputs.to(model.device).to(model.dtype)

# การอนุมาน: การสร้างข้อความและเสียงขาออก
text_ids, audio = model.generate(**inputs, use_audio_in_video=True)
text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(text)

# บันทึกผลลัพธ์เสียง
sf.write(
    "output.wav",
    audio.reshape(-1).detach().cpu().numpy(),
    samplerate=24000,
)

เคล็ดลับการใช้งาน

ข้อกำหนดสำหรับเสียงขาออก

เพื่อเปิดใช้งานเสียงขาออก ข้อความของระบบต้องตั้งค่าให้ตรงตามที่แสดง:

{
    "role": "system",
    "content": "คุณคือ Qwen มนุษย์เสมือนที่พัฒนาโดยทีม Qwen, Alibaba Group ซึ่งสามารถรับรู้ข้อมูลเสียงและการมองเห็น และสร้างข้อความและเสียงได้"
}

การเลือกประเภทเสียง

Qwen2.5-Omni-7B รองรับเสียงสองประเภท:

Chelsie (หญิง): เสียงหวานนุ่มละมุนที่มีความอบอุ่นและชัดเจน
Ethan (ชาย): เสียงสดใส ร่าเริงที่มีพลังและความอบอุ่น

คุณสามารถระบุเสียงโดยใช้พารามิเตอร์ spk:

text_ids, audio = model.generate(**inputs, spk="Ethan")

ตัวเลือกการประมวลผลวิดีโอ

ความเข้ากันได้ของ URL วิดีโอนั้นขึ้นอยู่กับเวอร์ชันของไลบรารีที่สาม:

torchvision >= 0.19.0: สนับสนุนทั้ง HTTP และ HTTPS
decord: สนับสนุนเฉพาะ HTTP

คุณสามารถเปลี่ยนแบ็กเอนด์ได้โดยการตั้งค่าตัวแปรสิ่งแวดล้อม:

FORCE_QWENVL_VIDEO_READER=torchvision
# หรือ
FORCE_QWENVL_VIDEO_READER=decord

การใช้งาน Docker

สำหรับการใช้งานที่ง่ายขึ้น คุณสามารถใช้ภาพ Docker อย่างเป็นทางการ:

docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash

ในการเปิดใช้งานการสาธิตทางเว็บผ่าน Docker:

bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2

การใช้งาน vLLM

สำหรับการอนุมานที่เร็วขึ้น ขอแนะนำให้ใช้ vLLM:

ติดตั้ง vLLM พร้อมการสนับสนุน Qwen2.5-Omni:

pip install git+https://github.com/huggingface/transformers@1d04f0d44251be5e236484f8c8a00e1c7aa69022
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 <https://github.com/fyabc/vllm.git> vllm
cd vllm
pip install .

การใช้งานพื้นฐานของ vLLM (เสียงขาออกเฉพาะข้อความขณะนี้ได้รับการสนับสนุน):

import os
import torch
from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info

os.environ['VLLM_USE_V1'] = '0'  # vLLM engine v1 ยังไม่รองรับ
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"

llm = LLM(
    model=MODEL_PATH,
    trust_remote_code=True,
    gpu_memory_utilization=0.9,
    tensor_parallel_size=torch.cuda.device_count(),
    limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
    seed=1234
)

# การประมวลผลข้อมูลนำเข้าและสร้างผลลัพธ์ตามตัวอย่างที่แสดง

บทสรุป

Qwen2.5-Omni-7B แสดงถึงความก้าวหน้าอย่างมีนัยสำคัญในเทคโนโลยี AI แบบหลายรูปแบบ โดยมีประสิทธิภาพที่น่าประทับใจในด้านการประมวลผลข้อความ รูปภาพ เสียง และวิดีโอในโมเดลเดียว ด้วยขนาดพารามิเตอร์ 7B มันให้ความสมดุลที่ดีระหว่างความสามารถและข้อกำหนดด้านทรัพยากร ทำให้สามารถเข้าถึงได้สำหรับหลายสถานการณ์การใช้งาน

ความสามารถของโมเดลในการไม่เพียงแต่ทำความเข้าใจหลายรูปแบบ แต่ยังสร้างผลลัพธ์ทั้งข้อความและเสียง เปิดโอกาสให้แอปพลิเคชันต่างๆ มากมาย เช่น ผู้ช่วยเสมือน การสร้างเนื้อหา เครื่องมือช่วยการเข้าถึง และอื่นๆ อีกมากมาย ประสิทธิภาพที่แข่งขันกับโมเดลเฉพาะทางที่ใหญ่กว่าชี้ให้เห็นถึงประสิทธิภาพของสถาปัตยกรรมและวิธีการฝึกอบรมของมัน

เมื่อ AI ยังคงพัฒนาไปสู่ความสามารถในการโต้ตอบที่คล้ายคลึงกับมนุษย์ โมเดลอย่าง Qwen2.5-Omni-7B แสดงถึงความก้าวหน้าที่สำคัญในการสร้างระบบปัญญาประดิษฐ์ที่เป็นธรรมชาติและหลากหลายยิ่งขึ้น ซึ่งสามารถเชื่อมต่อวิธีการสื่อสารหลายรูปแบบได้อย่างไร้รอยต่อ