Qwen2.5-Omni-7B: Mô Hình AI Đa Chế Độ Tối Ưu Từ Đầu Đến Cuối

💡

Bạn có quan tâm đến xu hướng mới nhất trong AI không?

Vậy thì, bạn không thể bỏ lỡ Anakin AI!

Anakin AI là nền tảng tích hợp cho mọi quy trình tự động hóa của bạn, tạo ra ứng dụng AI mạnh mẽ với Trình tạo Ứng dụng Không cần mã dễ sử dụng, cùng với Deepseek, o3-mini-high của OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

Hãy xây dựng ứng dụng AI mơ ước của bạn chỉ trong vài phút, không phải tuần, với Anakin AI!

Bắt đầu miễn phí

Giới thiệu

Qwen2.5-Omni-7B đại diện cho bước đột phá mới nhất trong công nghệ AI đa phương thức từ đội ngũ Qwen tại Alibaba Cloud. Được phát hành như một phần của loạt Qwen2.5, mô hình 7B tham số này đánh dấu một bước tiến quan trọng trong khả năng đa phương thức end-to-end, có khả năng nhận biết và xử lý các kiểu dữ liệu đầu vào đa dạng bao gồm văn bản, hình ảnh, âm thanh và video, đồng thời tạo ra cả phản hồi văn bản và giọng nói tự nhiên theo cách phát trực tiếp.

Điều làm cho Qwen2.5-Omni-7B nổi bật là tính linh hoạt và hiệu suất xuất sắc của nó trên tất cả các kiểu dữ liệu, khiến nó trở thành một mô hình "omni" thực sự cho nhiều ứng dụng AI khác nhau. Khả năng xử lý đồng thời giọng nói, thị giác, và văn bản của mô hình đặt nó vào hàng ngũ các mô hình đa phương thức mã nguồn mở tiên tiến nhất hiện nay.

Các Tính Năng và Khả Năng Chính

Kiến Trúc Thinker-Talker Mới

Tâm điểm của Qwen2.5-Omni-7B là kiến trúc Thinker-Talker sáng tạo, được thiết kế đặc biệt cho nhận thức đa phương thức toàn diện. Kiến trúc này cho phép mô hình:

Xử lý nhiều kiểu dữ liệu đầu vào đồng thời
Tạo ra cả đầu ra văn bản và giọng nói
Cung cấp phản hồi theo thời gian thực

Kiến trúc bao gồm một hệ thống nhúng vị trí mới gọi là TMRoPE (Time-aligned Multimodal RoPE), đồng bộ hóa thời gian của video đầu vào với âm thanh, cho phép hiểu biết đa phương thức mạch lạc hơn.

Gọi Video và Âm Thanh Thực Thời

Mô hình được xây dựng cho các tương tác hoàn toàn theo thời gian thực, hỗ trợ xử lý đầu vào theo từng khối và tạo ra đầu ra ngay lập tức. Khả năng này rất quan trọng cho các ứng dụng yêu cầu quy trình trò chuyện tự nhiên, chẳng hạn như trợ lý ảo và hệ thống tương tác.

Tạo Ra Giọng Nói Tự Nhiên và Mạnh Mẽ

Qwen2.5-Omni-7B thể hiện khả năng tạo ra giọng nói vượt trội so với nhiều sự lựa chọn phát trực tiếp và không phát trực tiếp hiện có. Đầu ra giọng nói của mô hình được đặc trưng bởi độ mạnh mẽ và tự nhiên xuất sắc, khiến nó phù hợp cho các ứng dụng yêu cầu đầu ra giọng nói chất lượng cao.

Hiệu Suất Đa Phương Thức Mạnh Mẽ

Khi được đánh giá so với các mô hình đơn phương thức có kích thước tương tự, Qwen2.5-Omni-7B thể hiện hiệu suất xuất sắc trên tất cả các kiểu dữ liệu. Nó vượt trội hơn Qwen2-Audio có kích thước tương tự trong khả năng âm thanh và đạt được hiệu suất tương đương với Qwen2.5-VL-7B trong các nhiệm vụ thị giác-ngôn ngữ, chứng tỏ tính linh hoạt của nó như một hệ thống đa phương thức thực sự.

Theo Dõi Hướng Dẫn Giọng Nói Xuất Sắc

Một trong những khía cạnh ấn tượng nhất của Qwen2.5-Omni-7B là khả năng theo dõi hướng dẫn thông qua đầu vào giọng nói với hiệu suất cạnh tranh với khả năng đầu vào văn bản của nó. Điều này được chứng minh bởi hiệu suất mạnh mẽ của nó trên các tiêu chuẩn như MMLU và GSM8K khi được cung cấp đầu vào giọng nói, cho thấy rằng mô hình duy trì khả năng nhận thức cao bất kể kiểu dữ liệu đầu vào.

Hiệu Suất Dựa Trên Tiêu Chuẩn

Qwen2.5-Omni-7B đã trải qua đánh giá toàn diện trên nhiều tiêu chuẩn, liên tục thể hiện hiệu suất mạnh mẽ trong nhiều lĩnh vực:

Tiêu Chuẩn Đa Phương Thức

Tại OmniBench, nơi kiểm tra hiệu suất trên sự hiểu biết về giọng nói, sự kiện âm thanh và âm nhạc:

Qwen2.5-Omni-7B: 56.13% hiệu suất trung bình
Gemini-1.5-Pro: 42.91%
Baichuan-Omni-1.5: 42.90%
MiniCPM-o: 40.50%

Điều này đã đưa Qwen2.5-Omni-7B vào vị trí tiên tiến nhất cho các nhiệm vụ hiểu biết đa phương thức giữa các mô hình có kích thước tương đương.

Xử Lý Âm Thanh

Đối với nhận diện giọng nói trên LibriSpeech:

Qwen2.5-Omni-7B: 1.8 WER trên test-clean, 3.4 WER trên test-other
Qwen2-Audio: 1.6 WER trên test-clean, 3.6 WER trên test-other
Whisper-large-v3: 1.8 WER trên test-clean, 3.6 WER trên test-other

Đối với sự hiểu biết âm thanh trên MMAU:

Qwen2.5-Omni-7B: 65.60% (trung bình)
Gemini-Pro-V1.5: 54.90%
Qwen2-Audio: 49.20%

Sự Hiểu Biết Hình Ảnh và Video

Trong các tiêu chuẩn hiểu biết hình ảnh:

MMMU val: 59.2% (so với 60.0% cho GPT-4o-mini và 58.6% cho Qwen2.5-VL-7B)
MMBench-V1.1-EN test: 81.8% (so với 82.6% cho Qwen2.5-VL-7B và 76.0% cho GPT-4o-mini)

Đối với sự hiểu biết video:

MVBench: 70.3% (so với 69.6% cho Qwen2.5-VL-7B)
Video-MME không có phụ đề: 64.3% (so với 65.1% cho Qwen2.5-VL-7B)

Tiêu Chuẩn Chỉ Về Văn Bản

Dù là một mô hình đa phương thức, Qwen2.5-Omni-7B vẫn duy trì hiệu suất mạnh mẽ trên các tiêu chuẩn chỉ về văn bản:

MMLU-redux: 71.0% (so với 75.4% cho Qwen2.5-7B)
GSM8K: 88.7% (so với 91.6% cho Qwen2.5-7B)
HumanEval: 78.7% (so với 84.8% cho Qwen2.5-7B)

Khi hiệu suất chỉ về văn bản thấp hơn một chút so với đối tác văn bản chuyên biệt (Qwen2.5-7B), nó vượt trội hơn nhiều mô hình tương tự như Llama3.1-8B và Gemma2-9B trên hầu hết các tiêu chuẩn.

Chạy Qwen2.5-Omni-7B Tại Chỗ

Thiết lập và chạy Qwen2.5-Omni-7B tại chỗ yêu cầu một số chuẩn bị do các yêu cầu đa phương thức của nó. Dưới đây là hướng dẫn toàn diện để bắt đầu:

Yêu Cầu Hệ Thống

Để chạy Qwen2.5-Omni-7B một cách hiệu quả, bạn sẽ cần:

GPU tương thích với CUDA với bộ nhớ đủ lớn:
Đối với video 15 giây: 31.11 GB (BF16)
Đối với video 30 giây: 41.85 GB (BF16)
Đối với video 60 giây: 60.19 GB (BF16)
Chú ý: Sử dụng bộ nhớ thực tế thường cao hơn 1.2 lần so với các yêu cầu tối thiểu lý thuyết này
Các yêu cầu phần mềm:
Python 3.8+
PyTorch 2.0+
FFmpeg (để xử lý âm thanh/video)

Các Bước Cài Đặt

Cài đặt các gói cần thiết:

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356
pip install accelerate
pip install qwen-omni-utils[decord]

Cài đặt Flash Attention 2 (tùy chọn nhưng được khuyến nghị để nâng cao hiệu suất):

pip install -U flash-attn --no-build-isolation

Ví Dụ Sử Dụng Cơ Bản

Dưới đây là một ví dụ cơ bản về cách sử dụng Qwen2.5-Omni-7B với Transformers:

import soundfile as sf
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info

# Tải mô hình
model = Qwen2_5OmniModel.from_pretrained(
    "Qwen/Qwen2.5-Omni-7B",
    torch_dtype="auto",
    device_map="auto",
    # Bỏ chú thích để nâng cao hiệu suất với phần cứng tương thích
    # attn_implementation="flash_attention_2",
)

# Tải bộ xử lý
processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")

# Chuẩn bị cuộc trò chuyện
conversation = [
    {
        "role": "system",
        "content": "Bạn là Qwen, một con người ảo do đội ngũ Qwen, Tập đoàn Alibaba phát triển, có khả năng nhận biết đầu vào âm thanh và hình ảnh, cũng như tạo ra văn bản và giọng nói.",
    },
    {
        "role": "user",
        "content": [
            {"type": "video", "video": "<https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4>"},
        ],
    },
]

# Chuẩn bị cho suy diễn
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=True)
inputs = processor(
    text=text,
    audios=audios,
    images=images,
    videos=videos,
    return_tensors="pt",
    padding=True
)
inputs = inputs.to(model.device).to(model.dtype)

# Suy diễn: Tạo ra văn bản và âm thanh đầu ra
text_ids, audio = model.generate(**inputs, use_audio_in_video=True)
text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(text)

# Lưu đầu ra âm thanh
sf.write(
    "output.wav",
    audio.reshape(-1).detach().cpu().numpy(),
    samplerate=24000,
)

Mẹo Sử Dụng

Yêu Cầu Đầu Ra Âm Thanh

Để kích hoạt đầu ra âm thanh, phản hồi hệ thống phải được đặt chính xác như sau:

{
    "role": "system",
    "content": "Bạn là Qwen, một con người ảo do đội ngũ Qwen, Tập đoàn Alibaba phát triển, có khả năng nhận biết đầu vào âm thanh và hình ảnh, cũng như tạo ra văn bản và giọng nói."
}

Lựa Chọn Loại Giọng Nói

Qwen2.5-Omni-7B hỗ trợ hai loại giọng nói:

Chelsie (Nữ): Một giọng nói ngọt ngào, nhung nảy với sự ấm áp nhẹ nhàng và độ rõ ràng rực rỡ
Ethan (Nam): Một giọng nói sáng sủa, vui vẻ với năng lượng và sự ấm áp lây lan

Bạn có thể chỉ định giọng nói bằng cách sử dụng tham số spk:

text_ids, audio = model.generate(**inputs, spk="Ethan")

Các Tùy Chọn Xử Lý Video

Khả năng tương thích URL video phụ thuộc vào phiên bản thư viện bên thứ ba:

torchvision >= 0.19.0: Hỗ trợ cả HTTP và HTTPS
decord: Chỉ hỗ trợ HTTP

Bạn có thể thay đổi backend bằng cách thiết lập các biến môi trường:

FORCE_QWENVL_VIDEO_READER=torchvision
# hoặc
FORCE_QWENVL_VIDEO_READER=decord

Triển Khai Docker

Để triển khai đơn giản hóa, bạn có thể sử dụng hình ảnh Docker chính thức:

docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash

Để khởi động bản demo web qua Docker:

bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2

Triển Khai vLLM

Để suy diễn nhanh hơn, vLLM được khuyến nghị:

Cài đặt vLLM với hỗ trợ Qwen2.5-Omni:

pip install git+https://github.com/huggingface/transformers@1d04f0d44251be5e236484f8c8a00e1c7aa69022
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 <https://github.com/fyabc/vllm.git> vllm
cd vllm
pip install .

Sử dụng cơ bản vLLM (đầu ra chỉ văn bản hiện tại được hỗ trợ):

import os
import torch
from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info

os.environ['VLLM_USE_V1'] = '0'  # vLLM engine v1 chưa được hỗ trợ
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"

llm = LLM(
    model=MODEL_PATH,
    trust_remote_code=True,
    gpu_memory_utilization=0.9,
    tensor_parallel_size=torch.cuda.device_count(),
    limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
    seed=1234
)

# Xử lý đầu vào và tạo đầu ra như đã chỉ ra trong ví dụ

Kết Luận

Qwen2.5-Omni-7B đại diện cho một bước tiến quan trọng trong công nghệ AI đa phương thức, cung cấp hiệu suất ấn tượng trên việc xử lý văn bản, hình ảnh, âm thanh và video trong một mô hình duy nhất. Với kích thước 7B tham số của nó, nó cung cấp sự cân bằng tốt giữa khả năng và yêu cầu tài nguyên, làm cho nó có thể tiếp cận cho nhiều tình huống triển khai khác nhau.

Khả năng của mô hình không chỉ hiểu được nhiều loại dữ liệu mà còn tạo ra cả đầu ra văn bản và giọng nói mở ra nhiều khả năng cho các ứng dụng trong các trợ lý ảo, tạo nội dung, công cụ truy cập và nhiều lĩnh vực khác. Hiệu suất cạnh tranh của nó so với các mô hình chuyên biệt lớn hơn chứng minh tính hiệu quả của kiến trúc và phương pháp đào tạo của nó.

Khi AI tiếp tục phát triển theo hướng khả năng tương tác giống như con người hơn, các mô hình như Qwen2.5-Omni-7B đại diện cho một bước tiến quan trọng trong việc tạo ra các hệ thống trí tuệ nhân tạo tự nhiên và linh hoạt hơn, có thể kết nối liền mạch giữa nhiều hình thức giao tiếp.