Qwen2.5-Omni-7B: Model AI Multimodal Terbaik dari Awal hingga Akhir

💡Tertarik dengan tren terbaru di AI? Jika demikian, Anda tidak boleh melewatkan Anakin AI! Anakin AI adalah platform serba ada untuk semua otomatisasi alur kerja Anda, buat Aplikasi AI yang kuat dengan Pembuat Aplikasi Tanpa Kode yang mudah digunakan, dengan Deepseek, o3-mini-high dari OpenAI, Claude 3.7 Sonnet, FLUX, Minimax

Build APIs Faster & Together in Apidog

Qwen2.5-Omni-7B: Model AI Multimodal Terbaik dari Awal hingga Akhir

Start for free
Inhalte
💡
Tertarik dengan tren terbaru di AI?

Jika demikian, Anda tidak boleh melewatkan Anakin AI!

Anakin AI adalah platform serba ada untuk semua otomatisasi alur kerja Anda, buat Aplikasi AI yang kuat dengan Pembuat Aplikasi Tanpa Kode yang mudah digunakan, dengan Deepseek, o3-mini-high dari OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

Bangun Aplikasi AI Impian Anda dalam hitungan menit, bukan minggu dengan Anakin AI!
Anakin AI: Platform AI Serba Ada Anda
Anakin AI: Platform AI Serba Ada Anda

Pendahuluan

Qwen2.5-Omni-7B adalah terobosan terbaru dalam teknologi AI multimodal dari tim Qwen di Alibaba Cloud. Diterbitkan sebagai bagian dari seri Qwen2.5, model dengan 7B parameter ini menandai kemajuan signifikan dalam kemampuan multimodal end-to-end, mampu memahami dan memproses berbagai mode input termasuk teks, gambar, audio, dan video, sambil secara bersamaan menghasilkan baik teks maupun respons ucapan alami dalam cara streaming.

Apa yang membedakan Qwen2.5-Omni-7B adalah fleksibilitas dan kinerjanya yang luar biasa di semua mode, menjadikannya model "omni" yang nyata untuk berbagai aplikasi AI. Kemampuan model ini untuk menangani ucapan, penglihatan, dan teks secara bersamaan menempatkannya di antara model multimodal open-source paling maju yang tersedia saat ini.

Fitur Utama dan Kemampuan

Arsitektur Thinker-Talker yang Novel

Di jantung Qwen2.5-Omni-7B terdapat arsitektur Thinker-Talker yang inovatif, dirancang khusus untuk persepsi multimodal yang komprehensif. Arsitektur ini memungkinkan model untuk:

  • Memproses beberapa mode input secara bersamaan
  • Menghasilkan output teks dan ucapan
  • Memberikan respons streaming secara real-time

Arsitektur ini mencakup sistem embedding posisi baru yang disebut TMRoPE (Time-aligned Multimodal RoPE), yang menyinkronkan timestamp input video dengan audio, memungkinkan pemahaman multimodal yang lebih koheren.

Obrolan Suara dan Video Waktu Nyata

Model ini dibangun untuk interaksi sepenuhnya waktu nyata, mendukung pemrosesan input terputus dan generasi output instan. Kemampuan ini sangat penting untuk aplikasi yang memerlukan alur percakapan alami, seperti asisten virtual dan sistem interaktif.

Generasi Ucapan yang Alami dan Kuat

Qwen2.5-Omni-7B menunjukkan kemampuan generasi ucapan yang superior dibandingkan dengan banyak alternatif streaming dan non-streaming yang ada. Output ucapan model ini ditandai dengan ketahanan dan kealamian yang luar biasa, menjadikannya cocok untuk aplikasi di mana output suara berkualitas tinggi sangat penting.

Kinerja Lintas Modal yang Kuat

Saat dibandingkan dengan model single-modality yang seukuran, Qwen2.5-Omni-7B menunjukkan kinerja luar biasa di semua mode. Model ini mengungguli Qwen2-Audio yang seukuran dalam kemampuan audio dan mencapai kinerja yang sebanding dengan Qwen2.5-VL-7B dalam tugas visual-bahasa, menunjukkan fleksibilitasnya sebagai sistem multimodal yang sejati.

Mengikuti Instruksi Ucapan dengan Sangat Baik

Salah satu aspek paling mengesankan dari Qwen2.5-Omni-7B adalah kemampuannya untuk mengikuti instruksi melalui input ucapan dengan kinerja yang setara dengan kemampuan input teksnya. Ini terbukti dari kinerja kuatnya pada benchmark seperti MMLU dan GSM8K saat diberikan input ucapan, menunjukkan bahwa model ini mempertahankan kemampuan kognitif yang tinggi tanpa memandang mode input.

Kinerja Benchmark

Qwen2.5-Omni-7B telah menjalani evaluasi menyeluruh di berbagai benchmark, secara konsisten menunjukkan kinerja yang kuat di berbagai domain:

Benchmark Multimodal

Di OmniBench, yang menguji kinerja di bidang pemahaman ucapan, peristiwa suara, dan musik:

  • Qwen2.5-Omni-7B: 56.13% kinerja rata-rata
  • Gemini-1.5-Pro: 42.91%
  • Baichuan-Omni-1.5: 42.90%
  • MiniCPM-o: 40.50%

Ini menempatkan Qwen2.5-Omni-7B pada titik puncak teknologi untuk tugas pemahaman multimodal di antara model-model dengan ukuran serupa.

Pemrosesan Audio

Untuk pengenalan ucapan di LibriSpeech:

  • Qwen2.5-Omni-7B: 1.8 WER pada test-clean, 3.4 WER pada test-other
  • Qwen2-Audio: 1.6 WER pada test-clean, 3.6 WER pada test-other
  • Whisper-large-v3: 1.8 WER pada test-clean, 3.6 WER pada test-other

Untuk pemahaman audio di MMAU:

  • Qwen2.5-Omni-7B: 65.60% (rata-rata)
  • Gemini-Pro-V1.5: 54.90%
  • Qwen2-Audio: 49.20%

Pemahaman Gambar dan Video

Di benchmark pemahaman gambar:

  • MMMU val: 59.2% (dibandingkan dengan 60.0% untuk GPT-4o-mini dan 58.6% untuk Qwen2.5-VL-7B)
  • MMBench-V1.1-EN test: 81.8% (dibandingkan dengan 82.6% untuk Qwen2.5-VL-7B dan 76.0% untuk GPT-4o-mini)

Untuk pemahaman video:

  • MVBench: 70.3% (dibandingkan dengan 69.6% untuk Qwen2.5-VL-7B)
  • Video-MME tanpa subtitle: 64.3% (dibandingkan dengan 65.1% untuk Qwen2.5-VL-7B)

Benchmark Teks Saja

Meski merupakan model multimodal, Qwen2.5-Omni-7B mempertahankan kinerja yang kuat di benchmark teks saja:

  • MMLU-redux: 71.0% (dibandingkan dengan 75.4% untuk Qwen2.5-7B)
  • GSM8K: 88.7% (dibandingkan dengan 91.6% untuk Qwen2.5-7B)
  • HumanEval: 78.7% (dibandingkan dengan 84.8% untuk Qwen2.5-7B)

Sementara kinerja teks saja sedikit di bawah rekan teks khususnya (Qwen2.5-7B), ia jauh mengungguli banyak model sebanding seperti Llama3.1-8B dan Gemma2-9B di sebagian besar benchmark.

Menjalankan Qwen2.5-Omni-7B Secara Lokal

Menyiapkan dan menjalankan Qwen2.5-Omni-7B secara lokal memerlukan beberapa persiapan karena kebutuhan multimodalnya. Berikut ini adalah panduan komprehensif untuk memulai:

Persyaratan Sistem

Untuk menjalankan Qwen2.5-Omni-7B secara efektif, Anda akan memerlukan:

  • GPU yang kompatibel dengan CUDA dengan cukup memori:
  • Untuk video 15 detik: 31.11 GB (BF16)
  • Untuk video 30 detik: 41.85 GB (BF16)
  • Untuk video 60 detik: 60.19 GB (BF16)
  • Catatan: Penggunaan memori aktual biasanya 1.2x lebih tinggi dari minimum teoritis ini
  • Persyaratan perangkat lunak:
  • Python 3.8+
  • PyTorch 2.0+
  • FFmpeg (untuk pemrosesan audio/video)

Langkah Instalasi

Instal paket yang diperlukan:

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356
pip install accelerate
pip install qwen-omni-utils[decord]

Instal Flash Attention 2 (opsional tetapi disarankan untuk kinerja):

pip install -U flash-attn --no-build-isolation

Contoh Penggunaan Dasar

Berikut adalah contoh dasar cara menggunakan Qwen2.5-Omni-7B dengan Transformers:

import soundfile as sf
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info

# Memuat model
model = Qwen2_5OmniModel.from_pretrained(
    "Qwen/Qwen2.5-Omni-7B",
    torch_dtype="auto",
    device_map="auto",
    # Hapus komentar untuk kinerja yang lebih baik dengan perangkat keras yang kompatibel
    # attn_implementation="flash_attention_2",
)

# Memuat prosesor
processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")

# Menyiapkan percakapan
conversation = [
    {
        "role": "system",
        "content": "Anda adalah Qwen, manusia virtual yang dikembangkan oleh Tim Qwen, Alibaba Group, mampu memahami input auditori dan visual, serta menghasilkan teks dan ucapan.",
    },
    {
        "role": "user",
        "content": [
            {"type": "video", "video": "<https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4>"},
        ],
    },
]

# Persiapan untuk inferensi
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=True)
inputs = processor(
    text=text,
    audios=audios,
    images=images,
    videos=videos,
    return_tensors="pt",
    padding=True
)
inputs = inputs.to(model.device).to(model.dtype)

# Inferensi: Generasi output teks dan audio
text_ids, audio = model.generate(**inputs, use_audio_in_video=True)
text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(text)

# Simpan output audio
sf.write(
    "output.wav",
    audio.reshape(-1).detach().cpu().numpy(),
    samplerate=24000,
)

Tips Penggunaan

Persyaratan Output Audio

Untuk mengaktifkan output audio, prompt sistem harus diatur persis seperti yang ditunjukkan:

{
    "role": "system",
    "content": "Anda adalah Qwen, manusia virtual yang dikembangkan oleh Tim Qwen, Alibaba Group, mampu memahami input auditori dan visual, serta menghasilkan teks dan ucapan."
}

Pemilihan Jenis Suara

Qwen2.5-Omni-7B mendukung dua jenis suara:

  • Chelsie (Perempuan): Suara lembut dan berbulu dengan kehangatan lembut dan kejernihan yang cemerlang
  • Ethan (Laki-laki): Suara cerah dan ceria dengan energi menular dan kehangatan

Anda dapat menentukan suara menggunakan parameter spk:

text_ids, audio = model.generate(**inputs, spk="Ethan")

Opsi Pemrosesan Video

Kompatibilitas URL video bergantung pada versi perpustakaan pihak ketiga:

  • torchvision >= 0.19.0: Mendukung HTTP dan HTTPS
  • decord: Hanya mendukung HTTP

Anda dapat mengubah backend dengan mengatur variabel lingkungan:

FORCE_QWENVL_VIDEO_READER=torchvision
# atau
FORCE_QWENVL_VIDEO_READER=decord

Penerapan Docker

Untuk penerapan yang disederhanakan, Anda dapat menggunakan citra Docker resmi:

docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash

Untuk meluncurkan demo web melalui Docker:

bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2

Penerapan vLLM

Untuk inferensi yang lebih cepat, vLLM disarankan:

Instal vLLM dengan dukungan Qwen2.5-Omni:

pip install git+https://github.com/huggingface/transformers@1d04f0d44251be5e236484f8c8a00e1c7aa69022
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 <https://github.com/fyabc/vllm.git> vllm
cd vllm
pip install .

Contoh penggunaan dasar vLLM (output teks saja yang saat ini didukung):

import os
import torch
from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info

os.environ['VLLM_USE_V1'] = '0'  # mesin vLLM v1 belum didukung
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"

llm = LLM(
    model=MODEL_PATH,
    trust_remote_code=True,
    gpu_memory_utilization=0.9,
    tensor_parallel_size=torch.cuda.device_count(),
    limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
    seed=1234
)

# Proses input dan hasilkan output seperti yang ditunjukkan dalam contohnya

Kesimpulan

Qwen2.5-Omni-7B merupakan kemajuan signifikan dalam teknologi AI multimodal, menawarkan kinerja yang mengesankan di bidang pemrosesan teks, gambar, audio, dan video dalam satu model. Dengan ukuran 7B parameternya, ia memberikan keseimbangan yang baik antara kemampuan dan persyaratan sumber daya, menjadikannya dapat diakses untuk berbagai skenario penerapan.

Kemampuan model ini untuk tidak hanya memahami berbagai mode tetapi juga menghasilkan output teks dan ucapan membuka banyak kemungkinan aplikasi di asisten virtual, pembuatan konten, alat aksesibilitas, dan banyak lagi. Kinerjanya yang kompetitif terhadap model-model besar yang lebih khusus menunjukkan efektivitas arsitektur dan pendekatan pelatihannya.

Seiring AI terus berkembang menuju kemampuan interaksi yang lebih mirip manusia, model seperti Qwen2.5-Omni-7B merupakan langkah penting maju dalam menciptakan sistem kecerdasan buatan yang lebih alami dan serbaguna yang dapat menjembatani berbagai bentuk komunikasi dengan mulus.