Квен2.5-Омни-7Б: Ультимативная многомодальная ИИ модель от начала до конца

💡

Интересно узнать о последних тенденциях в ИИ?

Тогда вам нельзя пропустить Anakin AI!

Anakin AI — это универсальная платформа для автоматизации ваших рабочих процессов, создание мощного AI-приложения с простым в использовании конструктором приложений без кода, с Deepseek, o3-mini-high от OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

Создайте приложение вашей мечты на AI всего за несколько минут, а не недель с Anakin AI!

Anakin AI: Ваша универсальная AI платформа

Начать бесплатно

Введение

Qwen2.5-Omni-7B представляет собой последний прорыв в технологии мультимодального ИИ от команды Qwen в Alibaba Cloud. Выпущенная в рамках серии Qwen2.5, эта модель с 7 миллиардами параметров обозначает значительный прогресс в возможностях мультимодального восприятия «от начала до конца», способная воспринимать и обрабатывать различные входные модальности, включая текст, изображения, аудио и видео, одновременно генерируя текст и естественные речевые реакции в потоковом режиме.

Что отличает Qwen2.5-Omni-7B, так это его исключительная универсальность и производительность во всех модальностях, что делает его поистине «омни» моделью для различных ИИ-приложений. Способность модели обрабатывать речь, визуальные данные и текст одновременно ставит ее среди самых продвинутых открытых мультимодальных моделей, доступных на сегодняшний день.

Ключевые особенности и возможности

Новейшая архитектура Thinker-Talker

В сердце Qwen2.5-Omni-7B находится его инновационная архитектура Thinker-Talker, специально разработанная для комплексного мультимодального восприятия. Эта архитектура позволяет модели:

Обрабатывать несколько входных модальностей одновременно
Генерировать как текстовые, так и речевые выходы
Обеспечивать потоковые ответы в реальном времени

Архитектура включает в себя новую систему позиционного встраивания под названием TMRoPE (Временная синхронизация мультимодального RoPE), которая синхронизирует временные метки видео с аудио, позволяя достигать более согласованного мультимодального понимания.

Голосовой и видеочат в реальном времени

Модель создана для полностью интерактивных взаимодействий в реальном времени, поддерживая обработку входных данных по частям и немедленное генерирование выходных данных. Эта возможность имеет решающее значение для приложений, требующих естественного потока диалога, таких как виртуальные помощники и интерактивные системы.

Естественное и надежное создание речи

Qwen2.5-Omni-7B демонстрирует превосходные возможности генерации речи по сравнению со многими существующими потоковыми и непотоковыми альтернативами. Речевой выход модели характеризуется исключительной надежностью и естественностью, что делает его подходящим для приложений, где качество звукового вывода имеет решающее значение.

Сильные кросс-модальные показатели

По результатам испытаний в сравнении с моделями одной модальности аналогичного размера, Qwen2.5-Omni-7B демонстрирует исключительную производительность во всех модальностях. Она превосходит модель Qwen2-Audio в аудио возможностях и достигает сопоставимых результатов с Qwen2.5-VL-7B в задачах визуально-языкового анализа, демонстрируя свою универсальность как настоящей мультимодальной системы.

Отличное следование голосовым инструкциям

Одним из самых впечатляющих аспектов Qwen2.5-Omni-7B является ее способность следовать инструкциям через голосовой ввод с производительностью, сопоставимой с возможностями текстового ввода. Это подтверждается ее сильными результатами на таких бенчмарках, как MMLU и GSM8K при голосовом вводе, демонстрируя, что модель сохраняет высокие когнитивные способности независимо от модальности ввода.

Производительность по бенчмаркам

Qwen2.5-Omni-7B прошла всестороннюю оценку по нескольким бенчмаркам, последовательно демонстрируя сильные результаты в различных областях:

Мультимодальные бенчмарки

На OmniBench, который тестирует производительность в области распознавания речи, звуковых событий и понимания музыки:

Qwen2.5-Omni-7B: 56.13% средняя производительность
Gemini-1.5-Pro: 42.91%
Baichuan-Omni-1.5: 42.90%
MiniCPM-o: 40.50%

Это ставит Qwen2.5-Omni-7B на передовой в области мультимодальных задач понимания среди моделей сопоставимого размера.

Обработка аудио

Для распознавания речи на LibriSpeech:

Qwen2.5-Omni-7B: 1.8 WER на тесте чистоты, 3.4 WER на тесте других
Qwen2-Audio: 1.6 WER на тесте чистоты, 3.6 WER на тесте других
Whisper-large-v3: 1.8 WER на тесте чистоты, 3.6 WER на тесте других

Для понимания аудио на MMAU:

Qwen2.5-Omni-7B: 65.60% (в среднем)
Gemini-Pro-V1.5: 54.90%
Qwen2-Audio: 49.20%

Понимание изображений и видео

На бенчмарках понимания изображений:

MMMU val: 59.2% (по сравнению с 60.0% для GPT-4o-mini и 58.6% для Qwen2.5-VL-7B)
MMBench-V1.1-EN test: 81.8% (по сравнению с 82.6% для Qwen2.5-VL-7B и 76.0% для GPT-4o-mini)

Для понимания видео:

MVBench: 70.3% (по сравнению с 69.6% для Qwen2.5-VL-7B)
Video-MME без субтитров: 64.3% (по сравнению с 65.1% для Qwen2.5-VL-7B)

Бенчмарки только для текста

Несмотря на то, что Qwen2.5-Omni-7B является мультимодальной моделью, она сохраняет высокие результаты по бенчмаркам только для текста:

MMLU-redux: 71.0% (по сравнению с 75.4% для Qwen2.5-7B)
GSM8K: 88.7% (по сравнению с 91.6% для Qwen2.5-7B)
HumanEval: 78.7% (по сравнению с 84.8% для Qwen2.5-7B)

Хотя производительность только по тексту несколько ниже, чем у специализированной текстовой модели (Qwen2.5-7B), она значительно превосходит многие сопоставимые модели, такие как Llama3.1-8B и Gemma2-9B по большинству бенчмарков.

Запуск Qwen2.5-Omni-7B локально

Настройка и запуск Qwen2.5-Omni-7B локально требует некоторой подготовки из-за его мультимодальных требований. Вот подробное руководство, как начать:

Системные требования

Чтобы эффективно запустить Qwen2.5-Omni-7B, вам потребуется:

Совместимая GPU с CUDA с достаточной памятью:
Для 15-секундного видео: 31.11 ГБ (BF16)
Для 30-секундного видео: 41.85 ГБ (BF16)
Для 60-секундного видео: 60.19 ГБ (BF16)
Примечание: Фактическое использование памяти обычно на 1.2x выше этих теоретических минимумов
Программные требования:
Python 3.8+
PyTorch 2.0+
FFmpeg (для обработки аудио/видео)

Шаги установки

Установить необходимые пакеты:

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356
pip install accelerate
pip install qwen-omni-utils[decord]

Установить Flash Attention 2 (по желанию, но рекомендуется для повышения производительности):

pip install -U flash-attn --no-build-isolation

Простой пример использования

Вот простой пример того, как использовать Qwen2.5-Omni-7B с Transformers:

import soundfile as sf
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info

# Загрузка модели
model = Qwen2_5OmniModel.from_pretrained(
    "Qwen/Qwen2.5-Omni-7B",
    torch_dtype="auto",
    device_map="auto",
    # Раскомментируйте для повышения производительности с совместимым оборудованием
    # attn_implementation="flash_attention_2",
)

# Загрузка процессора
processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")

# Подготовка разговора
conversation = [
    {
        "role": "system",
        "content": "Вы Qwen, виртуальный человек, разработанный командой Qwen, Alibaba Group, способный воспринимать аудиовывод и визуальные данные, а также генерировать текст и речь.",
    },
    {
        "role": "user",
        "content": [
            {"type": "video", "video": "<https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4>"},
        ],
    },
]

# Подготовка для инференса
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=True)
inputs = processor(
    text=text,
    audios=audios,
    images=images,
    videos=videos,
    return_tensors="pt",
    padding=True
)
inputs = inputs.to(model.device).to(model.dtype)

# Инференс: Генерация выходного текста и аудио
text_ids, audio = model.generate(**inputs, use_audio_in_video=True)
text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(text)

# Сохранение аудио-выхода
sf.write(
    "output.wav",
    audio.reshape(-1).detach().cpu().numpy(),
    samplerate=24000,
)

Советы по использованию

Требования к аудиовыходу

Чтобы включить аудиовыход, системный запрос должен быть установлен точно так, как показано:

{
    "role": "system",
    "content": "Вы Qwen, виртуальный человек, разработанный командой Qwen, Alibaba Group, способный воспринимать аудиовывод и визуальные данные, а также генерировать текст и речь."
}

Выбор типа голоса

Qwen2.5-Omni-7B поддерживает два типа голоса:

Челси (женский): Нежный, бархатистый голос с мягким теплом и яркостью
Итан (мужской): Яркий, жизнерадостный голос с заразительной энергией и теплом

Вы можете указать голос, используя параметр spk:

text_ids, audio = model.generate(**inputs, spk="Ethan")

Опции обработки видео

Совместимость URL видео зависит от версии сторонней библиотеки:

torchvision >= 0.19.0: поддерживает как HTTP, так и HTTPS
decord: поддерживает только HTTP

Вы можете изменить бэкенд, установив переменные окружения:

FORCE_QWENVL_VIDEO_READER=torchvision
# или
FORCE_QWENVL_VIDEO_READER=decord

Развертывание в Docker

Для упрощенного развертывания вы можете использовать официальный образ Docker:

docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash

Чтобы запустить веб-демо через Docker:

bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2

Развертывание vLLM

Для более быстрого инференса рекомендуется vLLM:

Установите vLLM с поддержкой Qwen2.5-Omni:

pip install git+https://github.com/huggingface/transformers@1d04f0d44251be5e236484f8c8a00e1c7aa69022
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 <https://github.com/fyabc/vllm.git> vllm
cd vllm
pip install .

Основное использование vLLM (в настоящее время поддерживается только вывод текста):

import os
import torch
from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info

os.environ['VLLM_USE_V1'] = '0'  # vLLM engine v1 не поддерживается пока
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"

llm = LLM(
    model=MODEL_PATH,
    trust_remote_code=True,
    gpu_memory_utilization=0.9,
    tensor_parallel_size=torch.cuda.device_count(),
    limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
    seed=1234
)

# Обработка входных данных и генерация выходов, как показано в примере

Заключение

Qwen2.5-Omni-7B представляет собой значительный прорыв в технологии мультимодального ИИ, предлагая впечатляющую производительность в обработке текста, изображений, аудио и видео в одной модели. С ее размером в 7 миллиардов параметров она обеспечивает хорошее соотношение между возможностями и требованиями к ресурсам, что делает ее доступной для различных сценариев развертывания.

Способность модели не только понимать несколько модальностей, но и генерировать как текстовые, так и речевые выходы открывает множество возможностей для приложений, таких как виртуальные помощники, создание контента, инструменты доступности и многое другое. Ее конкурентоспособная производительность по сравнению с более крупными специализированными моделями демонстрирует эффективность ее архитектуры и подхода к обучению.

Поскольку ИИ продолжает эволюционировать к более человеческим способам взаимодействия, такие модели, как Qwen2.5-Omni-7B, представляют собой важный шаг вперед в создании более естественных и универсальных систем искусственного интеллекта, которые могут плавно объединять несколько форм общения.