Тогда вам нельзя пропустить Anakin AI!
Anakin AI — это универсальная платформа для автоматизации ваших рабочих процессов, создание мощного AI-приложения с простым в использовании конструктором приложений без кода, с Deepseek, o3-mini-high от OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...
Создайте приложение вашей мечты на AI всего за несколько минут, а не недель с Anakin AI!

Введение
Qwen2.5-Omni-7B представляет собой последний прорыв в технологии мультимодального ИИ от команды Qwen в Alibaba Cloud. Выпущенная в рамках серии Qwen2.5, эта модель с 7 миллиардами параметров обозначает значительный прогресс в возможностях мультимодального восприятия «от начала до конца», способная воспринимать и обрабатывать различные входные модальности, включая текст, изображения, аудио и видео, одновременно генерируя текст и естественные речевые реакции в потоковом режиме.
Что отличает Qwen2.5-Omni-7B, так это его исключительная универсальность и производительность во всех модальностях, что делает его поистине «омни» моделью для различных ИИ-приложений. Способность модели обрабатывать речь, визуальные данные и текст одновременно ставит ее среди самых продвинутых открытых мультимодальных моделей, доступных на сегодняшний день.
Ключевые особенности и возможности

Новейшая архитектура Thinker-Talker
В сердце Qwen2.5-Omni-7B находится его инновационная архитектура Thinker-Talker, специально разработанная для комплексного мультимодального восприятия. Эта архитектура позволяет модели:
- Обрабатывать несколько входных модальностей одновременно
- Генерировать как текстовые, так и речевые выходы
- Обеспечивать потоковые ответы в реальном времени
Архитектура включает в себя новую систему позиционного встраивания под названием TMRoPE (Временная синхронизация мультимодального RoPE), которая синхронизирует временные метки видео с аудио, позволяя достигать более согласованного мультимодального понимания.
Голосовой и видеочат в реальном времени
Модель создана для полностью интерактивных взаимодействий в реальном времени, поддерживая обработку входных данных по частям и немедленное генерирование выходных данных. Эта возможность имеет решающее значение для приложений, требующих естественного потока диалога, таких как виртуальные помощники и интерактивные системы.
Естественное и надежное создание речи
Qwen2.5-Omni-7B демонстрирует превосходные возможности генерации речи по сравнению со многими существующими потоковыми и непотоковыми альтернативами. Речевой выход модели характеризуется исключительной надежностью и естественностью, что делает его подходящим для приложений, где качество звукового вывода имеет решающее значение.
Сильные кросс-модальные показатели
По результатам испытаний в сравнении с моделями одной модальности аналогичного размера, Qwen2.5-Omni-7B демонстрирует исключительную производительность во всех модальностях. Она превосходит модель Qwen2-Audio в аудио возможностях и достигает сопоставимых результатов с Qwen2.5-VL-7B в задачах визуально-языкового анализа, демонстрируя свою универсальность как настоящей мультимодальной системы.
Отличное следование голосовым инструкциям
Одним из самых впечатляющих аспектов Qwen2.5-Omni-7B является ее способность следовать инструкциям через голосовой ввод с производительностью, сопоставимой с возможностями текстового ввода. Это подтверждается ее сильными результатами на таких бенчмарках, как MMLU и GSM8K при голосовом вводе, демонстрируя, что модель сохраняет высокие когнитивные способности независимо от модальности ввода.
Производительность по бенчмаркам
Qwen2.5-Omni-7B прошла всестороннюю оценку по нескольким бенчмаркам, последовательно демонстрируя сильные результаты в различных областях:
Мультимодальные бенчмарки
На OmniBench, который тестирует производительность в области распознавания речи, звуковых событий и понимания музыки:
- Qwen2.5-Omni-7B: 56.13% средняя производительность
- Gemini-1.5-Pro: 42.91%
- Baichuan-Omni-1.5: 42.90%
- MiniCPM-o: 40.50%
Это ставит Qwen2.5-Omni-7B на передовой в области мультимодальных задач понимания среди моделей сопоставимого размера.
Обработка аудио
Для распознавания речи на LibriSpeech:
- Qwen2.5-Omni-7B: 1.8 WER на тесте чистоты, 3.4 WER на тесте других
- Qwen2-Audio: 1.6 WER на тесте чистоты, 3.6 WER на тесте других
- Whisper-large-v3: 1.8 WER на тесте чистоты, 3.6 WER на тесте других
Для понимания аудио на MMAU:
- Qwen2.5-Omni-7B: 65.60% (в среднем)
- Gemini-Pro-V1.5: 54.90%
- Qwen2-Audio: 49.20%
Понимание изображений и видео
На бенчмарках понимания изображений:
- MMMU val: 59.2% (по сравнению с 60.0% для GPT-4o-mini и 58.6% для Qwen2.5-VL-7B)
- MMBench-V1.1-EN test: 81.8% (по сравнению с 82.6% для Qwen2.5-VL-7B и 76.0% для GPT-4o-mini)
Для понимания видео:
- MVBench: 70.3% (по сравнению с 69.6% для Qwen2.5-VL-7B)
- Video-MME без субтитров: 64.3% (по сравнению с 65.1% для Qwen2.5-VL-7B)
Бенчмарки только для текста
Несмотря на то, что Qwen2.5-Omni-7B является мультимодальной моделью, она сохраняет высокие результаты по бенчмаркам только для текста:
- MMLU-redux: 71.0% (по сравнению с 75.4% для Qwen2.5-7B)
- GSM8K: 88.7% (по сравнению с 91.6% для Qwen2.5-7B)
- HumanEval: 78.7% (по сравнению с 84.8% для Qwen2.5-7B)
Хотя производительность только по тексту несколько ниже, чем у специализированной текстовой модели (Qwen2.5-7B), она значительно превосходит многие сопоставимые модели, такие как Llama3.1-8B и Gemma2-9B по большинству бенчмарков.
Запуск Qwen2.5-Omni-7B локально
Настройка и запуск Qwen2.5-Omni-7B локально требует некоторой подготовки из-за его мультимодальных требований. Вот подробное руководство, как начать:
Системные требования
Чтобы эффективно запустить Qwen2.5-Omni-7B, вам потребуется:
- Совместимая GPU с CUDA с достаточной памятью:
- Для 15-секундного видео: 31.11 ГБ (BF16)
- Для 30-секундного видео: 41.85 ГБ (BF16)
- Для 60-секундного видео: 60.19 ГБ (BF16)
- Примечание: Фактическое использование памяти обычно на 1.2x выше этих теоретических минимумов
- Программные требования:
- Python 3.8+
- PyTorch 2.0+
- FFmpeg (для обработки аудио/видео)
Шаги установки
Установить необходимые пакеты:
pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356
pip install accelerate
pip install qwen-omni-utils[decord]
Установить Flash Attention 2 (по желанию, но рекомендуется для повышения производительности):
pip install -U flash-attn --no-build-isolation
Простой пример использования
Вот простой пример того, как использовать Qwen2.5-Omni-7B с Transformers:
import soundfile as sf
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info
# Загрузка модели
model = Qwen2_5OmniModel.from_pretrained(
"Qwen/Qwen2.5-Omni-7B",
torch_dtype="auto",
device_map="auto",
# Раскомментируйте для повышения производительности с совместимым оборудованием
# attn_implementation="flash_attention_2",
)
# Загрузка процессора
processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
# Подготовка разговора
conversation = [
{
"role": "system",
"content": "Вы Qwen, виртуальный человек, разработанный командой Qwen, Alibaba Group, способный воспринимать аудиовывод и визуальные данные, а также генерировать текст и речь.",
},
{
"role": "user",
"content": [
{"type": "video", "video": "<https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4>"},
],
},
]
# Подготовка для инференса
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=True)
inputs = processor(
text=text,
audios=audios,
images=images,
videos=videos,
return_tensors="pt",
padding=True
)
inputs = inputs.to(model.device).to(model.dtype)
# Инференс: Генерация выходного текста и аудио
text_ids, audio = model.generate(**inputs, use_audio_in_video=True)
text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(text)
# Сохранение аудио-выхода
sf.write(
"output.wav",
audio.reshape(-1).detach().cpu().numpy(),
samplerate=24000,
)
Советы по использованию
Требования к аудиовыходу
Чтобы включить аудиовыход, системный запрос должен быть установлен точно так, как показано:
{
"role": "system",
"content": "Вы Qwen, виртуальный человек, разработанный командой Qwen, Alibaba Group, способный воспринимать аудиовывод и визуальные данные, а также генерировать текст и речь."
}
Выбор типа голоса
Qwen2.5-Omni-7B поддерживает два типа голоса:
- Челси (женский): Нежный, бархатистый голос с мягким теплом и яркостью
- Итан (мужской): Яркий, жизнерадостный голос с заразительной энергией и теплом
Вы можете указать голос, используя параметр spk
:
text_ids, audio = model.generate(**inputs, spk="Ethan")
Опции обработки видео
Совместимость URL видео зависит от версии сторонней библиотеки:
torchvision >= 0.19.0
: поддерживает как HTTP, так и HTTPSdecord
: поддерживает только HTTP
Вы можете изменить бэкенд, установив переменные окружения:
FORCE_QWENVL_VIDEO_READER=torchvision
# или
FORCE_QWENVL_VIDEO_READER=decord
Развертывание в Docker
Для упрощенного развертывания вы можете использовать официальный образ Docker:
docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash
Чтобы запустить веб-демо через Docker:
bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2
Развертывание vLLM
Для более быстрого инференса рекомендуется vLLM:
Установите vLLM с поддержкой Qwen2.5-Omni:
pip install git+https://github.com/huggingface/transformers@1d04f0d44251be5e236484f8c8a00e1c7aa69022
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 <https://github.com/fyabc/vllm.git> vllm
cd vllm
pip install .
Основное использование vLLM (в настоящее время поддерживается только вывод текста):
import os
import torch
from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info
os.environ['VLLM_USE_V1'] = '0' # vLLM engine v1 не поддерживается пока
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"
llm = LLM(
model=MODEL_PATH,
trust_remote_code=True,
gpu_memory_utilization=0.9,
tensor_parallel_size=torch.cuda.device_count(),
limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
seed=1234
)
# Обработка входных данных и генерация выходов, как показано в примере
Заключение
Qwen2.5-Omni-7B представляет собой значительный прорыв в технологии мультимодального ИИ, предлагая впечатляющую производительность в обработке текста, изображений, аудио и видео в одной модели. С ее размером в 7 миллиардов параметров она обеспечивает хорошее соотношение между возможностями и требованиями к ресурсам, что делает ее доступной для различных сценариев развертывания.
Способность модели не только понимать несколько модальностей, но и генерировать как текстовые, так и речевые выходы открывает множество возможностей для приложений, таких как виртуальные помощники, создание контента, инструменты доступности и многое другое. Ее конкурентоспособная производительность по сравнению с более крупными специализированными моделями демонстрирует эффективность ее архитектуры и подхода к обучению.
Поскольку ИИ продолжает эволюционировать к более человеческим способам взаимодействия, такие модели, как Qwen2.5-Omni-7B, представляют собой важный шаг вперед в создании более естественных и универсальных систем искусственного интеллекта, которые могут плавно объединять несколько форм общения.