Qwen2.5-Omni-7B: El Modelo de IA Multimodal Definitivo de Punto a Punto

💡

¿Interesado en la última tendencia en IA?

Entonces, ¡no puedes perderte Anakin AI!

Anakin AI es una plataforma todo en uno para toda tu automatización de flujos de trabajo, crea poderosas aplicaciones de IA con un constructor de aplicaciones de No Code fácil de usar, con Deepseek, el o3-mini-high de OpenAI, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

¡Construye la aplicación de IA de tus sueños en minutos, no semanas con Anakin AI!

Anakin AI: Tu Plataforma de IA Todo en Uno

Empieza gratis

Introducción

Qwen2.5-Omni-7B representa el último avance en tecnología de IA multimodal del equipo Qwen en Alibaba Cloud. Lanzado como parte de la serie Qwen2.5, este modelo de 7B parámetros marca un avance significativo en capacidades multimodales de extremo a extremo, capaz de percibir y procesar diversas modalidades de entrada, incluyendo texto, imágenes, audio y video, mientras genera simultáneamente tanto respuestas textuales como de habla natural de manera en streaming.

Lo que distingue a Qwen2.5-Omni-7B es su excepcional versatilidad y rendimiento en todas las modalidades, convirtiéndolo en un modelo verdaderamente "omni" para diversas aplicaciones de IA. La capacidad del modelo para manejar simultáneamente el habla, la visión y el texto lo coloca entre los modelos multimodales de código abierto más avanzados actualmente disponibles.

Características y Capacidades Clave

Arquitectura Innovadora Thinker-Talker

En el corazón de Qwen2.5-Omni-7B se encuentra su innovadora arquitectura Thinker-Talker, diseñada específicamente para una percepción multimodal integral. Esta arquitectura permite al modelo:

Procesar múltiples modalidades de entrada simultáneamente
Generar tanto salidas textuales como de habla
Proporcionar respuestas en streaming en tiempo real

La arquitectura incluye un novedoso sistema de incrustación de posición llamado TMRoPE (Time-aligned Multimodal RoPE), que sincroniza las marcas de tiempo de los inputs de video con el audio, permitiendo una comprensión multimodal más coherente.

Chat de Voz y Video en Tiempo Real

El modelo está construido para interacciones totalmente en tiempo real, soportando el procesamiento de entradas en fragmentos y la generación inmediata de salidas. Esta capacidad es crucial para aplicaciones que requieren un flujo conversacional natural, como asistentes virtuales y sistemas interactivos.

Generación de Voz Natural y Robusta

Qwen2.5-Omni-7B demuestra capacidades superiores de generación de voz en comparación con muchas alternativas existentes en streaming y no streaming. La salida de voz del modelo se caracteriza por su excepcional robustez y naturalidad, lo que lo hace adecuado para aplicaciones donde la salida de voz de alta calidad es esencial.

Cuando se compara con modelos de un solo modo de tamaño similar, Qwen2.5-Omni-7B exhibe un rendimiento excepcional en todas las modalidades. Supera al Qwen2-Audio de tamaño similar en capacidades de audio y logra un rendimiento comparable al Qwen2.5-VL-7B en tareas de visión-lenguaje, demostrando su versatilidad como un verdadero sistema multimodal.

Excelente Seguimiento de Instrucciones Vocales

Uno de los aspectos más impresionantes de Qwen2.5-Omni-7B es su capacidad para seguir instrucciones a través de la entrada de voz con un rendimiento comparable a sus capacidades de entrada de texto. Esto se evidencia por su fuerte desempeño en benchmarks como MMLU y GSM8K al recibir entrada de voz, mostrando que el modelo mantiene altas capacidades cognitivas independientemente de la modalidad de entrada.

Rendimiento en Benchmarks

Qwen2.5-Omni-7B ha sido evaluado de manera exhaustiva en múltiples benchmarks, demostrando consistentemente un fuerte rendimiento en diversas áreas:

Benchmarks Multimodales

En OmniBench, que prueba el rendimiento en comprensión de audio, eventos sonoros y música:

Qwen2.5-Omni-7B: 56.13% de rendimiento promedio
Gemini-1.5-Pro: 42.91%
Baichuan-Omni-1.5: 42.90%
MiniCPM-o: 40.50%

Esto coloca a Qwen2.5-Omni-7B en la vanguardia para tareas de comprensión multimodal entre modelos de tamaño comparable.

Procesamiento de Audio

Para el reconocimiento de voz en LibriSpeech:

Qwen2.5-Omni-7B: 1.8 WER en test-clean, 3.4 WER en test-other
Qwen2-Audio: 1.6 WER en test-clean, 3.6 WER en test-other
Whisper-large-v3: 1.8 WER en test-clean, 3.6 WER en test-other

Para la comprensión de audio en MMAU:

Qwen2.5-Omni-7B: 65.60% (promedio)
Gemini-Pro-V1.5: 54.90%
Qwen2-Audio: 49.20%

Comprensión de Imágenes y Videos

En benchmarks de comprensión de imágenes:

MMMU val: 59.2% (comparado con 60.0% para GPT-4o-mini y 58.6% para Qwen2.5-VL-7B)
MMBench-V1.1-EN test: 81.8% (comparado con 82.6% para Qwen2.5-VL-7B y 76.0% para GPT-4o-mini)

Para comprensión de video:

MVBench: 70.3% (comparado con 69.6% para Qwen2.5-VL-7B)
Video-MME sin subtítulos: 64.3% (comparado con 65.1% para Qwen2.5-VL-7B)

Benchmarks Solo de Texto

A pesar de ser un modelo multimodal, Qwen2.5-Omni-7B mantiene un fuerte rendimiento en benchmarks solo de texto:

MMLU-redux: 71.0% (comparado con 75.4% para Qwen2.5-7B)
GSM8K: 88.7% (comparado con 91.6% para Qwen2.5-7B)
HumanEval: 78.7% (comparado con 84.8% para Qwen2.5-7B)

Aunque el rendimiento solo de texto es ligeramente inferior a su contraparte textualmente especializada (Qwen2.5-7B), supera significativamente a muchos modelos comparables como Llama3.1-8B y Gemma2-9B en la mayoría de los benchmarks.

Ejecutando Qwen2.5-Omni-7B Localmente

Configurar y ejecutar Qwen2.5-Omni-7B localmente requiere algo de preparación debido a sus requisitos multimodales. Aquí hay una guía completa para comenzar:

Requisitos del Sistema

Para ejecutar Qwen2.5-Omni-7B de manera efectiva, necesitarás:

GPU compatible con CUDA con suficiente memoria:
Para video de 15s: 31.11 GB (BF16)
Para video de 30s: 41.85 GB (BF16)
Para video de 60s: 60.19 GB (BF16)
Nota: El uso real de memoria es típicamente 1.2x mayor que estos mínimos teóricos
Requisitos de software:
Python 3.8+
PyTorch 2.0+
FFmpeg (para procesamiento de audio/video)

Pasos de Instalación

Instalar los paquetes necesarios:

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356
pip install accelerate
pip install qwen-omni-utils[decord]

Instalar Flash Attention 2 (opcional pero recomendado para rendimiento):

pip install -U flash-attn --no-build-isolation

Ejemplo Básico de Uso

Aquí tienes un ejemplo básico de cómo usar Qwen2.5-Omni-7B con Transformers:

import soundfile as sf
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info

# Cargar el modelo
model = Qwen2_5OmniModel.from_pretrained(
    "Qwen/Qwen2.5-Omni-7B",
    torch_dtype="auto",
    device_map="auto",
    # Descomentar para un mejor rendimiento con hardware compatible
    # attn_implementation="flash_attention_2",
)

# Cargar el procesador
processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")

# Preparar conversación
conversation = [
    {
        "role": "system",
        "content": "Eres Qwen, un humano virtual desarrollado por el equipo Qwen, Alibaba Group, capaz de percibir entradas auditivas y visuales, así como de generar texto y habla.",
    },
    {
        "role": "user",
        "content": [
            {"type": "video", "video": "<https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4>"},
        ],
    },
]

# Preparación para inferencia
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=True)
inputs = processor(
    text=text,
    audios=audios,
    images=images,
    videos=videos,
    return_tensors="pt",
    padding=True
)
inputs = inputs.to(model.device).to(model.dtype)

# Inferencia: Generación del texto de salida y audio
text_ids, audio = model.generate(**inputs, use_audio_in_video=True)
text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(text)

# Guardar salida de audio
sf.write(
    "output.wav",
    audio.reshape(-1).detach().cpu().numpy(),
    samplerate=24000,
)

Consejos de Uso

Requisitos de Salida de Audio

Para habilitar la salida de audio, el prompt del sistema debe estar configurado exactamente como se muestra:

{
    "role": "system",
    "content": "Eres Qwen, un humano virtual desarrollado por el equipo Qwen, Alibaba Group, capaz de percibir entradas auditivas y visuales, así como de generar texto y habla."
}

Selección de Tipo de Voz

Qwen2.5-Omni-7B soporta dos tipos de voz:

Chelsie (Femenina): Una voz dulce y aterciopelada con una cálida gentileza y claridad luminosa
Ethan (Masculina): Una voz brillante y optimista con energía contagiosa y calidez

Puedes especificar la voz usando el parámetro spk:

text_ids, audio = model.generate(**inputs, spk="Ethan")

Opciones de Procesamiento de Video

La compatibilidad de URL de video depende de la versión de la biblioteca de terceros:

torchvision >= 0.19.0: Soporta tanto HTTP como HTTPS
decord: Soporta solo HTTP

Puedes cambiar el backend configurando variables de entorno:

FORCE_QWENVL_VIDEO_READER=torchvision
# o
FORCE_QWENVL_VIDEO_READER=decord

Despliegue en Docker

Para un despliegue simplificado, puedes usar la imagen oficial de Docker:

docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash

Para lanzar la demostración web a través de Docker:

bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2

Despliegue vLLM

Para una inferencia más rápida, se recomienda vLLM:

Instalar vLLM con soporte para Qwen2.5-Omni:

pip install git+https://github.com/huggingface/transformers@1d04f0d44251be5e236484f8c8a00e1c7aa69022
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 <https://github.com/fyabc/vllm.git> vllm
cd vllm
pip install .

Uso básico de vLLM (salida solo texto actualmente soportada):

import os
import torch
from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info

os.environ['VLLM_USE_V1'] = '0'  # motor vLLM v1 aún no soportado
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"

llm = LLM(
    model=MODEL_PATH,
    trust_remote_code=True,
    gpu_memory_utilization=0.9,
    tensor_parallel_size=torch.cuda.device_count(),
    limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
    seed=1234
)

# Procesar entradas y generar salidas como se muestra en el ejemplo

Conclusión

Qwen2.5-Omni-7B representa un avance significativo en la tecnología de IA multimodal, ofreciendo un rendimiento impresionante en procesamiento de texto, imagen, audio y video en un solo modelo. Con su tamaño de 7B parámetros, proporciona un buen equilibrio entre capacidad y requisitos de recursos, haciéndolo accesible para diversos escenarios de despliegue.

La capacidad del modelo para no solo entender múltiples modalidades sino también generar tanto salidas textuales como de habla abre numerosas posibilidades para aplicaciones en asistentes virtuales, creación de contenido, herramientas de accesibilidad y mucho más. Su rendimiento competitivo en comparación con modelos especializados más grandes demuestra la efectividad de su arquitectura y enfoque de entrenamiento.

A medida que la IA continúa evolucionando hacia capacidades de interacción más humanas, modelos como Qwen2.5-Omni-7B representan un paso importante hacia la creación de sistemas de inteligencia artificial más naturales y versátiles que pueden unir sin problemas múltiples formas de comunicación.

Qwen2.5-Omni-7B: El Modelo de IA Multimodal Definitivo de Punto a Punto