Qwen2.5-Omni-7B: O Modelo de IA Multimodal de Última Geração de Ponto a Ponto

💡

Interessado na última tendência em IA?

Então, você não pode perder Anakin AI!

Anakin AI é uma plataforma tudo-em-um para toda a automação do seu fluxo de trabalho, crie poderosos aplicativos de IA com um construtor de aplicativos fácil de usar sem código, com Deepseek, OpenAI's o3-mini-high, Claude 3.7 Sonnet, FLUX, Minimax Video, Hunyuan...

Construa seu aplicativo de IA dos sonhos em minutos, não semanas, com Anakin AI!

Anakin AI: Sua Plataforma de IA Tudo-em-Um

Comece grátis

Introdução

Qwen2.5-Omni-7B representa o último avanço na tecnologia de IA multimodal da equipe Qwen na Alibaba Cloud. Lançado como parte da série Qwen2.5, esse modelo de 7B parâmetros marca um avanço significativo em capacidades multimodais de ponta a ponta, capaz de perceber e processar diversas modalidades de entrada, incluindo texto, imagens, áudio e vídeo, enquanto gera simultaneamente tanto texto quanto respostas de fala natural de forma contínua.

O que distingue o Qwen2.5-Omni-7B é sua excepcional versatilidade e desempenho em todas as modalidades, tornando-o um verdadeiro modelo "omni" para várias aplicações de IA. A capacidade do modelo de lidar com fala, visão e texto simultaneamente o coloca entre os modelos multimodais de código aberto mais avançados atualmente disponíveis.

Principais Recursos e Capacidades

Arquitetura Inovadora Thinker-Talker

No coração do Qwen2.5-Omni-7B está sua inovadora arquitetura Thinker-Talker, projetada especificamente para percepção multimodal abrangente. Essa arquitetura permite que o modelo:

Processe múltiplas modalidades de entrada simultaneamente
Gere tanto saídas textuais quanto de fala
Forneça respostas em tempo real de forma contínua

A arquitetura inclui um novo sistema de incorporação de posição chamado TMRoPE (Time-aligned Multimodal RoPE), que sincroniza os timestamps das entradas de vídeo com o áudio, permitindo uma compreensão multimodal mais coerente.

Bate-Papo em Tempo Real por Voz e Vídeo

O modelo é construído para interações totalmente em tempo real, suportando processamento de entradas fracionadas e geração imediata de saídas. Essa capacidade é crucial para aplicações que exigem um fluxo conversacional natural, como assistentes virtuais e sistemas interativos.

Geração de Fala Natural e Robusta

O Qwen2.5-Omni-7B demonstra capacidades superiores de geração de fala em comparação com muitas alternativas de streaming e não-streaming existentes. A saída de fala do modelo é caracterizada por excepcional robustez e naturalidade, tornando-a adequada para aplicações onde a saída de voz de alta qualidade é essencial.

Desempenho Multimodal Forte

Quando comparado a modelos de modalidade única de tamanho similar, o Qwen2.5-Omni-7B exibe desempenho excepcional em todas as modalidades. Ele supera o Qwen2-Audio em capacidades de áudio e alcança desempenho comparável ao Qwen2.5-VL-7B em tarefas de visão-linguagem, demonstrando sua versatilidade como um verdadeiro sistema multimodal.

Excelente Acompanhamento de Instruções de Fala

Um dos aspectos mais impressionantes do Qwen2.5-Omni-7B é sua habilidade de seguir instruções através de entrada de fala, com desempenho rivalizando suas capacidades de entrada de texto. Isso é evidenciado por seu forte desempenho em benchmarks como MMLU e GSM8K quando fornecido com entrada de fala, mostrando que o modelo mantém altas capacidades cognitivas independentemente da modalidade de entrada.

Desempenho em Benchmarks

O Qwen2.5-Omni-7B passou por uma avaliação abrangente em múltiplos benchmarks, demonstrando consistentemente forte desempenho em vários domínios:

Benchmarks Multimodais

No OmniBench, que testa o desempenho em compreensão de fala, eventos sonoros e música:

Qwen2.5-Omni-7B: 56.13% de desempenho médio
Gemini-1.5-Pro: 42.91%
Baichuan-Omni-1.5: 42.90%
MiniCPM-o: 40.50%

Isso coloca o Qwen2.5-Omni-7B como o estado da arte para tarefas de compreensão multimodal entre modelos de tamanho comparável.

Processamento de Áudio

Para reconhecimento de fala no LibriSpeech:

Qwen2.5-Omni-7B: 1.8 WER em test-clean, 3.4 WER em test-other
Qwen2-Audio: 1.6 WER em test-clean, 3.6 WER em test-other
Whisper-large-v3: 1.8 WER em test-clean, 3.6 WER em test-other

Para compreensão de áudio no MMAU:

Qwen2.5-Omni-7B: 65.60% (média)
Gemini-Pro-V1.5: 54.90%
Qwen2-Audio: 49.20%

Compreensão de Imagem e Vídeo

Em benchmarks de compreensão de imagem:

MMMU val: 59.2% (comparado a 60.0% para GPT-4o-mini e 58.6% para Qwen2.5-VL-7B)
MMBench-V1.1-EN test: 81.8% (comparado a 82.6% para Qwen2.5-VL-7B e 76.0% para GPT-4o-mini)

Para compreensão de vídeo:

MVBench: 70.3% (comparado a 69.6% para Qwen2.5-VL-7B)
Video-MME sem legendas: 64.3% (comparado a 65.1% para Qwen2.5-VL-7B)

Benchmarks Somente de Texto

Apesar de ser um modelo multimodal, o Qwen2.5-Omni-7B mantém forte desempenho em benchmarks somente de texto:

MMLU-redux: 71.0% (comparado a 75.4% para Qwen2.5-7B)
GSM8K: 88.7% (comparado a 91.6% para Qwen2.5-7B)
HumanEval: 78.7% (comparado a 84.8% para Qwen2.5-7B)

Embora o desempenho somente de texto seja ligeiramente inferior ao seu equivalente textual especializado (Qwen2.5-7B), ele supera significativamente muitos modelos comparáveis como Llama3.1-8B e Gemma2-9B na maioria dos benchmarks.

Executando Qwen2.5-Omni-7B Localmente

Configurar e executar o Qwen2.5-Omni-7B localmente requer alguma preparação devido aos seus requisitos multimodais. Aqui está um guia abrangente para começar:

Requisitos do Sistema

Para executar o Qwen2.5-Omni-7B de forma eficaz, você precisará:

GPU compatível com CUDA com memória suficiente:
Para 15s de vídeo: 31.11 GB (BF16)
Para 30s de vídeo: 41.85 GB (BF16)
Para 60s de vídeo: 60.19 GB (BF16)
Nota: O uso real de memória é normalmente 1.2x maior do que esses mínimos teóricos
Requisitos de software:
Python 3.8+
PyTorch 2.0+
FFmpeg (para processamento de áudio/vídeo)

Etapas de Instalação

Instale os pacotes necessários:

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356
pip install accelerate
pip install qwen-omni-utils[decord]

Instale o Flash Attention 2 (opcional, mas recomendado para desempenho):

pip install -U flash-attn --no-build-isolation

Exemplo Básico de Uso

Aqui está um exemplo básico de como usar o Qwen2.5-Omni-7B com Transformers:

import soundfile as sf
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info

# Carregar o modelo
modelo = Qwen2_5OmniModel.from_pretrained(
    "Qwen/Qwen2.5-Omni-7B",
    torch_dtype="auto",
    device_map="auto",
    # Descomente para melhor desempenho com hardware compatível
    # attn_implementation="flash_attention_2",
)

# Carregar o processador
processador = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")

# Preparar a conversa
conversa = [
    {
        "role": "system",
        "content": "Você é Qwen, um humano virtual desenvolvido pela equipe Qwen, Alibaba Group, capaz de perceber entradas auditivas e visuais, bem como gerar texto e fala.",
    },
    {
        "role": "user",
        "content": [
            {"type": "video", "video": "<https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4>"},
        ],
    },
]

# Preparação para inferência
texto = processador.apply_chat_template(conversa, add_generation_prompt=True, tokenize=False)
audios, imagens, videos = process_mm_info(conversa, use_audio_in_video=True)
entradas = processador(
    text=texto,
    audios=audios,
    images=images,
    videos=videos,
    return_tensors="pt",
    padding=True
)
entradas = entradas.to(modelo.device).to(modelo.dtype)

# Inferência: Geração do texto de saída e áudio
text_ids, audio = modelo.generate(**entradas, use_audio_in_video=True)
texto = processador.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(texto)

# Salvar saída de áudio
sf.write(
    "output.wav",
    audio.reshape(-1).detach().cpu().numpy(),
    samplerate=24000,
)

Dicas de Uso

Requisitos de Saída de Áudio

Para habilitar a saída de áudio, o prompt do sistema deve ser definido exatamente como mostrado:

{
    "role": "system",
    "content": "Você é Qwen, um humano virtual desenvolvido pela equipe Qwen, Alibaba Group, capaz de perceber entradas auditivas e visuais, bem como gerar texto e fala."
}

Seleção de Tipo de Voz

O Qwen2.5-Omni-7B suporta dois tipos de voz:

Chelsie (Feminino): Uma voz doce e aveludada com calor suave e clareza luminosa
Ethan (Masculino): Uma voz brilhante e animada com energia e calor contagiosos

Você pode especificar a voz usando o parâmetro spk:

text_ids, audio = modelo.generate(**entradas, spk="Ethan")

Opções de Processamento de Vídeo

A compatibilidade do URL do vídeo depende da versão da biblioteca de terceiros:

torchvision >= 0.19.0: Suporta tanto HTTP quanto HTTPS
decord: Suporta apenas HTTP

Você pode alterar o backend definindo variáveis de ambiente:

FORCE_QWENVL_VIDEO_READER=torchvision
# ou
FORCE_QWENVL_VIDEO_READER=decord

Implantação com Docker

Para uma implantação simplificada, você pode usar a imagem oficial do Docker:

docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash

Para lançar a demonstração da web através do Docker:

bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2

Implantação vLLM

Para uma inferência mais rápida, o vLLM é recomendado:

Instale o vLLM com suporte para Qwen2.5-Omni:

pip install git+https://github.com/huggingface/transformers@1d04f0d44251be5e236484f8c8a00e1c7aa69022
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 <https://github.com/fyabc/vllm.git> vllm
cd vllm
pip install .

Uso básico do vLLM (atualmente suporta somente saída de texto):

import os
import torch
from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info

os.environ['VLLM_USE_V1'] = '0'  # mecanismo vLLM v1 ainda não suportado
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"

llm = LLM(
    model=MODEL_PATH,
    trust_remote_code=True,
    gpu_memory_utilization=0.9,
    tensor_parallel_size=torch.cuda.device_count(),
    limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
    seed=1234
)

# Processar entradas e gerar saídas como mostrado no exemplo

Conclusão

O Qwen2.5-Omni-7B representa um avanço significativo na tecnologia de IA multimodal, oferecendo desempenho impressionante em processamento de texto, imagem, áudio e vídeo em um único modelo. Com seu tamanho de 7B parâmetros, proporciona um bom equilíbrio entre capacidade e requisitos de recursos, tornando-o acessível para várias situações de implantação.

A capacidade do modelo de não apenas entender múltiplas modalidades, mas também gerar tanto saídas textuais quanto de fala, abre inúmeras possibilidades para aplicações em assistentes virtuais, criação de conteúdo, ferramentas de acessibilidade e muito mais. Seu desempenho competitivo em comparação a modelos maiores e especializados demonstra a eficácia de sua arquitetura e abordagem de treinamento.

À medida que a IA continua a evoluir em direção a capacidades de interação mais semelhantes às humanas, modelos como o Qwen2.5-Omni-7B representam um passo importante em criar sistemas de inteligência artificial mais naturais e versáteis que podem conectar perfeitamente múltiplas formas de comunicação.