Cómo usar WAN 2.1 con Comfy UI en Mac, Windows y Linux: Una guía completa

El 25 de febrero de 2025, Alibaba Cloud revolucionó la industria al hacer open-source Wan 2.1, un modelo avanzado de generación de videos AI de la aclamada serie Tongyi. Este modelo innovador transforma indicaciones de texto en videos visualmente impresionantes, manejando movimientos intrincados y detalles espaciales con facilidad. Con un puntaje destacado de VBench de 84.7%, soporte multilingüe y acceso gratuito, Wan 2.1 ya es un fuerte contendiente en un campo que incluye Sora de OpenAI, Minimax, Kling de Kuaishou y Veo 2 de Google.

Si prefieres evitar las molestias de la configuración y comenzar a generar videos de inmediato, consulta Anakin AI, una plataforma de AI todo en uno que hace que usar Wan 2.1 sea muy fácil. De lo contrario, esta guía te guiará a través de cómo usar WAN 2.1 con Comfy UI en Mac, Windows y Linux, cubriendo instalación, configuración y técnicas avanzadas de generación de videos. ¡Disfruta explorando el futuro de la creación de videos AI!

Anakin.ai - One-Stop AI App Platform

Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.

Anakin.ai

Introducción y Preparativos del Sistema

Cuando estés listo para sumergirte en cómo usar WAN 2.1 con Comfy UI, el primer paso es asegurarte de que tu sistema cumpla con los requisitos de hardware y software necesarios. Créeme, comenzar con una base sólida hace que todo el proceso sea mucho más fluido.

Especificaciones de Hardware

Mínimo:
GPU: NVIDIA GTX 1080 (8GB VRAM) o Apple M1
RAM: 16GB DDR4
Almacenamiento: 15GB de espacio SSD para modelos y dependencias
Recomendado:
GPU: NVIDIA RTX 4090 (24GB VRAM) o Apple M3 Max
RAM: 32GB DDR5
Almacenamiento: NVMe SSD con al menos 50GB de capacidad

Dependencias de Software

Python: Versiones de 3.10 a 3.11 (3.11.6 funciona mejor para Apple Silicon)
PyTorch: Versión 2.2+ con soporte de CUDA 12.1 (para Windows/Linux) o soporte de Metal (para macOS)
FFmpeg: Versión 6.1 para codificación/decodificación de video
Controladores: Controladores NVIDIA Studio 550+ para Windows/Linux

Instalación de ComfyUI en Diferentes Plataformas

Sigue estos pasos detallados para configurar ComfyUI, una parte crucial de cómo usar WAN 2.1 con Comfy UI.

Instalación en Windows

Método A: ComfyUI Desktop (Beta Oficial)

Descargar: Obtén el ComfyUI_Desktop_Windows_0.9.3b.exe de comfyui.org/downloads.
Ejecutar el Instalador: Ejecuta el instalador y asegúrate de que la aceleración por GPU de NVIDIA esté habilitada.
Verificación: Abre una ventana de comandos y ejecuta:

Esta verificación rápida confirma que todo está configurado correctamente.

Método B: Construcción Manual

Clonar el Repositorio:

https://github.com/comfyanonymous/ComfyUI

2. Configurar el Entorno Virtual:

3. Instalar PyTorch:

https://download.pytorch.org/whl/torch_stable.html

4. Instalar Requerimientos:

pip install -r requirements.txt

Instalación en macOS (M1/M2/M3)

Instalar Homebrew (si es necesario):

https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh

2. Instalar Python & FFmpeg:

brew install python@3.11 ffmpeg

3. Clonar y Configurar ComfyUI:

https://github.com/comfyanonymous/ComfyUI

https://download.pytorch.org/whl/torch_stable.html

Instalación en Linux (Nativo/WSL2)

Para WSL2:

Instalar WSL2 con Ubuntu 22.04:

wsl --install -d Ubuntu-22.04

2. Actualizar y Mejorar:

sudo apt update && sudo apt full-upgrade -y

Desplegando ComfyUI:

Clonar el Repositorio:

https://github.com/comfyanonymous/ComfyUI

2. Configurar el Entorno Conda (Recomendado):

3. Instalar PyTorch con CUDA:

https://download.pytorch.org/whl/torch_stable.html

4. Instalar Requerimientos:

pip install -r requirements.txt

Integrando el Modelo WAN 2.1

Con ComfyUI en funcionamiento, el siguiente paso en cómo usar WAN 2.1 con Comfy UI es integrar el modelo WAN 2.1.

Adquisición y Configuración del Modelo

Descargar Pesos:
wan_2.1_base.safetensors (aprox. 8.4GB)
wan_2.1_vae.pth (aprox. 1.2GB)
Descarga estos archivos utilizando tu método preferido (por ejemplo, wget).
Ubicación de Archivos:
Coloca wan_2.1_base.safetensors en ComfyUI/models/checkpoints/
Coloca wan_2.1_vae.pth en ComfyUI/models/vae/

Instalación de Nodos Personalizados

Mejora tu flujo de trabajo instalando nodos personalizados:

Navega al Directorio de Nodos Personalizados

cd ComfyUI/custom_nodes

Clonar Extensiones Esenciales:

git clone https://github.com/WASasquatch/was-node-suite-comfyui git clone https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

Estos nodos proporcionan funciones útiles como la interpolación de cuadros de video y el procesamiento por lotes.

Configurando Tu Flujo de Trabajo para WAN 2.1

Construir la tubería correcta es clave al aprender cómo usar WAN 2.1 con Comfy UI.

Configurando la Tubería de Texto a Video

Aquí tienes una estructura de tubería simplificada:

Cargar Nodo de Punto de Control: Carga los pesos de tu modelo WAN 2.1.
Nodo CLIPTextEncode: Convierte las indicaciones de texto (por ejemplo, “Un dragón cibernético surcando nubes de nebulosa”) en datos de condicionamiento.
Nodo WANSampler: Muestrea el espacio latente con parámetros como:

Resolución: 1024×576 cuadros

Cuadros: 48 (modificable según las necesidades)

Escala de Movimiento: Típicamente entre 1.2 y 2.5 para transiciones suaves.

Nodo VAEDecode: Decodifica los datos latentes en una salida de video final.

Ajustes de Parámetros & Optimización

Escala de Movimiento: Muchos usuarios prefieren alrededor de 1.8 para equilibrar transiciones suaves con consistencia.
Atención Temporal: Apunta a configuraciones entre 0.85 y 0.97 para mantener estabilidad en movimientos de largo alcance.
Programación de Ruido & Interpolación de Cuadros: Opciones como Karras y FilmNet ayudan a reducir artefactos no deseados.
Entradas Híbridas: Combina imágenes de referencia y mapas de profundidad para mejorar la transferencia de estilo e introducir un efecto 3D.

Técnicas Avanzadas de Generación de Video

Lleva tus proyectos más lejos con estos consejos avanzados:

Referencia de Múltiples Imágenes

Transferencia de Estilo: Usa múltiples imágenes de referencia para alterar el estilo artístico.
Condicionamiento de Mapa de Profundidad: Incorpora mapas de profundidad para crear un efecto pseudo-3D.
ControlNet & Estimación de Pose: Dirige el modelo utilizando poses humanas o posicionamiento de objetos para salidas más refinadas.

Simulación de Movimiento de Cámara

Simula movimientos dinámicos de cámara con el nodo CameraController:

Velocidad de Órbita: por ejemplo, 0.12
Dolly Zoom: por ejemplo, -0.05
Varianza de Rodado: por ejemplo, 2.7
Estos ajustes le dan a tus videos ese toque cinematográfico.

Optimización del Rendimiento & Resolución de Problemas

Técnicas de Gestión de VRAM

Mantén tu sistema funcionando de manera eficiente:

Caché de Cuadros: Habilita configurando enable_offload_technique = True y opta por optimización agresiva de VRAM.
Precision Mixta: Mejora el rendimiento utilizando:

torch.set_float32_matmul_precision('medium')

Resolución de Problemas Comunes

Salida de Cuadro Negro: Verifica que tu archivo VAE (wan_2.1_vae.pth) coincida con la versión de tu modelo y revisa tus configuraciones de atención temporal.
Desbordamiento de VRAM: Inicia ComfyUI con las flags --medvram y --xformers.
Análisis de Registros: Inspecciona comfy.log en busca de mensajes ERROR o CRITICAL para identificar problemas rápidamente.

Diferencias de Instalación Específicas de la Plataforma

Aquí hay un resumen rápido de las principales diferencias entre la instalación de ComfyUI en Windows, macOS y Linux, importante entender al determinar cómo usar WAN 2.1 con Comfy UI:

Windows

Método Tradicional:
Involucra la extracción de un ZIP portátil, configuración manual del entorno de Python y ejecución de archivos por lotes (como ejecutar run_nvidia_gpu.bat).
Requiere una instalación separada de 7-Zip y configuración manual del kit de herramientas de CUDA.
Aplicación de Escritorio V1:
Un instalador de un clic (aproximadamente 200 MB de paquete agrupado) que automatiza la resolución de dependencias y la configuración.

macOS

Método Tradicional:
Utiliza Homebrew para instalar paquetes básicos y requiere configuración manual de Python/MPS.
Se lanza a través de Terminal, y Python 3.11+ es obligatorio para optimizar en Apple Silicon.
Aplicación de Escritorio V1:
Viene como un paquete universal .dmg con un entorno de Python integrado, simplificando significativamente la instalación.

Linux

Método Tradicional:
Depende de la clonación basada en terminal, gestión de conda o pip, y instalación manual de controladores NVIDIA/AMD.
Pueden ser necesarios ajustes adicionales para las políticas de AppArmor/SELinux.
Aplicación de Escritorio V1:
Ofrece binarios firmados por código (a través de paquetes AppImage/DEB) que agilizan la gestión de dependencias y actualizaciones.

La Aplicación de Escritorio V1 reduce drásticamente los dolores de cabeza de la instalación al proporcionar resolución automática de dependencias y bibliotecas de modelos unificadas en todas las plataformas.

Pensamientos Finales

En resumen, esta guía te ha llevado a través de cómo usar WAN 2.1 con Comfy UI, desde preparar tu sistema hasta sumergirte en técnicas avanzadas de generación de video. No importa si estás en Windows, macOS o Linux, ahora estás equipado para configurar, personalizar y optimizar tu flujo de trabajo de video AI como un profesional.

Así que, agarra tu sistema, pruébalo y disfruta del viaje creativo. ¡Feliz creación de videos, y aquí está a llevar tus proyectos a nuevas alturas!