Wan 2.1 Mã Nguồn Mở: Mô Hình Video AI Cách Mạng Của Alibaba Đối Đầu Với Sora, Minimax, Kling Và Google Veo 2

Vào ngày 25 tháng 2 năm 2025, Alibaba Cloud đã thông báo rằng Wan 2.1, mô hình video AI tiên tiến của họ, hiện đã mã nguồn mở. Mô hình này, là một phần của dòng sản phẩm Tongyi, chuyển đổi các văn bản đầu vào thành video chất

Build APIs Faster & Together in Apidog

Wan 2.1 Mã Nguồn Mở: Mô Hình Video AI Cách Mạng Của Alibaba Đối Đầu Với Sora, Minimax, Kling Và Google Veo 2

Start for free
Inhalte

Vào ngày 25 tháng 2 năm 2025, Alibaba Cloud đã thông báo rằng Wan 2.1, mô hình video AI tiên tiến của họ, hiện đã mã nguồn mở. Mô hình này, là một phần của dòng sản phẩm Tongyi, chuyển đổi các văn bản đầu vào thành video chất lượng cao, xuất sắc trong các chuyển động phức tạp và mối quan hệ không gian. Việc mã nguồn mở của nó đánh dấu một bước quan trọng hướng tới việc dân chủ hóa việc tạo video bằng AI.

Wan 2.1 bước vào một bối cảnh cạnh tranh bị chi phối bởi các mô hình như: Sora của OpenAI, Minimax, Kling từ Kuaishou, Veo 2 của Google

Với điểm số VBench dẫn đầu là 84,7%, hỗ trợ đa ngôn ngữ cho tiếng Trung và tiếng Anh, và hứa hẹn cung cấp quyền truy cập miễn phí, Wan 2.1 dự kiến sẽ tạo ra ảnh hưởng đáng kể. Bài viết này đi sâu vào hiệu suất, tính năng, giá cả, trải nghiệm người dùng của Wan 2.1 và cách nó so sánh với các đối thủ, cuối cùng khám phá ý nghĩa của tình trạng mã nguồn mở của nó đối với tương lai của việc tạo video AI.

💡
Bạn muốn sử dụng các trình tạo video AI hàng đầu như Runway ML, Minimax, Luma AI, Wan 2.1 (sắp ra mắt!), Pyramid Flow, LTX Video và nhiều hơn nữa ở một nơi? Anakin AI là giải pháp hoàn hảo cho bạn. Nền tảng thân thiện với người dùng này kết hợp các mô hình tiên tiến, giúp bạn tạo ra những video ấn tượng — dù cho là cho TikTok, quảng cáo, hay phim — một cách dễ dàng và nhanh chóng.


Đăng ký Anakin AI hôm nay tại anakin.ai và bắt đầu miễn phí. Tham gia cùng các nhà sáng tạo trên toàn thế giới và chuẩn bị cho Wan 2.1 — luôn đi trước với Anakin!
Anakin.ai - One-Stop AI App Platform
Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.

Wan 2.1: Điều gì khiến nó nổi bật?

Wan 2.1, còn được gọi là Wanx 2.1 hoặc Tongyi Wanxi, là một phần của dòng sản phẩm mô hình AI đa phương thức Tongyi của Alibaba. Nó chuyển đổi các văn bản đầu vào thành những video ấn tượng, nắm bắt các chuyển động phức tạp — như trượt băng nghệ thuật hoặc tương tác nhiều đối tượng — và các mối quan hệ không gian. Theo Alibaba và bảng xếp hạng VBench, nó dẫn đầu với điểm số 84,7%, nổi bật hơn các đối thủ trong chuyển động động, độ mượt mà và thẩm mỹ, cung cấp các hình ảnh sống động của những vũ công xoay tròn hoặc xe đua khớp với mô tả của bạn.

Một tính năng nổi bật là khả năng hỗ trợ đa ngôn ngữ cho tiếng Trung và tiếng Anh, hoàn hảo cho các nhà sáng tạo nhắm đến những thị trường đa dạng. Nó sản xuất video 1080p sắc nét ở 30 FPS, cạnh tranh với những hình ảnh chuyên nghiệp. Được công bố mã nguồn mở vào ngày 25 tháng 2 năm 2025, Wan 2.1 có thể thúc đẩy sự đổi mới tương tự như Stable Diffusion, đặt ra câu hỏi về tác động thực tế của nó và lợi thế so với các đối thủ.

So sánh Wan 2.1 với Sora, Minimax, Kling và Google Veo 2

Để hiểu vị trí của Wan 2.1 trong lĩnh vực tạo video AI, hãy so sánh nó với một số cái tên lớn nhất: Sora của OpenAI, Minimax, Kling (từ Kuaishou) và Veo 2 của Google. Mỗi mô hình này có những điểm mạnh riêng, nhưng Wan 2.1 mang lại những lợi thế độc đáo có thể giúp nó trở thành một ứng viên hàng đầu.

Sora của OpenAI

Sora, ra mắt vào cuối năm 2024, tạo ra video 20 giây chất lượng cao cho truyền thông xã hội và marketing, kèm theo ChatGPT Plus/Pro (20$/200$ hàng tháng). Nó cung cấp quyền truy cập không giới hạn và độ phân giải cao hơn cho người dùng Pro, xuất sắc trong các đoạn video ngắn ấn tượng. Giới hạn ở tiếng Anh và độ ngắn, nó đạt 82% trên VBench, trong khi điểm số 84,7% của Wan 2.1 và khả năng hỗ trợ đa ngôn ngữ cho thấy sự linh hoạt lớn hơn cho các đoạn phức tạp dài hơn.

Minimax

Minimax, một AI đa phương thức của Trung Quốc, tích hợp việc tạo video với hiệu suất chuyển đổi văn bản thành hình ảnh. Nó kém hơn Wan 2.1 trong các cảnh động theo VBench, đồng thời khả năng truy cập toàn cầu của nó bị hạn chế, thường cần các đăng ký doanh nghiệp. Lợi thế mã nguồn mở của Wan 2.1 mở rộng khả năng tiếp cận, mặc dù Minimax có thể xuất sắc trong việc chỉnh sửa thời gian thực do tốc độ.

Kling (Kuaishou)

Kling, từ Kuaishou, nổi bật trong nội dung dạng ngắn như Douyin với đầu ra độ phân giải cao và chuyển động mượt mà. Hạn chế ở Trung Quốc và không mã nguồn mở, nó không toàn cầu như Wan 2.1, vốn cung cấp hỗ trợ đa ngôn ngữ và tiềm năng rộng hơn, mặc dù Kling hưởng lợi từ hệ sinh thái khu vực của Kuaishou.

Google Veo 2

Veo 2, được phát hành sau Sora vào tháng 12 năm 2024, nhắm đến người dùng truy cập sớm tại Mỹ thông qua Vertex AI của Google Cloud, với mức giá dựa trên mức sử dụng (ví dụ: 0,00003$/1k ký tự). Mạnh về tính thực tế và thẩm mỹ, điểm số 83% trên VBench của nó thấp hơn so với 84,7% của Wan 2.1. Tính linh hoạt mã nguồn mở của Wan 2.1 thu hút các nhà phát triển, trong khi Veo 2 phục vụ cho nhu cầu doanh nghiệp với cơ sở hạ tầng vững chắc.

Wan 2.1 sẽ tốt đến đâu?

Dựa trên vị trí dẫn đầu trên VBench và thông số kỹ thuật, Wan 2.1 có khả năng trở thành một trong những mô hình video AI mã nguồn mở tốt nhất hiện có. Điểm số 84,7% trên VBench cho thấy nó xử lý các chuyển động phức tạp, tương tác nhiều đối tượng và các mối quan hệ không gian tốt hơn hầu hết các đối thủ. Điều này có nghĩa là với các nhà sáng tạo, video sẽ ít bị lỗi, chuyển tiếp mượt mà hơn, và tuân thủ chính xác các đầu vào — dù bạn đang tạo hoạt hình cho một trận chiến khoa học viễn tưởng hay một cảnh thiên nhiên yên bình.

Tuy nhiên, không có mô hình nào là hoàn hảo. Wan 2.1 có thể gặp khó khăn với những đoạn dài hoặc các đầu vào trừu tượng cao, những lĩnh vực mà các mô hình độc quyền như Sora hoặc Veo 2 có thể có lợi thế do tối ưu hóa hệ thống kín của chúng. Bản chất mã nguồn mở của nó cũng có nghĩa là hiệu suất có thể thay đổi tùy thuộc vào cách các nhà phát triển điều chỉnh nó, có thể dẫn đến những kết quả không đồng nhất nếu không được quản lý tốt. Tuy nhiên, đối với hầu hết người dùng — đặc biệt là những người trong các ngành sáng tạo hoặc doanh nghiệp nhỏ — sự kết hợp giữa chất lượng, khả năng tiếp cận và hiệu quả chi phí của Wan 2.1 có vẻ rất hứa hẹn.

Giá cả, Hiệu suất, Tính năng và Trải nghiệm Người dùng

Giá cả

Wan 2.1 sẽ tốn bao nhiêu? Là một mô hình mã nguồn mở, core của nó có khả năng là miễn phí để sử dụng, tải xuống và sửa đổi, giống như Stable Diffusion hoặc LLaMA. Alibaba Cloud có thể tính phí cho các tính năng cao cấp, dịch vụ lưu trữ đám mây hoặc quyền truy cập API — có thể từ 100–500$/tháng cho doanh nghiệp, tương tự như Sora hoặc Veo 2. Hiện tại nó miễn phí trên Model Studio của Alibaba, và việc lưu trữ cộng đồng có thể tiết kiệm thêm chi phí cho những người đam mê.

Hiệu suất

Wan 2.1 xuất sắc với điểm số VBench 84,7%, xử lý các cảnh động, sự nhất quán không gian và tính thẩm mỹ tốt. Nó cung cấp video 1080p ở 30 FPS với chuyển động thực tế thông qua cơ chế chú ý không gian-thời gian, dẫn đầu trong việc tạo video mã nguồn mở, mặc dù các mô hình độc quyền như Sora có thể vượt trội hơn ở những lĩnh vực cụ thể.

Tính năng

Wan 2.1 hỗ trợ văn bản đa ngôn ngữ (tiếng Trung và tiếng Anh), độ phân giải tùy chỉnh, và tỉ lệ khung hình, tích hợp với hệ sinh thái của Alibaba. Nó thân thiện với người dùng, không cần kỹ năng kỹ thuật, và khả năng mã nguồn mở có thể bổ sung các tính năng, mặc dù nó có thể thiếu các tiện ích độc quyền như chỉnh sửa thời gian thực.

Trải nghiệm Người dùng

Giao diện của nó rất đơn giản — nhập văn bản, điều chỉnh cài đặt, và tải xuống video — rất phù hợp cho người dùng không kỹ thuật. Việc thiết lập mã nguồn mở có thể cần một số kiến thức, không giống như sự dễ dàng của ChatGPT của Sora hay sự tinh tế của Google Cloud trong Veo 2, nhưng sự phát triển của cộng đồng có thể làm cho nó cải thiện theo thời gian.

Thông báo Mã nguồn mở: Một Bước ngoặt

Thông báo vào ngày 25 tháng 2 năm 2025, của Alibaba_Wan (“Đây không phải là một cuộc diễn tập — Wan 2.1 MÃ NGUỒN MỞ cuối cùng đã đến đây!”) đã gây ra sự phấn khích toàn cầu. Bản phát trực tiếp lúc 11:00 PM UTC+8 có thể đã đề cập đến các điều khoản mã nguồn mở, khả năng truy cập, và các hạn chế. Điều này có thể giúp việc tạo video bằng AI trở nên dễ tiếp cận cho những người đam mê, khởi nghiệp và các nhà nghiên cứu, tương tự như tác động của Stable Diffusion, nhưng những rủi ro về mã nguồn mở bao gồm chất lượng không đồng nhất hoặc an ninh nếu không được quản lý tốt.

Đối với người dùng, nó cung cấp một công cụ mạnh mẽ, có thể miễn phí, nhưng cũng đặt ra những lo ngại về sự hỗ trợ lâu dài, cập nhật, và độ tin cậy trong doanh nghiệp. Danh tiếng của AI và đám mây của Alibaba cho thấy sự hỗ trợ vững chắc, mặc dù vai trò của cộng đồng sẽ rất quan trọng đối với sự thành công của Wan 2.1.

Kết luận: Vị trí của Wan 2.1 trong Cuộc cách mạng Video AI

Wan 2.1 không chỉ là một mô hình AI khác — nó là một yếu tố có thể thay đổi cuộc chơi, đặc biệt với tình trạng mã nguồn mở của nó. Hiệu suất dẫn đầu VBench, khả năng hỗ trợ đa ngôn ngữ và sự dễ tiếp cận làm cho nó trở thành một đối thủ mạnh mẽ với Sora, Minimax, Kling và Veo 2, đặc biệt cho các nhà sáng tạo và nhà phát triển đang tìm kiếm sự linh hoạt và tiết kiệm chi phí. Dù nó có thể không sánh bằng các mô hình độc quyền trong tất cả các lĩnh vực (ví dụ: chỉnh sửa thời gian thực hoặc tích hợp doanh nghiệp), bản chất mã nguồn mở của nó có thể thúc đẩy một cộng đồng năng động, giúp thúc đẩy đổi mới và áp dụng.

Đối với người dùng hàng ngày, Wan 2.1 mang đến cơ hội tạo ra những video chất lượng chuyên nghiệp với nỗ lực và chi phí tối thiểu, dù bạn là một nhà tiếp thị sáng tạo quảng cáo, một nhà giáo dục tạo bài học, hay một nhà làm phim thử nghiệm với những ý tưởng mới. Giá cả của nó (có thể miễn phí hoặc chi phí thấp cho các tính năng cao cấp), hiệu suất hàng đầu và trải nghiệm thân thiện với người dùng định vị nó như một công cụ cần theo dõi trong lĩnh vực video AI. Khi bản phát trực tiếp diễn ra và nhiều chi tiết xuất hiện hơn, Wan 2.1 có thể định hình lại cách chúng ta nghĩ về sự sáng tạo do AI điều khiển — mở, dễ tiếp cận và linh hoạt vô tận.