Cách cài đặt và chạy QwQ-32B trực tiếp trên Windows, macOS và Linux

Hãy tưởng tượng bạn có một mô hình AI mạnh mẽ chạy trên chính máy tính của bạn — không cần gọi API không ngừng, không hóa đơn đám mây, và điều quan trọng nhất, hoàn toàn bảo mật cho dữ liệu nhạy cảm của bạn. Với QwQ-32B của Alibaba, bạn

Build APIs Faster & Together in Apidog

Cách cài đặt và chạy QwQ-32B trực tiếp trên Windows, macOS và Linux

Start for free
Inhalte

Hãy tưởng tượng bạn có một mô hình AI mạnh mẽ chạy trên chính máy tính của bạn — không cần gọi API không ngừng, không hóa đơn đám mây, và điều quan trọng nhất, hoàn toàn bảo mật cho dữ liệu nhạy cảm của bạn. Với QwQ-32B của Alibaba, bạn có thể mang AI cấp doanh nghiệp ngay trên bàn làm việc của mình. Trong hướng dẫn này, tôi sẽ hướng dẫn bạn cách cài đặt và chạy QwQ-32B cục bộ trên Windows, macOS và Linux. Ngoài ra, tôi sẽ cho bạn thấy quy trình gần như giống hệt nhau cho bất kỳ mô hình nào có sẵn trên Ollama, làm cho nó trở nên rất đa dụng. Và nếu bạn muốn khám phá không chỉ QwQ-32B mà còn các mô hình đột phá khác như DeepSeek-R1, GPT-4o và Clause 3.7, bạn có thể kiểm tra chúng trên Anakin AI — một trung tâm một điểm dừng cho tất cả các điều liên quan đến AI.

Tại sao lại chạy QwQ-32B cục bộ?

Trước khi đi vào chi tiết, hãy nhanh chóng nói về lý do tại sao bạn có thể muốn chạy QwQ-32B trên phần cứng của riêng mình:

  • Bảo mật: Giữ tất cả dữ liệu của bạn trên máy tính. Không cần lo lắng về việc gửi thông tin nhạy cảm đến một dịch vụ đám mây.
  • Tiết kiệm chi phí: Với các cài đặt cục bộ, bạn sẽ tránh được các khoản chi phí API lặp lại. QwQ-32B chạy chỉ với 0,25 đô la cho mỗi triệu token so với các chi phí đám mây cao hơn nhiều.
  • Tùy chỉnh: Tinh chỉnh mô hình với các tập dữ liệu riêng của bạn và điều chỉnh nó cho các nhu cầu độc đáo của bạn.
  • Tính linh hoạt: Chuyển đổi giữa các mô hình khác nhau — như Llama 3, Mistol, và nhiều hơn nữa — sử dụng cùng một quy trình đơn giản.

Chạy QwQ-32B cục bộ cho bạn toàn quyền kiểm soát mô hình, và quy trình thiết lập đáng ngạc nhiên là thân thiện với người mới bắt đầu. Ngay cả khi bạn chưa bao giờ mở Terminal trước đây, bạn có thể hoàn thành việc này trong khoảng 10 phút!


Yêu cầu phần cứng cho QwQ-32B

Chạy QwQ-32B cục bộ đòi hỏi phần cứng mạnh mẽ để đảm bảo cài đặt suôn sẻ và suy diễn hiệu quả. Dưới đây là các yêu cầu tối thiểu cho mỗi nền tảng:

Mac

  • Processor: Apple Silicon — M1 Pro hoặc M1 Max được khuyến nghị cho hiệu suất tối ưu.
  • RAM: Tối thiểu 24GB. (Lý tưởng cho các bối cảnh lớn hơn: các hệ thống với 48GB+ bộ nhớ thống nhất cung cấp hiệu suất tốt hơn nữa.)
  • Storage: Đủ dung lượng ổ đĩa trống (ít nhất 100GB được khuyến nghị cho các tệp mô hình và dữ liệu bổ sung).

Windows

  • Processor: CPU đa nhân hiện đại với hỗ trợ AVX2/AVX512.
  • GPU: Đối với các phiên bản định lượng: NVIDIA GeForce RTX 3060 (12GB VRAM) hoặc cao hơn.
  • Đối với suy diễn chính xác đầy đủ: NVIDIA RTX 4090 (24GB VRAM) được khuyến nghị.
  • RAM: Ít nhất 32GB để hoạt động mượt mà.
  • Storage: Tối thiểu 100GB dung lượng trống cho các tệp mô hình và tài nguyên liên quan.

Linux

  • Processor: CPU đa nhân với hỗ trợ AVX2/AVX512. Chip ARM cũng tương thích.
  • GPU: Đối với các phiên bản định lượng: NVIDIA RTX 3090 hoặc RTX 4090 (24GB VRAM) là đủ.
  • Đối với các bối cảnh lớn hơn hoặc cài đặt độ chính xác cao hơn, các GPU như NVIDIA A6000 được khuyến nghị.
  • RAM: Tối thiểu 32GB.
  • Storage: Ít nhất 100GB dung lượng trống cho lưu trữ mô hình.

Cách cài đặt QwQ-32B trên Windows

Cách cài đặt QwQ-32B trên Windows

Bước 1: Tải xuống và cài đặt Ollama

Bước đầu tiên là tải xuống Ollama — một phần mềm miễn phí giúp việc cài đặt AI cục bộ trở nên dễ dàng. Đây là cách:

  1. Truy cập ollama.com và nhấp vào nút tải xuống cho Windows.
  2. Chạy tệp .exe đã tải xuống. Không cần quyền admin.
  3. Theo dõi hướng dẫn trên màn hình để cài đặt Ollama. Nó có thể yêu cầu bạn nhập mã truy cập của máy tính; điều đó là bình thường.

Bước 2: Mở Terminal

Kế tiếp, mở Terminal trên máy tính Windows của bạn. Bạn có thể làm điều này bằng cách tìm kiếm “Terminal” trong menu Start của bạn. Điều này có thể có vẻ hơi kỹ thuật, nhưng đừng lo lắng — chỉ cần làm theo hướng dẫn.

Bước 3: Cài đặt mô hình bạn chọn

Với Ollama đã cài đặt, giờ bạn có thể cài đặt QwQ-32B. Trong Terminal, gõ lệnh:

ollama run qwq:32b-preview-fp16

Lệnh này sẽ yêu cầu Ollama chạy phiên bản có độ chính xác đầy đủ (FP16) của QwQ-32B. Nếu hệ thống của bạn có ít VRAM hơn, bạn có thể chọn phiên bản định lượng thay vào đó:

ollama run qwq:32b-preview-q4_K_M

Sau khi nhấn enter, mô hình sẽ bắt đầu cài đặt. Điều này có thể mất một vài giây. Khi cài đặt xong, bạn có thể kiểm tra nó bằng cách đặt một câu hỏi đơn giản như:

> Tích phân của x² từ 0 đến 5 là gì?

Terminal sẽ hiển thị câu trả lời, chứng minh rằng mô hình của bạn đã hoạt động.

Cách cài đặt QwQ-32B trên macOS

Cách cài đặt QwQ-32B trên macOS

Bước 1: Cài đặt Terminal qua Shell Script

Người dùng Mac, đặc biệt là những người có Apple Silicon, có quy trình tương tự. Mở Terminal và chạy:

https://ollama.com/install.sh

Script này cài đặt Ollama trên macOS của bạn. Tuân theo bất kỳ hướng dẫn nào xuất hiện trong quá trình cài đặt.

Bước 2: Quản lý bộ nhớ

Đối với Mac có bộ nhớ cao hơn (48GB hoặc hơn), bạn có thể chọn phiên bản định lượng 5-bit:

ollama run qwq:32b-preview-q5_1

Phiên bản này được tối ưu hóa cho các máy có cấu hình bộ nhớ thống nhất mạnh mẽ. Sử dụng Activity Monitor để theo dõi mức sử dụng bộ nhớ của bạn trong quá trình suy diễn.

Bước 3: Kiểm tra mô hình

Sau khi cài đặt xong, kiểm tra thiết lập của bạn bằng cách nhập một truy vấn trong Terminal:

> Tên của bạn là gì?

Bạn sẽ nhận được câu trả lời từ mô hình, xác nhận rằng mọi thứ đều hoạt động như mong đợi.

Cách cài đặt QwQ-32B trên Linux

Cách cài đặt QwQ-32B trên Linux


Đối với người dùng Linux, đặc biệt là những người trên Ubuntu hoặc Debian, đây là quy trình đơn giản:

Bước 1: Cập nhật và cài đặt các phụ thuộc

Mở Terminal của bạn và chạy:

sudo apt update && sudo apt install -y curl nvidia-driver-535

Lệnh này sẽ cập nhật hệ thống của bạn và cài đặt các driver NVIDIA cần thiết.

Bước 2: Cài đặt Ollama

Kế tiếp, cài đặt Ollama bằng cách chạy:

https://ollama.com/install.sh

Bước 3: Kích hoạt dịch vụ Ollama

Kích hoạt và bắt đầu dịch vụ Ollama cho người dùng của bạn với:

systemctl — user enable ollama && systemctl — user start ollama

Bước 4: Xác minh tăng tốc GPU

Để đảm bảo GPU của bạn được cài đặt đúng cách, hãy gõ:

nvidia-smi

Lệnh này sẽ hiển thị mức sử dụng GPU của bạn, chỉ ra rằng mô hình sẽ có đủ tài nguyên cần thiết.

Tùy chọn: Thiết lập giao diện web với Docker

Nếu bạn muốn một giao diện đồ họa giống như ChatGPT thay vì sử dụng dòng lệnh, bạn có thể thiết lập một web UI bằng Docker. Cách tiếp cận này hơi kỹ thuật hơn nhưng chỉ cần thực hiện một lần.

Bước 1: Cài đặt Docker Desktop

Tải xuống và cài đặt Docker Desktop từ trang web của Docker.

Bước 2: Chạy Container Open WebUI

Trong Terminal của bạn, chạy:

docker run -d -p 8080:8080 — gpus all -v ollama:/root/.ollama -v open-webui:/app/backend/data — name open-webui — restart always ghcr.io/open-webui/open-webui:main

Lệnh này sẽ kéo container, thiết lập quyền truy cập GPU và ánh xạ các volumes cần thiết. Khi hoàn tất, mở trình duyệt web của bạn và điều hướng đến http://localhost:8080. Bạn sẽ thấy một giao diện giống như ChatGPT nơi bạn có thể tương tác với mô hình cục bộ của mình.

Lựa chọn đám mây cho phần cứng yếu

Nếu máy tính của bạn không đáp ứng các thông số yêu cầu, hãy xem xét một lựa chọn đám mây. Ví dụ, NodeShift cung cấp các phiên bản GPU:

  1. Đăng ký tại NodeShift và tạo một tài khoản.
  2. Khởi chạy một phiên bản GPU với GPU A100 hoặc A6000.
  3. Cài đặt QwQ-32B bằng cách sử dụng Auto-Installer:
curl -sL nodeshift.com/qwq32b-install | bash

Điều này thiết lập QwQ-32B trên một phiên bản đám mây, cho phép bạn bỏ qua các hạn chế phần cứng trong khi vẫn tận hưởng quyền điều khiển giống như cục bộ.

Tinh chỉnh và tùy chỉnh

Ngay khi mô hình của bạn hoạt động, bạn có thể tinh chỉnh nó để phù hợp với nhu cầu của bạn. Ví dụ, bạn có thể tạo một phiên bản tùy chỉnh của QwQ-32B với tập dữ liệu riêng của mình:

ollama create qwq-custom -f Modelfile

Để nhận thêm hướng dẫn, hãy khám phá kho Hugging Face chính thức của Alibaba nơi bạn sẽ tìm thấy các cấu hình mẫu và đóng góp từ cộng đồng.

Tổng hợp lại

Chạy QwQ-32B cục bộ không chỉ là một bài tập kỹ thuật — nó là một cánh cửa để khai thác AI cấp doanh nghiệp trên phần cứng của chính bạn. Hướng dẫn này đã đề cập đến các yếu tố cơ bản cho Windows, macOS và Linux, cùng với các mẹo về việc thiết lập giao diện web và thậm chí là các lựa chọn đám mây cho những người không có phần cứng cao cấp.

Hãy tưởng tượng sự tự do khi có thể chạy mô hình AI ngoại tuyến, phân tích riêng tư tài liệu của chính mình và thử nghiệm với các mô hình khác nhau chỉ từ máy tính của bạn. Và hãy nhớ rằng, quy trình đơn giản tương tự có thể được sử dụng để cài đặt bất kỳ mô hình nào có sẵn trên Ollama. Dù bạn đang làm việc với QwQ-32B, Llama 3, Mistol hay bất kỳ mô hình nào khác, các bước vẫn tương tự đáng kể.

Nếu bạn muốn thử nghiệm những khả năng thú vị này, đừng quên khám phá Anakin AI. Với quyền truy cập vào toàn bộ bộ các mô hình tiên tiến như QwQ-32B, DeepSeek-R1, GPT-4o, Clause 3.7, và nhiều hơn nữa, Anakin AI là trung tâm tối ưu cho đổi mới AI tiên tiến.


Một lời cuối: Nắm bắt sức mạnh của AI cục bộ

Khi chúng ta tiến sâu hơn vào năm 2025, bức tranh AI đang phát triển nhanh chóng. Chạy các mô hình như QwQ-32B cục bộ mang đến cho bạn quyền riêng tư, tiết kiệm chi phí và tự do đổi mới mà không có giới hạn. Dù bạn là một nhà phát triển dày dạn kinh nghiệm hay chỉ mới bắt đầu, việc thiết lập môi trường AI cục bộ của riêng bạn mở ra một thế giới những khả năng sáng tạo.

Vậy tại sao phải chờ đợi? Hãy nhảy vào, làm theo hướng dẫn này và cài đặt QwQ-32B trên máy tính của bạn hôm nay. Và nếu bạn muốn khám phá một loạt mô hình AI rộng lớn hơn, Anakin AI đang chờ đón bạn — với một kho tàng các công cụ mạnh mẽ sẵn sàng biến ý tưởng của bạn thành hiện thực.

Chúc bạn thí nghiệm vui vẻ, và mong rằng trong tương lai mọi người đều có thể tiếp cận AI tiên tiến — ngay từ sự thoải mái của chính ngôi nhà của bạn!