45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务
今天凌晨,阿里通義團隊正式發布了 Qwen3,涵蓋六款 Dense 模型(0.6B、1.7B、4B、8B、14B、32B)和兩款 MoE 模型(30B-A3B 和 235B-A22B)。其中的旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中,與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比,表現出了強大的競爭力。小型 MoE 模型 Qwen3-30B-A3B 的激活參數是 QwQ-32B 的 10%,但表現更勝一籌,由于激活參數少,推理速度更快。甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。
GPUStack 在上周發布了 v0.6 版本,內置支持了 Qwen3。其中 NVIDIA 支持 vLLM 和 llama-box 運行,AMD、Apple Silicon、昇騰、海光、摩爾線程支持 llama-box 運行。今天一早,社區群的各位小伙伴已經開始在各種嘗試 Qwen3,我們也帶來一篇挑戰 45 分鐘從零搭建私有 MaaS 平臺和生產級的 Qwen3 模型服務的文章,快速搭建和體驗 Qwen3 模型。
GPUStack 是一個100%開源的模型服務平臺,支持 Linux、Windows 和 macOS,支持 NVIDIA、AMD、Apple Silicon、昇騰、海光、摩爾線程等 GPU 構建異構 GPU 集群,支持 LLM、多模態、Embedding、Reranker、圖像生成、Speech-to-Text 和 Text-to-Speech 模型,支持 vLLM、MindIE、llama-box(基于 llama.cpp 與 stable-diffusion.cpp)等多種推理引擎與推理引擎多版本并行,支持資源自動調度分配、模型故障自動恢復、多機分布式推理、混合異構推理、推理請求負載均衡、資源與模型監控指標觀測、國產化支持、用戶管理與 API 認證授權等各種企業級特性,提供 OpenAI 兼容 API 無縫接入 Dify、RAGFlow、FastGPT、MaxKB 等各種上層應用框架,是企業建設模型服務平臺的理想選擇。
本篇文章將介紹在一節課 45 分鐘內(包括安裝和模型下載)搭建 GPUStack 模型服務平臺并通過 GPUStack 運行生產級的 Qwen3 模型服務。
計時開始:
前置準備
以下操作環境為一臺阿里云 ECS 云主機,操作系統為
Ubuntu 22.04,GPU 為 NVIDIA A10,操作依賴良好的網絡條件。其他操作系統的安裝參考每個章節的文檔鏈接。
驗證當前環境的 NVIDIA GPU 硬件:
lspci | grep -i nvidia
驗證系統已安裝 GCC:
gcc --version
安裝 NVIDIA 驅動
參考:https://developer.nvidia.com/datacenter-driver-downloads
為當前內核安裝內核頭文件和開發包:
sudo apt-get update && sudo apt-get install linux-headers-$(uname -r)
安裝 cuda-keyring 包:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
安裝 NVIDIA 驅動:
sudo apt-get update && sudo apt-get install nvidia-open -y
重啟系統:
sudo reboot
重新登錄并檢查 nvidia-smi 命令可用:
nvidia-smi
耗時:3m
安裝 Docker Engine
參考:https://docs.docker.com/engine/install/ubuntu/
執行以下命令卸載所有沖突的包:
for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done
設置 Docker 的 apt 倉庫:
# Add Docker's official GPG key:
sudo apt-get update
sudo apt-get install ca-certificates curl -y
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc
# Add the repository to Apt sources:
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update
安裝 Docker:
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y
檢查 docker 命令可用:
sudo docker info
耗時:1m
安裝 NVIDIA Container Toolkit
參考:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
配置 NVIDIA Container Toolkit 的生產倉庫:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
安裝 NVIDIA Container Toolkit:
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
使用 nvidia-ctk 命令配置容器運行時:
sudo nvidia-ctk runtime configure --runtime=docker
檢查 daemon.json 文件的配置:
vim /etc/docker/daemon.json
加入 "exec-opts": ["native.cgroupdriver=cgroupfs"] 配置,避免NVIDIA Container Toolkit 的 Failed to initialize NVML: Unknown Error 容器掉卡問題(參考:https://docs.gpustack.ai/latest/installation/nvidia-cuda/online-installation/#prerequisites_1):
{
"runtimes": {
"nvidia": {
"args": [],
"path": "nvidia-container-runtime"
}
},
"exec-opts": ["native.cgroupdriver=cgroupfs"]
}
重啟 Docker daemon:
sudo systemctl restart docker
檢查 NVIDIA Container Runtime 配置是否生效:
docker info | grep -i runtime
耗時:1.5m
安裝 GPUStack
參考:https://docs.gpustack.ai/latest/installation/nvidia-cuda/online-installation/
通過 Docker 安裝 GPUStack:
docker run -d --name gpustack \
--restart=unless-stopped \
--gpus all \
--network=host \
--ipc=host \
-v gpustack-data:/var/lib/gpustack \
swr.cn-north-9.myhuaweicloud.com/gpustack/gpustack:v0.6.0
耗時:20m40s
檢查服務啟動:
docker logs -f gpustack
耗時:20s
使用以下命令查看登錄密碼:
docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password
在瀏覽器訪問 GPUStack( http://YOUR_HOST_IP )以用戶名 admin 和密碼登錄。設置密碼后,登錄進 GPUStack,查看識別到的 GPU 資源:
GPUStack 支持添加更多的 Worker 節點構建 GPU 集群,本文章不需要該部分,省略,有需要的參考上方的 GPUStack 官方安裝文檔。
部署 Qwen3
訪問 模型 菜單,選擇部署模型 - ModelScope,在 ModelScope 中搜索 Qwen 官方的 Qwen3 模型倉庫,我們的 GPU 是 NVIDIA A10,24G顯存。這里我們部署號稱能匹敵 Qwen2.5-72B-Instruct 性能的 Qwen3-4B 模型:
考慮需要部署生產級的 Qwen3 模型服務,因此使用 vLLM 后端來運行 Qwen3 模型:
等待模型下載:
耗時:14m
等待模型啟動完成:
確認模型正常 Running 后,在試驗場測試模型的生成效果:
問題測試:
挑戰完成,記錄時間:
總耗時:43m25s,其中包括:
- 容器鏡像下載耗時約 20m
- 模型文件下載耗時約 14m
- 安裝配置步驟耗時約 20m
按照以上步驟,我們已經完成在 45 分鐘內搭建 GPUStack 模型服務平臺并運行生產級的 Qwen3 模型服務。
目前 GPUStack 的 vLLM 后端和 llama-box 后端均已支持運行 Qwen3,在 Linux、Windows 和 macOS 上均可運行,歡迎體驗。
旗艦模型 Qwen3-235B-A22B 由于參數量比較大,還在下載中,針對部分用戶單機顯存資源無法運行的場景,我們將在下篇文章帶來通過多機分布式運行 Qwen3-235B-A22B 模型的教程。
通過以上步驟,我們已經演示了如何快速在 45 分鐘內搭建 GPUStack 模型服務平臺并通過 GPUStack 運行生產級的 Qwen3 模型服務,GPUStack 是一個100%開源的模型服務平臺,目前用戶遍布全球上百個國家,GPUStack 的目標是打造業界最好用的模型推理平臺,歡迎使用與反饋。如果你有任何建議或想法,歡迎隨時向我們提出,我們會認真評估并持續改進。
參與開源
想要了解更多關于 GPUStack 的信息,可以訪問我們的倉庫地址:https://github.com/gpustack/gpustack。如果你對 GPUStack 有任何建議,歡迎提交 GitHub issue。在體驗 GPUStack 或提交 issue 之前,請在我們的 GitHub 倉庫上點亮 Star ?關注我們,也非常歡迎大家一起參與到這個開源項目中!
如果覺得對你有幫助,歡迎點贊、轉發、關注。
總結
以上是生活随笔為你收集整理的45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: codeup之C语言11.1 + C语言
- 下一篇: C#网络编程(六)----Socket编