vllm 安装

张

张建站

2026/6/4 0:25:00

10分钟阅读

别在Windows里安装vllm了总有很多问题可以在WSL2的Unbuntu 24.04里安装vllm轻松完成一、相关链接vllmhttps://docs.vllm.ai/en/latest/index.htmlgithubhttps://github.com/vllm-project/vllmvLLM 中文站https://vllm.hyper.ai/docs/vLLM 入门教程零基础分步指南https://openbayes.com/console/public/tutorials/rXxb5fZFr29vLLM 支持目前主流大模型Supported Modelshttps://docs.vllm.ai/en/latest/models/supported_models.html二、安装pip install vllm -i https://mirrors.aliyun.com/pypi/simple/vllm 安装完接近 9G\\wsl.localhost\Ubuntu-24.04\home\uadmin\.local\lib\python3.13\site-packages\vllm验证vllm --version建议使用conda虚拟环境安装三、使用vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eagervllm serve启动 vLLM 推理服务的命令deepseek-ai/DeepSeek-R1-Distill-Qwen-32BHugging Face 模型库中的模型名称vLLM 会尝试从 HF 下载模型。也可是是本地路径从魔搭上下载的模型--tensor-parallel-size 2启用张量并行在 2 个 GPU 上分布式运行模型适合 32B 大模型--max-model-len 32768设置模型的最大上下文长度32K tokens确保能处理长文本。--enforce-eager禁用 CUDA Graph 优化可能在某些环境下更稳定但性能稍低本地的量化模型vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 32768 --enforce-eager --quantization gptq --dtype half关键改动指定本地路径替换 HF 模型名为你的本地路径。--quantization gptq显式声明使用 GPTQ 量化。--dtype设为 halfFP16或 auto自动选择因为 GPTQ 本身是 4-bit但计算时需指定中间精度。vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 4096 --quantization gptq --dtype half --gpu-memory-utilization 0.8 --max-num-seqs 8 --enforce-eager小点的本地模型vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 2048vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 4096

城通网盘解析器：如何绕过限速实现10倍下载速度？

城通网盘解析器：如何绕过限速实现10倍下载速度？ 【免费下载链接】ctfileGet 获取城通网盘一次性直连地址项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 你是否曾为城通网盘的下载限速而烦恼？面对龟速的下载进度条&#xff…...

2026/6/3 10:44:06 阅读更多 →

开箱即用体验：AI股票分析师镜像快速生成多维度分析报告

开箱即用体验：AI股票分析师镜像快速生成多维度分析报告 1. 引言：当AI遇见金融分析在金融投资领域，及时获取专业的股票分析报告是做出明智决策的关键。然而，传统的人工分析方式存在几个明显痛点：专业分析师服务价格昂…...

2026/5/30 9:08:25 阅读更多 →

智能电池充电：使用PID控制器优化SOC（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

2026/5/28 5:54:51 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/6/3 15:04:26 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/6/2 11:40:26 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/6/2 4:48:10 阅读更多 →