别在Windows里安装vllm了总有很多问题可以在WSL2的Unbuntu 24.04里安装vllm轻松完成一、相关链接vllmhttps://docs.vllm.ai/en/latest/index.htmlgithubhttps://github.com/vllm-project/vllmvLLM 中文站https://vllm.hyper.ai/docs/vLLM 入门教程零基础分步指南https://openbayes.com/console/public/tutorials/rXxb5fZFr29vLLM 支持目前主流大模型Supported Modelshttps://docs.vllm.ai/en/latest/models/supported_models.html二、安装pip install vllm -i https://mirrors.aliyun.com/pypi/simple/vllm 安装完接近 9G\\wsl.localhost\Ubuntu-24.04\home\uadmin\.local\lib\python3.13\site-packages\vllm验证vllm --version建议使用conda虚拟环境安装三、使用vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eagervllm serve启动 vLLM 推理服务的命令deepseek-ai/DeepSeek-R1-Distill-Qwen-32BHugging Face 模型库中的模型名称vLLM 会尝试从 HF 下载模型。也可是是本地路径从魔搭上下载的模型--tensor-parallel-size 2启用张量并行在 2 个 GPU 上分布式运行模型适合 32B 大模型--max-model-len 32768设置模型的最大上下文长度32K tokens确保能处理长文本。--enforce-eager禁用 CUDA Graph 优化可能在某些环境下更稳定但性能稍低本地的量化模型vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 32768 --enforce-eager --quantization gptq --dtype half关键改动指定本地路径替换 HF 模型名为你的本地路径。--quantization gptq显式声明使用 GPTQ 量化。--dtype设为 halfFP16或 auto自动选择因为 GPTQ 本身是 4-bit但计算时需指定中间精度。vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 4096 --quantization gptq --dtype half --gpu-memory-utilization 0.8 --max-num-seqs 8 --enforce-eager小点的本地模型vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 2048vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 4096