昇腾 910B 上部署 Qwen3.6（vLLM-Ascend）

张

张建站

2026/4/29 20:35:21

10分钟阅读

昇腾 910B 上部署 Qwen3.6vLLM-Ascend1️⃣ 环境说明1.1 硬件环境NPUAscend 910BA2 架构多卡如 8 卡davinci0~71.2 软件环境操作系统openEulerCANN8.5.0推理框架vLLMAscend 版本1.3 模型模型Qwen3.6-35B-A3B本地路径示例/data/yourproject/models/qwen3.6-35b-a3bhuggingface-cli download Qwen/Qwen3.6-35B-A3B\--local-dir /data/yourproject/models/qwen3.6-35b-a3b2️⃣ 镜像选择❗ 必须匹配 NPU 架构NPU镜像A2 910/910Bdocker pull quay.io/ascend/vllm-ascend:v0.18.0rc1-openeulerA3docker pull quay.io/ascend/vllm-ascend:v0.18.0rc1-a3-openeuler3️⃣ 启动容器✅ 推荐命令标准版dockerrun-it\--nameqwen3_6_vllm\--privileged\--shm-size64g\-v/usr/local/Ascend:/usr/local/Ascend\-v/dev:/dev\-v/data/yourproject/models/qwen3.6-35b-a3b:/models\-v/data/yourproject:/workspace\-p8010:8010\quay.io/ascend/vllm-ascend:v0.18.0rc1-openeuler\Bash 参数说明--device映射 NPU例如--device /dev/davinci0但建议直接-v /dev:/dev-v /usr/local/Ascend挂载驱动/CANN--shm-size64g避免大模型 OOM/models模型目录/workspace项目目录--privileged避免权限问题4️⃣ Ascend 环境变量动态库问题排查Ascend 推理环境本质上是一个分层运行时体系1. CANN基础执行层 2. ATB算子优化层 3. 推理引擎MindIE / vLLM 等问题本质常见报错ImportError: libascend_hal.so: cannot open shared object fileOSError: libatb.so: cannot open shared object file 本质原因动态库路径LD_LIBRARY_PATH未正确配置❗ 问题1CANN 版本路径不一致实际/usr/local/Ascend/cann-8.5.0脚本引用cann-8.5.1✅ 方案1临时验证ln-s/usr/local/Ascend/cann-8.5.0 /usr/local/Ascend/cann-8.5.1⚠️ 不推荐长期使用可能存在ABI风险✅ 方案2推荐统一环境变量exportASCEND_HOME/usr/local/AscendexportASCEND_TOOLKIT_HOME$ASCEND_HOME/cann-8.5.0❗ 问题2动态库找不到核心问题✅ 一次性修复推荐exportASCEND_HOME/usr/local/AscendexportASCEND_TOOLKIT_HOME$ASCEND_HOME/cann-8.5.0exportLD_LIBRARY_PATH\$ASCEND_HOME/driver/lib64:\$ASCEND_HOME/driver/lib64/driver:\$ASCEND_TOOLKIT_HOME/lib64:\$ASCEND_TOOLKIT_HOME/lib64/plugin/opskernel:\$ASCEND_HOME/nnal/atb/latest/atb/cxx_abi_1/lib:\$LD_LIBRARY_PATH5️⃣ 启动 vLLM 推理服务启动命令vllm serve /models\--served-model-name qwen3.6\--host0.0.0.0\--port8010\--tensor-parallel-size2\--max-model-len8192\--trust-remote-code\--async-scheduling 参数说明--tensor-parallel-size并行卡数--max-model-len上下文长度--async-scheduling提升吞吐指定卡在启动前exportASCEND_VISIBLE_DEVICES0,16️⃣ 测试接口curlhttp://localhost:8010/v1/completions\-HContent-Type: application/json\-d{ prompt: The future of AI is, max_tokens: 100 }多模态请求curlhttp://localhost:8010/v1/completions\-HContent-Type: application/json\-d{ model: qwen3.6, messages: [ {role: system, content: You are a helpful assistant.}, {role: user, content: [ {type: image_url, image_url: {url: https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png}}, {type: text, text: What is the text in the illustrate?} ]} ] }7️⃣ 性能优化建议https://modelscope.cn/models/Qwen/Qwen3.6-35B-A3B

企业级安全设计：OS Keychain、输入注入防护与高危操作确认

摘要：当AI Agent获得操控企业数据的权限时，安全不再是可选项。本文深入 lark-cli 的安全体系，从 internal/keychain/ 的跨平台凭证存储到 internal/cmdutil/secheader.go 的安全头注入，从输入注入防护到高危操作的 --yes 确认机制…...

2026/4/29 20:28:23 阅读更多 →

别再只抄代码了！手把手教你用逻辑分析仪调试STM32与DS1302的SPI时序

用30元逻辑分析仪破解STM32与DS1302的SPI通信之谜当你的STM32与DS1302实时时钟芯片的通信出现问题时，盲目修改代码往往事倍功半。本文将带你用一款仅30元的8通道逻辑分析仪，深入剖析SPI-like通信协议的每一个细节，从硬件层面验证时序的正确性…...

2026/4/29 20:22:56 阅读更多 →

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案【免费下载链接】baidu-wenku fetch the document for free 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wenku 在信息获取过程中，百度文库的付费门槛、广告干扰和内容加载限…...

2026/4/29 2:05:35 阅读更多 →

zmq源码分析之DEALER/ROUTER 路由机制的应用场景

文章目录 1. 服务集群与负载均衡 2. 消息代理与路由器 3. 异步 RPC 系统 4. 聊天服务器 5. 游戏服务器 6. 金融交易系统 7. 物联网系统 8. 微服务架构代码示例：服务集群负载均衡器 (ROUTER) 服务实例 (DEALER) 客户端总结 DEALER/ROUTER 模式凭借其强大的路由能力和异步特性…...

2026/4/29 9:50:38 阅读更多 →

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案【免费下载链接】Windows11DragAndDropToTaskbarFix "Windows 11 Drag & Drop to the Taskbar (Fix)" fixes the missing "Drag & Drop to the Taskbar" support in Windows…...

2026/4/29 12:15:16 阅读更多 →