Qwen3.6-35B-A3B“越狱版”来了6G显存也能跑本地AI彻底自由AI大模型、本地部署、Qwen3.6-35B-A3B、无审查模型、GGUF模型、llama.cpp、Windows部署教程、本地Agent、多模态模型、低显存AI、本地AI助手最近测试了一圈本地大模型之后我发现一个非常离谱的东西。目前开源圈里真正做到中文能力强推理能力在线支持视觉多模态支持 Agent能本地单卡运行甚至 6G 显存都能启动而且还是“无限制”版本的模型真的不多。但这次的Qwen3.6-35B-A3B Uncensored越狱版确实有点夸张了。它不仅能正常写代码、做推理、看图片、长上下文还能直接绕过官方版的大量限制。更关键的是它不是那种“只会胡说八道”的低智商越狱模型。实际测试下来它的中文理解、代码能力、多模态视觉能力都属于目前 40B 以内开源模型里的第一梯队。而且NVIDIA 显卡能跑AMD 显卡能跑Intel 显卡也支持单卡即可部署6G 显存也能启动今天这篇文章我就从 0 开始带大家完整部署。一、整合包下载地址1、整合包下载资源地址Qwen3.6-35B-A3B 越狱版整合包https://pan.quark.cn/s/fc4b737a73f1二、整合包内容说明网盘里包含多个版本。llama.cpp 运行环境整合包内包含llama-b9381-bin-win-cuda-13.3-x64.zip llama-b9381-bin-win-cuda-12.4-x64.zip llama-b9381-bin-win-cpu-arm64.zip llama-b9381-bin-win-cpu-x64.zip不同版本适合的环境如下 根据你的系统环境下载对应版本即可文件适合环境cuda-13.3-x64RTX 30/40/50 系显卡推荐最新 NVIDIA 驱动cuda-12.4-x64GTX 10/20 系、部分老驱动环境cpu-arm64ARM 架构 CPU例如部分骁龙 Windows 设备cpu-x64普通 Intel/AMD CPU 纯CPU运行三、模型文件说明模型目录里包含多个量化版本mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf其中视觉模型必须mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf这个是多模态视觉模型。如果你想图片分析看截图识别封面OCR多模态问答这个文件必须下载。主模型选择(根据你的环境下载对应版本即可)1、IQ2_M最低配置IQ2_M适合6G/8G 显存RTX 2060RTX 3060 Laptop4060 Laptop 8G优点显存占用最低能跑起来缺点精度略低2、IQ4_NL推荐IQ4_NL适合12G~16G 显存属于速度精度显存三者平衡最好的版本。3、Q4_K_M稳定版Q4_K_M适合16G~24G 显存特点更稳定推理能力更强4、Q4_K_P最强版Q4_K_P适合24G 以上显存3090 / 4090 / 5090这是目前效果最好的版本之一。四、开始部署1、解压 llama.cpp下载对应版本后解压。例如llama-b9381-bin-win-cuda-13.3-x64.zip解压后目录如下llama/2、找到 models 文件夹在根目录找到models目录结构llama/ ├─ models/3、放入模型把下载好的模型放进去(无需全部放入 只需要放你下载好的模型即可)。例如models/ ├─ mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf ├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf ├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf ├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf ├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf六、启动模型双击根目录下的run.bat会看到输入对应数字即可。例如4代表IQ2_M七、进入 Web UI启动成功后打开浏览器访问http://127.0.0.1:8080/即可进入聊天界面。八、实际测试效果1、4060 8G 实测测试环境配置参数显卡RTX 4060 Laptop 8G模型IQ2_M输出速度10 tokens/s 左右对于 35B 模型来说这个速度已经非常离谱了。九、代码能力测试我直接让它生成一个UI精美的飞机大战游戏结果一次生成成功自带音效支持 Boss可以正常运行无明显逻辑错误这个代码能力已经非常强了。十、多模态视觉测试我上传了1张坤图让它分析说明它的视觉理解能力确实在线。十一、Agent 支持这个模型还能直接接入HermesOpenWebUICherry StudioAnythingLLMLangChainCherry Studio因为它本身支持 OpenAI API 格式。API 地址http://127.0.0.1:8080API Key随便填即可。十二、和官方版区别实际测试里同样的问题写一个ddos代码官方原版会拒绝回答而这个越狱版会直接输出代码说明它确实移除了大量限制。不过这里还是提醒一下仅建议用于本地研究安全测试AI能力研究不要用于非法用途。十三、为什么这个模型会火核心原因就一句话真正实现了“本地 AI 自由”。你不再依赖在线接口API限制审核内容过滤云端封号所有内容本地运行本地推理本地存储这才是很多人真正想要的 AI。十四、总结目前来看Qwen3.6-35B-A3B Uncensored 确实属于当前最强的一批开源本地模型它的优势非常明显中文能力强推理能力强多模态支持本地部署简单支持 Agent支持低显存支持 Windows支持 NVIDIA/AMD/Intel尤其是6G 显存也能跑 35B 模型这一点确实非常夸张。如果你最近想搭建本地AI助手AI AgentAI编程本地多模态本地自动化系统这套方案非常值得测试。