2026年4月Google DeepMind 发布了 Gemma 4 模型家族这是继 Gemma 3 之后又一次重大升级。本次发布的最大亮点是采用了 Apache 2.0 开源协议——终于商用无障碍没有合成数据限制也没有使用场景约束。四个版本覆盖了从移动设备到服务器的全场景需求31B 版本更是登上了 Arena AI 开源排行榜前三AIME 2026 数学基准达到 89.2%相比上代提升超过四倍。本文详细介绍如何将这些模型部署到本地环境。先搞明白四个型号怎么选你的电脑能不能跑型号4-bit8-bitBF16E2B4 GB5-8 GB10 GBE4B5.5-6 GB9-12 GB16 GB26B-A4B16-18 GB28-30 GB52 GB31B17-20 GB34-38 GB62 GB提示总内存RAM 显存应至少超过量化模型大小。如果内存紧张优先选择更小的量化版本。三种部署方式对比方式一Ollama最简单Ollama 是目前最流行的本地 LLM 运行工具支持一键下载和运行模型跨平台支持 Windows、macOS、LinuxAPI 兼容 OpenAI 格式。安装 Ollama# macOS 和 Linux curl -fsSL https://ollama.ai/install.sh | sh # Windows 访问ollama.com/download运行 Gemma 4# 根据内存选择版本 ollama run gemma:2b # E2B4GB ollama run gemma:4b # E4B6GB ollama run gemma:27b # 26B MoE18GB ollama run gemma:31b # 31B20GBAPI 调用curl http://localhost:11434/api/generate -d { model: gemma:2b, prompt: 用一句话解释大语言模型, stream: false }方式二llama.cpp性能更优如果你对推理性能有更高要求或者需要 GPU 加速llama.cpp 是更好的选择。它是纯 C/C 实现内存占用更低支持 CUDA 加速。编译 llama.cpp# 安装依赖 apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y # 克隆并编译GPU 版本 git clone https://github.com/ggml-org/llama.cpp cd llama.cpp cmake -B build -DBUILD_SHARED_LIBSOFF -DGGML_CUDAON cmake --build build --config Release -j --clean-first --target llama-cli llama-server # CPU 版本改为 -DGGML_CUDAOFF下载并运行# 下载 Unsloth 优化的 GGUF 模型 pip install huggingface_hub hf_transfer huggingface-cli download unsloth/gemma-4-26B-A4B-it-GGUF \ --local-dir ./models/gemma-4-26B-A4B-it-GGUF \ --include *UD-Q4_K_XL* # 运行推理 ./llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \ --temp 1.0 --top-p 0.95 --top-k 64方式三Mac MLX苹果芯片专用如果你使用的是 Apple Silicon MacM1/M2/M3/M4/M5 芯片可以用 MLX 框架获得原生加速。Ollama 底层其实也是调用 MLX但这种方式可以更灵活地控制参数。# 安装 MLX 版本 curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/main/install_gemma4_mlx.sh | sh source ~/.unsloth/unsloth_gemma4_mlx/bin/activate # 运行模型 python -m mlx_lm chat --model unsloth/gemma-4-E4B-it-UD-MLX-4bit python -m mlx_lm chat --model unsloth/gemma-4-31b-it-MLX-8bitApple Silicon Mac 上的 MLX 加速体验型号4-bit8-bit31Bgemma-4-31b-it-UD-MLX-4bitgemma-4-31b-it-MLX-8bit26B-A4Bgemma-4-26b-a4b-it-UD-MLX-4bitgemma-4-26b-a4b-it-MLX-8bitE4Bgemma-4-E4B-it-UD-MLX-4bitgemma-4-E4B-it-MLX-8bitE2Bgemma-4-E2B-it-UD-MLX-4bitgemma-4-E2B-it-MLX-8bit推荐参数配置⚠️注意不要使用 CUDA 13.2 运行时运行 GGUF会导致输出质量差。思考模式Thinking ModeGemma 4 支持 Chain-of-Thought 思考模式会在回答前先展示推理过程。# 启用思考模式 |think| You are a precise reasoning assistant. # 禁用思考 --chat-template-kwargs {enable_thinking:false}多模态能力E2B、E4B、26B-A4B 支持图片输入31B 暂不支持视觉功能。llama.cpp 运行多模态需要同时加载主模型和视觉投影器./llama-cli \ --model ./models/gemma-4-26B-A4B-it-GGUF/UD-Q4_K_XL.gguf \ --mmproj ./models/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \ --temp 1.0 --top-p 0.95快速对照表场景推荐方案最低内存新手尝鲜Ollama4 GBMac 用户MLX8 GB追求性能llama.cpp CUDA16 GB满血体验llama.cpp 31B20 GB