想象一下如果你能克隆任何人的声音只需几秒钟的音频样本就能让 AI 用这个声音说出任何语言的内容——而这一切都运行在你自己的电脑上完全免费数据永远不会离开你的机器。这不是科幻小说而是今天我要分享的开源项目Voicebox能做到的事情。 为什么要关注 Voicebox如果你用过 ElevenLabs 的语音合成或者体验过 WisprFlow 的语音输入你会发现它们各有短板一个擅长语音输出一个专注语音输入但都需要付费而且数据都要上传到云端。Voicebox 把这两项功能合二为一加上本地运行的隐私优势直接成为了 ElevenLabs 的开源平替版本。 末尾可获取该项目的下载地址继续往下看核心功能一览1️⃣ 零样本语音克隆上传 3-5 秒的音频样本Voicebox 就能捕捉到声音特征然后用这个克隆声音朗读你提供的任何文本。支持 23 种语言从英语、中文到阿拉伯语、日语、印地语覆盖全球主要语种。2️⃣ 七大 TTS 引擎任你选Voicebox 内置了 7 个不同的语音合成引擎每个都有自己的专长Qwen3-TTS高质量多语言克隆支持说慢点、耳语等语气指令Qwen CustomVoice9 个精选预设声音无需参考音频就能用LuxTTS超轻量级仅占 1GB 显存CPU 上也能跑 150 倍实时速度Chatterbox Multilingual支持语言最广23 种语言全覆盖Chatterbox Turbo支持 [笑]、[叹气]、[喘息] 等情感标签HumeAI TADA能生成 700 秒以上的连贯音频Kokoro82M 超小模型提供 50 个精选预设声音3️⃣ 全局语音输入设置一个快捷键在任何应用中都能按住说话松开后自动转录成文字粘贴到当前输入框。Mac 上通过了无障碍认证体验非常流畅。如果你是开发者这个功能特别实用——在 VS Code 里写代码时直接按快捷键说出需求文字自动出现继续编辑就行。4️⃣ AI 语音助手集成Voicebox 内置了 MCP 服务器任何支持 MCP 协议的 AI 客户端Claude Code、Cursor、Cline 等都能直接调用它的语音功能。想象一下这个场景你让 AI 帮你写代码AI 不是用文字回复而是用你克隆的声音直接说给你听。5️⃣ 个性化语音角色为每个语音配置绑定一个性格描述然后用绑定的本地 LLM 进行文本重写。开启角色扮演模式后AI 会用符合这个角色的语气和风格改写你的输入再用对应的声音读出来。创作对话、游戏配音、播客制作时这个功能太强大了。技术架构亮点Voicebox 不是用 Electron 做的而是用Tauri (Rust)构建原生应用这意味着更小的内存占用和更好的性能。后端采用 FastAPI (Python)前端用 React TypeScript状态管理用 Zustand 和 React Query。整个技术栈非常现代开源社区友好。平台支持macOS (Apple Silicon)使用 MLX 框架通过 Neural Engine 加速速度提升 4-5 倍Windows / Linux (NVIDIA)PyTorch CUDA应用内自动下载 CUDA 运行时Linux (AMD)PyTorch ROCm自动配置 HSA_OVERRIDE_GFX_VERSIONWindows (任意 GPU)DirectML通用支持Intel ArcIPEX/XPU 加速纯 CPU 模式任何设备都能运行就是慢点实际应用场景内容创作者录制播客、有声书、视频配音用克隆的声音保持一致性配合 8 种音频后处理效果音调偏移、混响、延迟、合唱等专业度直接拉满。开发者给 AI Agent 加上语音输出用户提问后AI 用自然语音回答不再是冷冰冰的文字。Voicebox 提供了完整的 REST API集成到自己的应用非常方便。辅助功能对于有语言障碍的用户Voicebox 可以帮助他们用自己的声音重新说话。预先录制好自己的声音样本就能用文字输入生成语音输出。开源协议MIT License完全免费商业使用也没问题。项目在 GitHub 上已有 1.6k Stars社区活跃更新频繁。竞争对手对比功能VoiceboxElevenLabsWisprFlow价格完全免费按使用量付费订阅制数据隐私本地运行云端处理云端处理语音输入✅ 支持❌ 不支持✅ 支持语音输出✅ 支持✅ 支持❌ 不支持开源✅ MIT❌ 闭源❌ 闭源离线使用✅ 支持❌ 不支持❌ 不支持未来规划根据项目的 Roadmap这些功能正在开发中Windows / Linux 自动粘贴功能追平 macOS 体验更多语音识别引擎Parakeet v3、Qwen3-ASR支持 50 语言流式实时转录WebSocket 接口端到端语音 LLMMoshi、GLM-4-Voice、Qwen2.5 Omni文字描述生成声音Voice Design双流录制器麦克风 系统音频插件架构支持自定义模型和转换器安装使用macOS 用户# Apple Silicon 下载 DMG 文件直接安装 # Intel Mac 也有对应的 DMG 安装包Windows 用户# 下载 MSI 安装包 双击运行即可Docker 部署docker compose up开发者本地构建git clone https://github.com/jamiepine/voicebox.git cd voicebox just setup # 创建 Python 虚拟环境安装依赖 just dev # 启动后端 桌面应用小结Voicebox 是目前最完整的开源 AI 语音解决方案之一。它不仅提供了商业级的功能语音克隆、多语言支持、情感标签更重要的是坚持本地优先的隐私理念所有数据都在你的机器上处理。如果你在寻找 ElevenLabs 的免费替代品或者想给 AI 项目加上语音功能Voicebox 值得一试。