开源免费！这款 AI 语音工作室让 ElevenLabs 都感到压力

张

张建站

2026/5/26 21:51:20

10分钟阅读

想象一下如果你能克隆任何人的声音只需几秒钟的音频样本就能让 AI 用这个声音说出任何语言的内容——而这一切都运行在你自己的电脑上完全免费数据永远不会离开你的机器。这不是科幻小说而是今天我要分享的开源项目Voicebox能做到的事情。为什么要关注 Voicebox如果你用过 ElevenLabs 的语音合成或者体验过 WisprFlow 的语音输入你会发现它们各有短板一个擅长语音输出一个专注语音输入但都需要付费而且数据都要上传到云端。Voicebox 把这两项功能合二为一加上本地运行的隐私优势直接成为了 ElevenLabs 的开源平替版本。末尾可获取该项目的下载地址继续往下看核心功能一览1️⃣ 零样本语音克隆上传 3-5 秒的音频样本Voicebox 就能捕捉到声音特征然后用这个克隆声音朗读你提供的任何文本。支持 23 种语言从英语、中文到阿拉伯语、日语、印地语覆盖全球主要语种。2️⃣ 七大 TTS 引擎任你选Voicebox 内置了 7 个不同的语音合成引擎每个都有自己的专长Qwen3-TTS高质量多语言克隆支持说慢点、耳语等语气指令Qwen CustomVoice9 个精选预设声音无需参考音频就能用LuxTTS超轻量级仅占 1GB 显存CPU 上也能跑 150 倍实时速度Chatterbox Multilingual支持语言最广23 种语言全覆盖Chatterbox Turbo支持 [笑]、[叹气]、[喘息] 等情感标签HumeAI TADA能生成 700 秒以上的连贯音频Kokoro82M 超小模型提供 50 个精选预设声音3️⃣ 全局语音输入设置一个快捷键在任何应用中都能按住说话松开后自动转录成文字粘贴到当前输入框。Mac 上通过了无障碍认证体验非常流畅。如果你是开发者这个功能特别实用——在 VS Code 里写代码时直接按快捷键说出需求文字自动出现继续编辑就行。4️⃣ AI 语音助手集成Voicebox 内置了 MCP 服务器任何支持 MCP 协议的 AI 客户端Claude Code、Cursor、Cline 等都能直接调用它的语音功能。想象一下这个场景你让 AI 帮你写代码AI 不是用文字回复而是用你克隆的声音直接说给你听。5️⃣ 个性化语音角色为每个语音配置绑定一个性格描述然后用绑定的本地 LLM 进行文本重写。开启角色扮演模式后AI 会用符合这个角色的语气和风格改写你的输入再用对应的声音读出来。创作对话、游戏配音、播客制作时这个功能太强大了。技术架构亮点Voicebox 不是用 Electron 做的而是用Tauri (Rust)构建原生应用这意味着更小的内存占用和更好的性能。后端采用 FastAPI (Python)前端用 React TypeScript状态管理用 Zustand 和 React Query。整个技术栈非常现代开源社区友好。平台支持macOS (Apple Silicon)使用 MLX 框架通过 Neural Engine 加速速度提升 4-5 倍Windows / Linux (NVIDIA)PyTorch CUDA应用内自动下载 CUDA 运行时Linux (AMD)PyTorch ROCm自动配置 HSA_OVERRIDE_GFX_VERSIONWindows (任意 GPU)DirectML通用支持Intel ArcIPEX/XPU 加速纯 CPU 模式任何设备都能运行就是慢点实际应用场景内容创作者录制播客、有声书、视频配音用克隆的声音保持一致性配合 8 种音频后处理效果音调偏移、混响、延迟、合唱等专业度直接拉满。开发者给 AI Agent 加上语音输出用户提问后AI 用自然语音回答不再是冷冰冰的文字。Voicebox 提供了完整的 REST API集成到自己的应用非常方便。辅助功能对于有语言障碍的用户Voicebox 可以帮助他们用自己的声音重新说话。预先录制好自己的声音样本就能用文字输入生成语音输出。开源协议MIT License完全免费商业使用也没问题。项目在 GitHub 上已有 1.6k Stars社区活跃更新频繁。竞争对手对比功能VoiceboxElevenLabsWisprFlow价格完全免费按使用量付费订阅制数据隐私本地运行云端处理云端处理语音输入✅ 支持❌ 不支持✅ 支持语音输出✅ 支持✅ 支持❌ 不支持开源✅ MIT❌ 闭源❌ 闭源离线使用✅ 支持❌ 不支持❌ 不支持未来规划根据项目的 Roadmap这些功能正在开发中Windows / Linux 自动粘贴功能追平 macOS 体验更多语音识别引擎Parakeet v3、Qwen3-ASR支持 50 语言流式实时转录WebSocket 接口端到端语音 LLMMoshi、GLM-4-Voice、Qwen2.5 Omni文字描述生成声音Voice Design双流录制器麦克风系统音频插件架构支持自定义模型和转换器安装使用macOS 用户# Apple Silicon 下载 DMG 文件直接安装 # Intel Mac 也有对应的 DMG 安装包Windows 用户# 下载 MSI 安装包双击运行即可Docker 部署docker compose up开发者本地构建git clone https://github.com/jamiepine/voicebox.git cd voicebox just setup # 创建 Python 虚拟环境安装依赖 just dev # 启动后端桌面应用小结Voicebox 是目前最完整的开源 AI 语音解决方案之一。它不仅提供了商业级的功能语音克隆、多语言支持、情感标签更重要的是坚持本地优先的隐私理念所有数据都在你的机器上处理。如果你在寻找 ElevenLabs 的免费替代品或者想给 AI 项目加上语音功能Voicebox 值得一试。

用 Fail2ban 自动封禁 SSH 暴力破解 IP

用 Fail2ban 自动封禁 SSH 暴力破解 IP Fail2ban 适合公网 SSH 被持续扫描时自动封禁异常来源。这类主题真正跑起来并不难，难的是上线后稳定、可备份、能排错。本文按实操方式整理一套可以直接落地的流程，默认你已经会登录 Linux 服务器，并能…...

2026/5/26 21:47:29 阅读更多 →

Switch-Toolbox：5个高效技巧掌握任天堂游戏文件编辑神器

Switch-Toolbox：5个高效技巧掌握任天堂游戏文件编辑神器【免费下载链接】Switch-Toolbox A tool to edit many video game file formats 项目地址: https://gitcode.com/gh_mirrors/sw/Switch-Toolbox Switch-Toolbox是一款功能强大的任天堂游戏文件编辑工具…...

2026/5/26 21:44:43 阅读更多 →

Unity溶解特效实战：顶点位移+噪声协同的跨平台实现

1. 这不是“加个溶解贴图”就完事的视觉魔法很多人第一次听说“溶解特效”，脑子里立刻蹦出的是《守望先锋》里源氏被击倒时身体边缘像烧焦纸片一样卷曲剥落的瞬间，或是《死亡空间》中敌人被等离子切割后肢体崩解成粒子流的震撼。但当你真在 Unity 里打开…...

2026/5/26 21:41:20 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/26 9:09:40 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/26 9:11:16 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/26 7:22:22 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/25 17:59:32 阅读更多 →