微软开源最前沿语音 AI！三合一家族：60分钟语音转文字 / 90分钟多角色合成 / 实时流式说话

张

张建站

2026/6/11 19:32:37

10分钟阅读

微软开源最前沿语音 AI三合一家族60分钟语音转文字 / 90分钟多角色合成 / 实时流式说话一句话介绍VibeVoice 是微软开源的前沿语音 AI 模型家族包含 ASR语音识别、TTS语音合成、Realtime实时流式TTS三大模型全部基于 7.5Hz 超低帧率连续分词器和 Next-token Diffusion 框架打造已被 ICLR 2026 录用为 Oral 论文。目录1. 先看效果2. 三大模型一览3. 核心技术7.5Hz Next-token Diffusion4. VibeVoice-ASR60分钟长音频一次性转写5. VibeVoice-TTS90分钟多角色合成已下架说明6. VibeVoice-Realtime0.5B 参数实时流式TTS7. 社区应用Vibing 语音输入法8. 总结与注意事项1. 先看效果VibeVoice 不是单一模型而是一个语音 AI 模型家族覆盖从语音识别ASR到语音合成TTS的完整链路。三个模型各司其职模型方向核心能力体验链接VibeVoice-ASR-7B语音→文字60分钟音频一次性转写结构化输出PlaygroundVibeVoice-TTS-1.5B文字→语音90分钟长音频4人对话合成已下架VibeVoice-Realtime-0.5B文字→语音实时流式300ms 低延迟0.5B 轻量Colab GitHubhttps://github.com/microsoft/VibeVoice HuggingFaceCollection2. 三大模型一览VibeVoice-ASR-7B — 语音识别一句话输入60分钟音频输出谁在什么时间说了什么支持50语言和自定义热词。 60分钟单次处理不同于传统切片式模型 Who说话人 When时间戳 What内容结构化输出支持自定义热词人名、技术术语、行业专有名词50语言原生支持⚡vLLM 推理加速已支持VibeVoice-TTS-1.5B — 语音合成⚠️重要说明2025年9月微软已将 TTS 代码从仓库中下架原因见后文「注意事项」。一句话输入文字输出最长90分钟的说话音频支持4个角色自然对话。⏱️90分钟长音频单次生成业界领先支持4个角色同时对话情感丰富自然流畅中英双语支持已被ICLR 2026 录用为 Oral 论文VibeVoice-Realtime-0.5B — 实时流式合成一句话0.5B 参数轻量模型300ms 首字延迟流式输入适合实时场景。⚡0.5B 参数部署友好轻量级300ms 首字延迟实时交互门槛流式文本输入边输入边播放⏱️约10分钟长文本稳定生成9种语言实验性支持德/法/意/日/韩/荷/波/葡/西 11种英语风格3. 核心技术7.5Hz Next-token DiffusionVibeVoice 系列的核心创新在于其连续语音分词器Continuous Speech Tokenizer工作帧率仅为7.5 Hz——也就是说每秒钟只处理 7.5 个音频帧。为什么 7.5Hz 这么重要传统语音模型通常以 50Hz 或更高的帧率处理音频序列。这意味着一段 60 分钟的音频 → 18 万个时间步Transformer 对长序列的处理成本是 O(n²)而 VibeVoice 用 7.5Hz 处理后60 分钟音频 → 2.7 万个 token压缩 6.7 倍大幅降低计算成本同时保留音频的关键信息两大分词器分词器作用Acoustic Tokenizer声学分词器保留高保真音频细节Semantic Tokenizer语义分词器捕捉语言语义信息两者结合既不丢失音质又大幅提升效率。Next-token Diffusion 框架文本输入 │ ▼ ┌──────────────────────────┐ │ LLM基于 Qwen2.5-1.5B │ │ 理解文本上下文和对话流程 │ └──────────┬───────────────┘ │ 语义向量 ▼ ┌──────────────────────────┐ │ Diffusion Head │ │ 逐步去噪生成声学 token │ │ 类似图像生成的 DDPM 过程 │ └──────────┬───────────────┘ │ 声学 token7.5Hz ▼ ┌──────────────────────────┐ │ 声码器Vocoder │ │ 将 token 转换为波形音频 │ └──────────────────────────┘ │ ▼ 输出高质量语音核心思路LLM 负责「说什么」语义Diffusion Head 负责「怎么说得好」声学细节各司其职。4. VibeVoice-ASR60分钟长音频一次性转写这是目前 VibeVoice 家族中最活跃、功能最完整的模型。相比传统 ASR 的优势传统 ASR如 Whisper的做法是将长音频切成小段30秒~30分钟逐段识别然后拼接。问题是每段独立识别缺乏全局上下文——说话人切换时容易混淆长词组在段边界处被切断专业术语识别率低VibeVoice-ASR 的做法一次性接收64K token 的音频约60分钟在完整的上下文语境下进行识别说话人辨认Speaker Diarization 时间戳Timestamps 内容转写ASR三合一联合建模自定义热词Customized Hotwords# 示例输入热词 [多模态, AGI, Sam Altman, H100, Transformer] # 结果热词密集的段落识别准确率显著提升热词可以是人名、技术术语、品牌名行业黑话……对播客、课程、会议记录等场景特别有用。性能对比在官方 benchmark 上VibeVoice-ASR 在以下指标上表现优异指标说明结论DERDiarization Error Rate说话人分离错误率SOTAcpWERCharacter-level Pitch Word Error Rate字级错误率领先tcpWERTimestamp-corrected Pitch Word Error Rate时间戳修正错误率领先使用方式# 方式1HuggingFace Transformersv5.3.0fromtransformersimportAutoModelForSpeechSeq2Seq,AutoProcessor model_idmicrosoft/VibeVoice-ASRmodelAutoModelForSpeechSeq2Seq.from_pretrained(model_id)processorAutoProcessor.from_pretrained(model_id)# 方式2Playground 在线体验# https://aka.ms/vibevoice-asr⚡ vLLM 推理加速也支持详见 vllm-asr 文档5. VibeVoice-TTS90分钟多角色合成已下架说明能力回顾VibeVoice-TTS-1.5B 支持90分钟长文本一次性合成无需分段4个角色自然对话角色一致性保持中英双语跨语言合成情感表达自然Demo 视频包括英文合成、中文合成、跨语言合成英→中、即兴唱歌Spontaneous Singing、4人45分钟长对话等。⚠️ 为什么会下架2025年9月5日微软官方发布说明VibeVoice is an open-source research framework… After release, we discovered instances where the tool was used in ways inconsistent with the stated intent. Since responsible use of AI is one of Microsoft’s guiding principles, we have removed the VibeVoice-TTS code from this repository.翻译发布后发现了不当使用案例违背了研究初衷因此主动下架。这是微软负责任 AI 原则的体现。注意TTS 模型权重仍可在 HuggingFace 下载microsoft/VibeVoice-1.5B但代码已不可用仅限学术研究。6. VibeVoice-Realtime0.5B 参数实时流式TTS这是目前最适合实时交互场景的模型。关键参数指标数值参数量0.5B仅 5 亿参数部署友好首字延迟~300ms业界领先输入方式流式文本输入边输边播长文本支持约10分钟实验性多语言德/法/意/日/韩/荷/波/葡/西 11种英语风格Colab 快速体验# 直接打开 Colab 运行# https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb7. 社区应用Vibing 语音输入法社区基于 VibeVoice-ASR 构建了一款智能语音输入法——Vibing已上架 Windows 和 macOS。 Vibing 现已基于 VibeVoice-ASR 提供语音识别能力。平台下载链接macOSDMG 下载Windows InstallerMicrosoft Store推荐Windows PortableZIP 下载8. 总结与注意事项三大模型适用场景模型最佳场景ASR-7B播客转写、会议记录、多语言长音频整理、热词优化TTS-1.5B研究用途代码已下架权重仍可下载Realtime-0.5B实时语音助手、语音交互、无障碍朗读重要风险提示VibeVoice 官方在 README 中明确指出以下风险⚠️深度伪造风险高质量合成语音可能被滥用于冒充、欺诈或传播虚假信息。⚠️TTS 代码已下架微软出于负责任 AI 考虑已撤下 TTS 代码ASR 和 Realtime 继续开源。⚠️研究用途声明不建议将模型用于商业或实际应用仅供研究和开发使用。使用时请务必确保转写内容可靠不传播虚假信息遵守当地法律法规在分享 AI 生成内容时主动披露 GitHubhttps://github.com/microsoft/VibeVoice 模型下载VibeVoice-ASR-7BVibeVoice-1.5BVibeVoice-Realtime-0.5B ASR Playgroundhttps://aka.ms/vibevoice-asr Realtime Colab点击体验论文TTSarXiv 2508.19205ICLR 2026 OralASRarXiv 2601.18184标签 #语音AI #VibeVoice #ASR #TTS #ICLR #长音频 #流式语音

学习C语言日记

昨天和今天学习了数据类型中的基本类型十进制、二进制、八进制、十六进制的求法和相互转换原码、反码、补码比特位、字节...

2026/6/11 19:26:41 阅读更多 →

YooAsset v2.3.18技术架构深度解析：Unity资源管理系统的跨平台演进

YooAsset v2.3.18技术架构深度解析：Unity资源管理系统的跨平台演进【免费下载链接】YooAsset unity3d resources management system 项目地址: https://gitcode.com/gh_mirrors/yo/YooAsset YooAsset作为Unity3D生态中备受瞩目的资源管理系统，在…...

2026/6/6 16:05:48 阅读更多 →

pid库文件以及示例程序

1.概述 PID控制器是一种经典的反馈控制算法，广泛应用于工业自动化、机器人控制、温度调节等领域。本实现提供了一个轻量级、硬件无关的PID控制器库，支持多种控制模式和自适应状态切换。 PID控制器基于三个核心组件： 比例项（P&…...

2026/6/6 16:06:14 阅读更多 →

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…...

2026/6/11 12:07:23 阅读更多 →

2026实测盘点｜适合国内高校生的AI写作平台，降重润色哪家强？

2026年毕业季，学术审查全面加码。教育部明确要求毕业论文AIGC率不得超过30%，985/211院校更是将红线压到了20%以内，硕士论文甚至卡到15%。与此同时，知网上线AIGC 3.0系统，可实现段落级内容溯源；维普引入语义…...

2026/6/10 19:45:23 阅读更多 →

JewelCraft：Blender珠宝设计的终极免费解决方案

JewelCraft：Blender珠宝设计的终极免费解决方案【免费下载链接】jewelcraft Blender add-on for jewelry design 项目地址: https://gitcode.com/gh_mirrors/je/jewelcraft JewelCraft是一款专为珠宝设计师和3D艺术家打造的Blender插件，提供完整…...

2026/6/11 12:09:54 阅读更多 →