字节Agent岗一面：为什么 AI 实时语音要用 WebRTC？它和 WebSocket 在 AI 对话流中的核心差异是什么？

张

张建站

2026/6/4 22:58:44

10分钟阅读

字节Agent岗一面：为什么 AI 实时语音要用 WebRTC？它和 WebSocket 在 AI 对话流中的核心差异是什么？

面试官为什么 AI 实时语音要用 WebRTC它和 WebSocket 在 AI 对话流中的核心差异是什么‍♂️我WebRTC 主要是因为它支持点对点通信延迟比较低。WebSocket 需要经过服务器中转所以延迟高一些。不过两者都能传语音差别不是很大。面试官你说的 P2P 只是 WebRTC 的一个特点不是核心原因。关键问题是底层协议的区别WebSocket 基于 TCPWebRTC 基于 UDP这两者对丢包的处理策略完全不同你知道这意味着什么吗‍♂️我TCP 丢包会重传UDP 不重传。但是 TCP 重传不是好事吗能保证数据完整啊语音也需要完整传输吧面试官恰恰相反。语音场景里 TCP 的重传是灾难。丢了一个 20ms 的音频片段TCP 强制等重传后面所有音频全部堵住延迟一堆积通话就卡死了。语音可以容忍丢包但绝不容忍延迟。而且 WebRTC 不只是换了个传输协议它还内置了回声消除、噪声抑制、自适应码率这些音频处理能力这些用 WebSocket 全得自己造轮子。原来语音和文字对网络的要求完全不同下面我就从这个根本差异出发把 WebRTC 和 WebSocket 的核心区别讲透。简要回答我理解核心原因是 WebSocket 基于 TCP而 TCP 的可靠性设计在实时语音场景里反而是负担。语音可以容忍丢包但绝对不容忍延迟一旦网络抖动丢了包TCP 强制等重传后续所有音频都得跟着等延迟一堆积通话就卡。WebRTC 走的是 UDP丢包了不等重传直接用插值算法填补用一点点音质损失换来稳定的低延迟延迟能控制在 50 到 150 毫秒。另外 WebRTC 还内置了回声消除、噪声抑制、自适应码率这些语音处理能力这些用 WebSocket 都得自己实现。所以 OpenAI Realtime API 这类实时语音产品选 WebRTC就是因为 TCP 根本撑不住语音场景的延迟要求。详细解析要理解为什么语音场景需要 WebRTC得先想清楚一个问题传输文字和传输语音对网络的要求本质上是不同的。传输文字时你希望每个字符都能准确到达顺序不能乱丢一个字母整段话可能就不对了。所以 TCP 的可靠有序传输对文字来说是刚需你愿意等网络重传因为等来的是完整正确的内容。传输语音时情况完全反过来。人类大脑对语音时序极其敏感当两个人对话时超过 200ms 的延迟就会让人明显感觉到「卡顿」超过 400ms 就会开始出现「说话串线」的尴尬你以为对方说完了开口说话结果对方话还没说完。在这个场景里丢掉一个 20ms 的音频小片段不是什么大事人耳感知不到一小段静音但为了等这 20ms 的片段重传把后续所有音频都堵住延迟积累到几百毫秒体验就彻底崩了。语音容忍丢包绝不容忍延迟TCP 的设计哲学正好和这个需求相反。WebSocket 底层是 TCP所以它天然带着 TCP 的这个问题。用 WebSocket 传语音每次网络轻微抖动导致丢包TCP 就会触发重传等待整条流的延迟都会随之堆积不可避免。WebRTC 的根本选择 UDP主动放弃可靠性WebRTC 是 Google 主导开发、W3C 和 IETF 联合标准化的协议族2011 年开始推进最初目的就是让浏览器之间能直接做实时音视频通话不需要安装任何插件。它最核心的设计决策是把底层从 TCP 换成 UDP。UDP 完全不管可靠性发出去的包丢了就丢了没有重传也没有等待。这听起来很不可靠但对语音来说恰恰是正确的选择。WebRTC 在 UDP 之上自己实现了一套对语音友好的丢包处理策略当一个音频帧丢失时不是等待重传而是用「丢包隐藏Packet Loss Concealment」技术自动填补用前后帧插值生成一段听起来合理的音频来替代整体播放不中断只是极短暂的音质轻微下降人耳感知不到。这是一个典型的工程权衡用偶尔轻微的音质损失换取稳定的低延迟。对语音通话而言这是正确的取舍。WebRTC 不是单一协议而是一套协议组合你可能以为 WebRTC 就是一个协议跟 WebSocket 一样换个名字而已。其实不是WebRTC 更像是一套「协议全家桶」在 UDP 之上叠加了好几层协议每层各管一件事组合在一起才能完成实时音视频通信。最底层是 UDP负责低延迟传输这是整个 WebRTC 的地基。UDP 上面跑的是 DTLS负责密钥协商和加密。为什么需要单独搞一层加密呢因为 UDP 不像 TCP 有现成的 TLS 握手机制所以 WebRTC 用 DTLS可以理解为「UDP 版的 TLS」来完成加密通道的建立保证音视频数据在传输过程中不会被窃听。加密通道建好之后媒体数据用 SRTPSecure RTP传输。RTP 是专门为实时媒体设计的协议每个包都带时间戳和序列号接收方可以知道包的时序和是否有丢失配合 RTCP 做传输质量的监控和反馈。你可以把 RTP 理解成「给每个音频包贴了标签」接收方根据标签知道这个包应该排在哪里、前面有没有包丢了。在连接建立阶段WebRTC 使用 ICEInteractive Connectivity Establishment框架来处理 NAT 穿透这是实际部署中最复杂的部分后面单独解释。SDP 信令WebRTC 握手的「协商书」WebRTC 建立连接前双方需要互相告知对方自己的能力支持哪些音视频编解码格式、网络地址是什么、加密参数是什么。这个协商过程通过 SDPSession Description Protocol来完成。SDP 本身只是一种格式不规定如何传输。双方需要通过一个「信令通道」来交换 SDP这个信令通道可以是 WebSocket、HTTP 或者任何能双向传输的方式WebRTC 不关心。这就是为什么用 WebRTC 做 AI 语音时还是需要一个 WebSocket 连接WebSocket 负责信令交换告诉对方「我的网络地址是 xxx我支持 Opus 编解码」真正的音频流走 WebRTC 的 UDP 通道。两者各司其职不是替代关系。NAT 穿透ICE/STUN/TURN 解决的问题现实中大多数用户都在路由器后面没有公网 IP直接用内网地址互相连接是行不通的。WebRTC 用 ICE 框架来解决这个问题ICE 会按优先级依次尝试三种连接方式第一优先级是本地直连如果两个用户在同一个局域网里直接用内网地址连延迟最低。第二优先级是 STUN 辅助的 NAT 穿透STUN 服务器帮助客户端发现自己的公网 IP 和端口然后双方尝试「打洞」建立 P2P 连接大多数家用路由器环境下这个方式能成功延迟仍然很低。第三优先级是 TURN 中转当 NAT 打洞失败时流量通过 TURN 服务器中转失去了 P2P 直连的延迟优势但至少能通。你可能会问为什么有些情况下打洞会失败、非得走 TURN最常见的原因是「对称 NAT」这类 NAT常见于企业防火墙、某些运营商级 NAT对每个目标地址都会分配一个不同的出口端口号STUN 探测到的那个端口在对端尝试连进来时已经换了打洞自然打不通。这时候只能退一步找一台双方都能访问到的中转服务器TURN把流量从一方送到服务器、再从服务器送到另一方。这三层降级保证了 WebRTC 在各种网络环境下都能建立连接只是在最差情况下退化成类似 WebSocket 经过服务器中转的模式。WebRTC 内置的音频处理能力WebRTC 不只是一个传输协议它把多年来实时语音通信领域积累的工程经验都内置进去了这是用 WebSocket 传语音最难补齐的部分。回声消除AEC是其中最重要的一个。当你用扬声器外放 AI 的声音时麦克风会同时把这段声音采集进去如果不做处理AI 就会听到自己说话的回声形成反馈循环。WebRTC 内置了多年优化的回声消除算法能实时识别并消除这部分回声让对话不产生干扰。噪声抑制NS解决环境噪声问题比如用户在嘈杂的咖啡厅说话WebRTC 会自动把背景噪声过滤掉只传人声。自动增益控制AGC解决音量不稳定的问题说话声音太小时自动放大太大时自动降低保证对方听到稳定的音量。最后是自适应码率控制ABRWebRTC 通过 RTCP 持续监测网络状况动态调整音频比特率。网络好时用高码率保证音质网络差时降低码率优先保证流畅不会因为网络波动就直接卡死。这些能力组合在一起才让 WebRTC 能在各种真实网络环境下维持可接受的通话质量。OpenAI Realtime API 选择 WebRTC 的决策逻辑OpenAI 在 2024 年发布了 Realtime API用于实现实时语音对话用户说话AI 实时听AI 说话用户实时听双方可以随时打断对方。这个场景对技术方案的要求是非常苛刻的。首先端到端延迟必须低于 300ms 才有自然的对话感超过这个阈值用户就会明显感觉到「卡」。其次语音必须双向同时流动不能等一方说完再切换这样才能实现自然的你一言我一语。再者用户说话时必须能随时打断 AI 正在说的内容不能让用户干等。最后还有回声消除的问题麦克风采集的声音不能把 AI 正在播放的声音再传回去否则会形成回声循环。把这些要求综合起来看TCP 系的方案WebSocket在网络抖动时达不到延迟要求而且没有内置的音频处理能力需要大量额外工程。WebRTC 天然满足所有这些要求所以 Realtime API 选择了 WebRTC 作为媒体传输层。WebSocket 和 WebRTC 的核心差异总结维度WebSocketWebRTC底层协议TCPUDP连接模式客户端 - 服务器P2P 直连可降级为 TURN 中转延迟50-500ms受 TCP 重传影响50-150msUDP 不重传丢包处理强制重传后续数据等待丢包隐藏插值填补不阻塞音视频支持无需自行实现全套处理链路原生支持编解码、AEC、NS、AGC、ABR连接建立简单HTTP Upgrade 即可复杂需要信令交换 ICE NAT 穿透适合场景文字/数据实时双向通信实时音视频通话实现复杂度低高信令服务器、STUN/TURN 服务器都要自建或使用云服务选型原则很清晰文字对话用 SSE 或 WebSocket实时语音用 WebRTC。WebRTC 的复杂度是真实存在的信令服务器、STUN/TURN 服务器的部署和运维都需要成本但这些复杂度换来的是无可替代的低延迟和音频质量在 AI 语音助手这类产品里是值得付出的代价。面试总结回到开头踩的雷最大的误区是觉得 WebSocket 和 WebRTC「都能传语音差别不大」。面试回答这道题第一个必须说到的核心点是底层协议的区别WebSocket 基于 TCPWebRTC 基于 UDP。TCP 丢包强制重传后续数据全部等待延迟不可控UDP 不重传WebRTC 用丢包隐藏技术插值填补处理丢失的音频帧用微小的音质损失换取稳定的低延迟。语音场景的铁律是「容忍丢包绝不容忍延迟」TCP 的设计哲学和这个需求正好相反。第二个要点是 WebRTC 内置的音频处理能力。回声消除AEC、噪声抑制NS、自动增益控制AGC、自适应码率ABR这些都是 WebRTC 原生支持的用 WebSocket 做语音这些全得自己造轮子工程量巨大。这不只是传输协议的差异而是一整套音视频工程能力的差异。第三个加分点是 WebRTC 的连接建立机制SDP 信令交换 ICE/STUN/TURN NAT 穿透。特别是能说清楚「WebRTC 建连时仍然需要 WebSocket 做信令通道两者是配合关系而不是替代关系」会让面试官觉得你对整个架构有完整的理解。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

WinCC C脚本实战：手把手教你给关键操作加上电子签名确认框（附完整代码）

WinCC C脚本实战：手把手教你给关键操作加上电子签名确认框（附完整代码）在工业自动化项目中，操作权限管理是确保生产安全的重要环节。想象一下这样的场景：当操作员在WinCC界面上点击"紧急停机"按钮时&#xf…...

2026/6/4 22:56:41 阅读更多 →

Dlib预编译包：Windows机器学习部署的时间革命与ROI优化

Dlib预编译包：Windows机器学习部署的时间革命与ROI优化【免费下载链接】Dlib_Windows_Python3.x Dlib compiled binaries (.whl) for Python 3.7-3.14 and Windows x64 项目地址: https://gitcode.com/gh_mirrors/dl/Dlib_Windows_Python3.x 在Windows平台上…...

2026/6/4 22:53:37 阅读更多 →

WorkBuddy高效协作快速入门

WorkBuddy 快速开始指南WorkBuddy 是一款高效的协作工具，专为开发团队设计，支持任务管理、代码协作和自动化工作流。以下内容将帮助快速上手 WorkBuddy。安装与配置从官方网站下载 WorkBuddy 安装包，支持 Windows、macOS 和 Linux。安装完成后…...

2026/6/4 22:53:33 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/6/3 15:04:26 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/6/2 11:40:26 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/6/2 4:48:10 阅读更多 →