理想实数比例掩码(Ideal Ratio Mask,简称 IRM)
理想实数比例掩码Ideal Ratio Mask简称 IRM。在深度学习语音降噪的“古典时代”大约 2014 年到 2018 年IRM 是统治整个学术界和工业界的绝对王者。要理解它我们可以把它看作是 AI 降噪进化史上的“半神”它做对了幅度却败给了相位。一、 名字的奥秘什么是“理想”、“比例”与“掩码”掩码 (Mask)这就好比在时频图上覆盖一层“滤网”。网格的每个点对应一个频率。比例 / 实数 (Ratio / Real Number)在更早的时代人们用的是“二值掩码 (IBM, Ideal Binary Mask)”非黑即白要么保留乘 1要么杀掉乘 0导致声音断断续续。IRM 的伟大突破在于引入了“比例”。它输出的是一个介于0.00.00.0到1.01.01.0之间的纯实数小数比如 0.8、0.3。这意味着它允许“半透明”的过滤保留了声音的平滑过渡。理想 (Ideal)为什么叫理想因为在实验室训练 AI 时我们拥有绝对干净的“纯净语音”和“纯净噪音”。我们是拿着上帝视角的标准答案在教 AI。二、 严谨的数学推导AI 怎么算出这 0 到 1 的数字在训练阶段对于时频图上的任意一个“时间-频率”像素点假设纯净语音的能量幅度平方为∣S∣2|S|^2∣S∣2环境噪音的能量为∣N∣2|N|^2∣N∣2。IRM 的标准计算公式极其直观IRM∣S∣2∣S∣2∣N∣2IRM \sqrt{\frac{|S|^2}{|S|^2 |N|^2}}IRM∣S∣2∣N∣2∣S∣2(注有时工程上也会直接用幅度的绝对值∣S∣/(∣S∣∣N∣)|S| / (|S| |N|)∣S∣/(∣S∣∣N∣))大白话解释这个公式算能量占比情况 A人声鼎沸如果在这个频率点语音能量∣S∣2|S|^2∣S∣2极大噪音能量∣N∣2|N|^2∣N∣2极小。分子分母几乎相等算出来的IRM≈1IRM \approx 1IRM≈1。系统指令“火力全开原样保留”情况 B噪音盖顶如果噪音极大语音极小。分母极大算出来的IRM≈0IRM \approx 0IRM≈0。系统指令“全是噪音彻底静音”情况 C势均力敌如果语音和噪音能量各占一半。算出来的IRM≈0.707IRM \approx 0.707IRM≈0.707。系统指令“各退一步把这个频率的音量压低 30%。”AI 神经网络的任务就是去疯狂学习并预测这张由无数个0∼10 \sim 10∼1的小数组成的“软性滤网”。当预测完成后将 IRM 乘以带噪语音的幅度∣X∣|X|∣X∣就得到了降噪后的干净幅度∣Y∣IRM×∣X∣|Y| IRM \times |X|∣Y∣IRM×∣X∣三、 悲剧的诞生IRM 的致命缺陷相位盲区既然公式这么完美为什么现在的顶会论文都要抛弃它转投复数掩码CRM因为真实的物理世界中声音的叠加不是标量相加而是波的干涉当你把干净语音的波形和噪音的波形混在一起时噪音不仅会把波形“拔高”改变幅度还会把波形的波峰“推歪”改变相位。IRM 的降噪逻辑是极度偏科的它极其精准地算出了音量应该调小多少。然后它原封不动地照抄了带噪语音那已经被推歪的“错误相位”。听觉灾难音乐噪声 / Musical Noise你得到了一个音量幅度绝对完美的信号但里面所有的频率成分在时间线上都是极其微小错位的。这在人耳听起来就会产生一种极其诡异的**“水下咕噜声”或者“机械电音感”**。因为自然界中不可能存在这种“幅度是对的但相位是错乱的”发声体。这就好比你用 PS 抠图抠出了完美的人脸轮廓幅度但五官的位置稍微错位了 1 毫米相位看起来会极其恐怖。这就是为什么工程师最终引入了复数实部虚部让掩码不仅能缩放音量IRM的功能还能旋转角度纠正相位。