多声源定位的挑战

利用麦克风阵列捕获的音频来估计声源位置(声源定位,SSL)已持续研究了近四十年。当仅存在单个声源时,已有稳健、优雅且计算高效的SSL算法。但在实际场景中(如多人同时说话或存在环境噪声),传统单声源定位算法表现显著下降。

创新解决方案

在即将召开的声学国际会议上,提出了一种基于深度学习的多声源定位方法,其性能较现有技术有显著提升。该方法的核心创新在于:

  1. 端到端架构:直接从原始音频输入到空间坐标输出,无需预处理或后处理
    1. 双重定位策略
    • 先将声源粗定位到特定区域
    • 再在每个活动区域内进行精确定位
    1. 输出编码设计:通过为每个区域分配专用输出节点,有效规避了"排列问题"

技术实现细节

采用SampleCNN网络架构处理多通道原始音频,输出包含三个关键参数:

  1. 区域包含声源的概率
    1. 声源与麦克风阵列中心的归一化欧氏距离
    1. 声源相对于阵列水平线的归一化方位角 训练时使用双重损失函数:
  • 粗定位采用多标签分类损失
    • 精确定位采用最小二乘回归损失

实验结果

在模拟数据(无混响/有混响)和AV16.3语料库真实录音上的测试表明:

  • 在绝对到达方向误差指标上提升近15%
    • 表现出良好的跨环境泛化能力
    • 仅需少量微调数据即可适应新的空间配置

应用价值

该技术显著降低了部署多声源定位系统所需的领域专业知识门槛,可直接利用现有深度学习框架进行部署,为语音交互系统等应用提供了更高效的解决方案。

图:系统架构框图,展示从原始音频输入到空间坐标输出的完整流程 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)