利用自然语言理解标签改进自动语音识别重打分模型用于对自动语音识别假设进行重打分的二阶语言模型可从自然语言理解目标的多任务训练中获益。作者Yi Gu2022年1月5日4分钟阅读会议ASRU 2021相关论文用于改进罕见词语音识别的多任务语言建模正文通常当用户与Alexa等语音助手对话时自动语音识别模型会将语音转换为文本。随后自然语言理解模型会解析该文本为语音助手提供可执行的结构化数据。传统上ASR系统采用流水线架构包含独立的声学模型、词典和语言模型。语言模型对词序列概率进行编码可用于在声学信号的多种候选解读之间做出决策。由于训练数据包含公开文本这些语言模型能够为大量词汇编码概率信息。端到端ASR模型以声学信号为输入并直接输出词序列其模型体积紧凑得多整体性能与传统的流水线系统相当。但它们通常仅使用有限的音频-文本配对数据进行训练因此在处理罕见词时效果欠佳。解决此问题的标准方法是使用独立的语言模型对端到端模型的输出进行重打分。例如若端到端模型在设备端运行语言模型可在云端对其输出进行重打分。在今年的自动语音识别与理解研讨会上我们提出了一种训练方案不仅使用标准的语言模型目标计算词序列概率还同时训练自然语言理解模型的相关任务。基本思路是引入通常已有标注训练数据的NLU任务可以帮助语言模型吸收更多知识从而提升对罕见词的识别能力。实验表明该方法可使语言模型在罕见词上的错误率相比传统训练方式的重打分模型降低约3%相比完全不使用重打分的模型降低约5%。此外我们获得最佳效果的方式是先在纯语言模型目标上预训练重打分模型然后使用较小的NLU数据集在联合目标上进行微调。这使得我们既能利用大量无标注数据又能获得多任务学习的好处。多任务训练我们的端到端ASR模型是一个循环神经网络转换器这类网络按顺序处理输入序列。其输出是一组按概率排序的文本假设。通常NLU模型执行两个主要功能意图分类和槽位填充。例如用户说“播放Darlene Love的《Christmas》”意图可能是“播放音乐”槽位“歌曲名”和“艺术家名”则分别对应“Christmas”和“Darlene Love”。语言模型通常基于给定的上文词序列来预测下一个词。模型将输入词表示为固定长度的向量即嵌入这些嵌入捕捉了进行准确预测所需的信息。在我们的多任务训练方案中同一个嵌入被同时用于意图检测、槽位填充和下一个词预测三个任务。我们将语言模型嵌入馈送到两个额外的子网络一个意图检测网络和一个槽位填充网络。训练过程中模型学习生成能够同时优化词预测、意图检测和槽位填充这三个任务的嵌入。在推理时意图检测和槽位填充的额外子网络不被使用。ASR模型文本假设的重打分仅基于词预测任务计算得到的句子概率分数下图中“LM分数”。训练过程中我们需要同时优化三个目标这意味着要为每个目标分配一个权重以指示其相对于其他目标的重要程度。我们将多任务语言模型的输出与ASR模型的原始输出相结合馈送到解码器由解码器对ASR假设进行重打分。我们实验了两种权重分配方法。一种是线性方法将NLU目标的权重从零开始逐步增加。另一种是随机权重多数算法每个目标的权重根据特定的概率分布随机分配并在训练过程中根据性能表现调整分布。在我们的实验中后者效果更好。我们的方法所带来的提升——相比基于普通语言模型构建的重打分模型罕见词的词错误率降低了2.6%——虽然不算巨大但确实证明了该方法的有效性。在正在进行的工作中我们正在探索进一步降低错误率的其他方法。例如我们可以将NLU分类结果作为解码器的显式输入而不仅仅作为编码器的训练目标。或者可以使用意图分类结果来动态偏置重打分结果。我们还在探索半监督训练技术即使用更大规模的自动标注数据来扩充用于训练NLU子网络的标注数据集。研究领域对话式人工智能标签自动语音识别 多任务学习会议ASRU 2021相关论文用于改进罕见词语音识别的多任务语言建模关于作者Yi Gu 是Alexa AI部门的高级应用科学家。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享