在大多数自然语言处理应用中,词元化是首要步骤——将输入字符串分解为语义相关单元。传统方法依赖人工编纂的词典和标注数据(LST),而新兴的无监督方法(LIT)通过分析海量无标注数据自动学习词元划分规则。

研究团队针对八种语言(英语、德语、西班牙语、波斯语、意大利语、日语、土耳其语和泰语)展开实验,采用两种LIT方法:基于字节对编码(BPE)和基于一元语言模型(LM)。通过GloVe方法生成子词嵌入后,采用三种加权方式构建词向量,最终以人类标注的词语相似度为基准进行评估。

关键发现:

  1. 百万级大词汇量时LST占优,但德语、波斯语和土耳其语例外
    1. 词汇量小于10万时,LIT全面超越LST
    1. 黏着语种(如土耳其语)中,BPE在5万词汇量即达最佳效果 该成果表明,对于资源稀缺语言或词汇受限场景(如实时翻译系统),无监督词元化是可行替代方案。研究还揭示了子词嵌入质量与下游语义任务表现的强相关性,为轻量化NLP系统设计提供了新思路。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)