文本分类是自然语言理解领域最基础的任务。例如,某中心智能助手的用户请求需要按领域分类(天气、音乐、智能家居等),许多自然语言处理应用依赖词性分类解析器。对于类别较少的任务,最佳性能系统通常采用BERT、XLNet等预训练Transformer模型。但Transformer模型的复杂度随输入序列长度呈平方增长,随类别数量线性增长,面对数十万甚至百万级分类任务时变得不切实际。

在某计算协会知识发现与数据挖掘年会(KDD)发表的论文中,提出了一种针对极端多标签分类的Transformer改进方法。该模型通过两阶段处理实现高效分类:首先用Transformer模型将输入分配到类别簇,再用简单线性分类器从簇中选出具体类别。实验表明,该方法在四个数据集上的分类准确率均超越现有最佳系统。

核心创新点

  1. 采用XLNet生成类别名称或样本输入的嵌入向量,通过语义相似度进行类别聚类
    1. 设计一对多线性分类器,通过多重决策边界交集精确识别目标类别
    1. 创新性负样本构造方法:既从同簇其他类别采样,也利用模型预测的高概率错误簇 实验对比了九种基准系统,在单标签精确匹配任务上全面领先。虽然相较于第二名AttentionXML系统的优势幅度约1%,但两种方法存在互补潜力。该方法使Transformer模型参数量减少约75%,同时保持分类精度,为大规模文本分类任务提供了实用解决方案。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)