Diffusion-based Hierarchical Negative Samplingfor Multimodal Knowledge Graph Completion
题目基于扩散的分层负采样方法用于多模态知识图谱补全摘要多模态知识图谱补全MMKGC旨在解决多模态知识图谱MMKG中存在的知识缺失关键问题以推动其更广泛的应用。然而现有的多模态知识图谱补全方法和负采样NS方法均忽略了利用多模态信息从不同语义层次和难度层次生成多样且高质量的负三元组这限制了多模态知识图谱补全模型的训练效果。为此本文提出一种适用于多模态知识图谱补全任务的新型基于扩散的分层负采样DHNS方法该方法通过构建基于扩散的分层嵌入生成模块DiffHEG解决高质量负三元组的生成难题该模块以实体、关系及多模态语义为渐进式条件进行嵌入生成。此外本文还设计了负三元组自适应训练策略NTAT该策略能根据合成负三元组的难度等级动态调整训练间隔助力模型实现更鲁棒、更高效的学习从而准确区分正、负三元组。在三个多模态知识图谱补全基准数据集上的大量实验表明该框架的性能优于多种当前主流的多模态知识图谱补全模型和负采样技术验证了所提 DHNS 方法在训练多模态知识图谱补全模型方面的有效性。本文相关源码和数据集已开源地址为https://github.com/ngl567/DHNS。关键词多模态知识图谱补全扩散模型分层负采样1 引言多模态知识图谱MMKG是表达符号知识的有效范式能够融合文本、图像、音频等多种模态信息 [14]。这类图谱被广泛应用于多模态问答系统 [12] 等多个领域通过表征多模态信息提升语境关联度。在多模态知识图谱的研究中知识图谱补全KGC是一项核心任务由于数据收集和整理的局限性现实场景中的多模态知识图谱往往存在信息不完备的问题 [41]。多模态知识图谱补全的目标是推理出缺失的知识进而提升多模态知识图谱的完整性和实用性。在多模态知识图谱补全模型的训练过程中负采样是关键环节 —— 因为任何多模态知识图谱中的负三元组都十分稀缺 [34]。负采样通过生成与多模态知识图谱中正三元组相对的负三元组让模型学习实体和关系之间的语义边界与关联关系。然而随机采样、基于对抗的方法等现有负采样策略面临三大核心挑战第一现有负采样技术 [19] 主要依赖拓扑特征却忽略了多模态知识图谱中不同模态的语义信息易生成简单或无效的负三元组第二尽管基于生成对抗网络GAN[4] 或自对抗策略 [25] 的部分方法能评估采样负三元组的质量但这类评估依赖于预采样的三元组和知识图谱补全模型的性能而非直接生成高质量负三元组第三现有知识图谱补全模型采用固定间隔进行训练 [5]单一的训练间隔方案难以适配不同难度等级的负三元组训练效果受限。为解决上述问题受扩散模型在各类生成任务中取得的优异成果启发本文提出一种适用于多模态知识图谱补全的新型基于扩散的分层负采样DHNS范式。借助去噪扩散概率模型DDPM[9] 的强大能力本文构建了基于扩散的分层嵌入生成模块DiffHEG该模块可直接生成多样的实体嵌入以构建负三元组摒弃了传统负采样中对实体进行采样的范式。具体而言通过在不同时间步进行条件去噪结合多模态专属嵌入的分层语义和不同难度等级生成合成负三元组。此外这些高质量、多样化的负三元组可接入任意知识图谱补全模型提升模型区分正、负三元组的能力。本文还基于该模块设计了含难度自适应损失函数HAL的负三元组自适应训练机制NTAT增强知识图谱补全模型对不同难度负三元组的学习能力。图 1 展示了 DHNS 框架的整体架构。本文的主要贡献如下首次将扩散模型的能力应用于多模态知识图谱补全的负采样任务中。所提负采样模块 DiffHEG 能够捕捉不同模态的多样语义生成分层的高质量负三元组同时通过扩散时间步直接控制负三元组的难度等级。基于生成的负三元组设计了难度自适应的训练目标将核心参数 —— 训练间隔与负三元组的难度等级相适配让多模态知识图谱补全模型能够对各类负三元组进行全面训练。在三个多模态知识图谱补全基准数据集上开展大量实验将所提 DHNS 模型与当前主流的多模态知识图谱补全模型和负采样策略进行性能对比验证了 DHNS 框架在多模态知识图谱补全任务中的鲁棒性和有效性。2 相关工作2.1 多模态知识图谱补全现有多模态知识图谱补全方法在传统知识图谱嵌入KGE技术的基础上进行扩展以处理多模态信息 [33]。知识图谱嵌入模型将实体和关系表征为连续的数值空间向量。早期的 TransE [3] 等模型提出基于平移距离的评分函数将关系表征为实体间的平移操作DistMult [35] 和 ComplEx [27] 采用双线性模型捕捉对称和反对称关系RotatE [25] 和 QuatE [36] 则分别引入基于旋转和四元数的嵌入方式对复杂的关系模式进行建模。具体而言多模态知识图谱补全模型通常会设计额外的嵌入层来表征实体的文本描述、图像等多模态信息并将其融入评分函数以评估每个三元组的合理性。例如IKRL [33] 利用预训练的视觉编码器提取视觉特征并与 TransE 得到的结构特征融合实现三元组合理性的评估TransAE [32] 和 TBKGC [20] 在 IKRL 的基础上进行扩展同时融合视觉和文本信息RSME [29] 引入门控机制确保将最相关的多模态特征融入实体嵌入AdaMF [38] 在对抗训练框架中通过生成器生成对抗样本利用判别器评估样本的合理性LAFA [24] 考虑实体与不同模态间的关联关系聚焦于多模态信息的链路感知聚合VISTA [11] 设计三个基于 Transformer 的编码器融合视觉和文本嵌入以预测缺失的三元组。然而这些多模态知识图谱补全模型均将研究重点放在实体和关系的表征学习上忽略了从丰富的多模态信息中生成高质量负三元组对引导模型训练的重要性。2.2 知识图谱嵌入中的负采样负采样NS[19] 是知识图谱嵌入中应用广泛的技术通过生成知识图谱中不存在的负三元组与正三元组形成对比从而提升模型的训练效果。随机实体替换等传统策略虽实现简单但常生成假负例或低质量三元组导致训练信号模糊 [4]。伯努利采样 [31] 利用伯努利分布对实体进行替换生成质量更高的负三元组KBGAN [4] 和 IGAN [30] 借助生成对抗网络GAN选取难分负例 —— 即知识图谱嵌入模型难以与正例区分的负三元组NSCaching [40] 利用额外的内存空间存储高质量负三元组并在训练中高效采样SANS [1] 借助图结构信息采样高质量负例。但这些负采样策略均为单模态知识图谱补全模型设计未利用多模态信息中的多层语义而这一信息对生成多样化负三元组至关重要。MMRNS [34] 引入基于知识引导跨模态注意力的关系增强负采样机制从多模态数据中生成更具挑战性的负例MANS [37] 强调模态感知的负采样实现结构信息与多模态信息的对齐提升负三元组质量。尽管取得了这些进展现有多模态负采样方法仍停留在采样范式无法对负三元组的生成过程进行控制。2.3 扩散模型近年来扩散模型尤其是去噪扩散概率模型DDPM[9]成为生成式人工智能的核心技术。该模型通过在不同时间步向输入数据逐步添加高斯噪声基于噪声调度构建马尔可夫链其逆过程则通过训练神经网络预测并去除噪声实现原始数据的重构。在图结构数据领域DMNS [21] 利用 DDPM 为链路预测任务生成负节点同时考虑查询节点的上下文信息KGDM [16] 将 DDPM 应用于知识图谱补全实现对目标实体概率分布的估计。然而扩散模型在知识图谱补全尤其是多模态知识图谱补全负采样任务中的应用仍十分有限。本文填补了这一研究空白将扩散模型应用于多模态知识图谱补全的负采样任务对模型进行适配以生成不同难度的多样化负三元组捕捉多模态的分层语义从而提升多模态知识图谱补全模型的训练效果。3 方法3.1 预备知识与问题定义3.2 基于扩散的分层嵌入生成为补充通过显式实体采样得到的负三元组本文提出新型的基于扩散的分层嵌入生成模块DiffHEG。该 DHNS 模块以实体、关系及多模态信息为条件生成分层的实体嵌入进而构建高质量负三元组同时通过扩散时间步调节生成不同难度等级的负三元组。前向扩散与逆向去噪过程多模态条件与多难度等级去噪3.3 负三元组自适应训练4 实验4.1 实验设置多模态知识图谱补全数据集本文在三个多模态知识图谱补全基准数据集上开展实验DB15K [15]、MKG-W 和 MKG-Y [17]。其中DB15K 的三元组从 DBpedia 中提取MKG-W多模态维基数据和 MKG-Y多模态 YAGO 知识图谱的结构化知识分别从维基数据 [28] 和 YAGO [8] 中提取三个数据集的图像均由图像搜索引擎收集文本描述均来自 DBpedia。数据集的统计信息如表 1 所示。基线模型实现细节4.2 实验结果主要结果表 2 和表 3 的实验结果表明结合 RotatE 模型的 DHNS 框架在所有数据集的各项评估指标中均取得最优或次优成绩。具体而言DHNS 的性能持续优于各类当前主流的基线模型包括单模态 / 多模态知识图谱补全模型、基于负采样的模型验证了由 DiffHEG 和 NTAT 模块构成的 DHNS 框架在多模态知识图谱补全任务中的优越性能。此外多模态知识图谱补全模型的性能普遍优于单模态知识图谱补全模型和传统基于负采样的模型证明了融合辅助多模态信息对表征知识图谱嵌入的重要性。值得注意的是本文提出的 DHNS 框架性能优于所有多模态知识图谱补全模型和基于负采样的模型验证了该框架策略的有效性 —— 通过结合分层语义和多难度等级的负采样机制以及负三元组自适应训练范式实现知识图谱嵌入模型的高效训练。负采样策略对比表 4 的实验结果表明DHNS 是一种鲁棒、有效的负采样策略能够提升 TransE、DistMult、RotatE 等知识图谱嵌入模型在多模态知识图谱补全任务中的性能。具体而言当与 RotatE 模型结合时DHNS 在所有数据集和各项指标上均显著优于其他负采样策略同时结合 TransE 和 DistMult 模型时DHNS 在所有数据集的 MRR 和 H10 指标上均取得最优或接近最优的成绩。更值得关注的是在不同的知识图谱嵌入模型和数据集上DHNS 的性能均持续优于包括 MMRNS 在内的传统和当前主流负采样策略这些策略同样利用了多模态信息验证了直接生成分层嵌入以构建多样、高质量负三元组相比基线负采样策略中实体采样方式的优越性。这表明 DHNS 可作为一个即插即用的模块生成更高质量的负三元组进而更有效地引导知识图谱嵌入模型的训练提升模型区分正、负三元组的能力。消融实验5 结论本文提出一种适用于多模态知识图谱补全任务的新型基于扩散模型的分层负采样框架DHNS。为解决多模态知识图谱中负采样不可控的独特问题本文首次构建基于扩散的分层嵌入生成模块DiffHEG摒弃实体采样的方式直接生成分层嵌入以构建负三元组该模块通过扩散时间步控制让生成的负三元组同时具备多模态语义特征和不同难度等级。此外针对传统单一训练间隔方案的局限性本文设计了负三元组自适应训练策略NTAT对生成负三元组进行多模态联合评分并结合难度自适应损失函数HAL训练知识图谱嵌入模型提升模型对不同负三元组差异的判别能力。在三个多模态知识图谱补全数据集上的大量实验结果表明与当前主流的单模态 / 多模态知识图谱补全模型、典型负采样技术相比DHNS 框架具有显著的有效性和优越性。