面向深度学习的多模态融合技术研究综述
文章目录前言摘要正文介绍多模态融合表示联合架构协同架构编解码器表示多模态融合方法与模型无关的融合方法基于模型的融合方法模态对齐方法数据集展望总结读后感参考文献前言阅读国外的多模态融合综述时候,可以和国内最新的综述进行比对,通过比对可以进一步提升对该领域的理解。许多过来人还是觉得国内综述性文章的内容是具有价值的,在撰写之前调查了很多的相关研究,值得一看。面向深度学习的多模态融合技术研究综述是计算机工程近期出版的综述文章。我想通过这篇文章理解一些英文的专业术语用中文怎么表达。更新:最近又写了一篇新的多模态总结,包括三篇综述,五篇特定事件下音视频融合的论文。点击这里摘要深度学习多模态融合指机器从文本、图像、语音、视频等多个领域获取信息,实现信息转换和融合,从而提升模型性能的技术,是一个典型的多学科交叉领域,已逐步成为研究热点。模态的普遍性和深度学习的快速发展赋予了多模态融合技术极大的发展潜力。旨在多模态深度学习技术发展前期,以提升深度学习模型分类或回归性能为出发点,总结多模态融合架构、融合方法和对齐技术。重点分析了联合、协同、编解码器三种融合架构在深度学习中的应用情况和优缺点,以及多核学习、图像模型和神经网络等具体融合方法和对齐技术。最后归纳出多模态研究常用的公开数据集,并展望了多模态融合技术的发展趋势正文介绍多模态融合(MFT)能够使得深度学习更好的从数据中了解世界。MFT包括模态表示(Representation)、融合(Fusion)、转换(Translation)、对齐(Alignment)[2]。这篇文章围绕了多模态融合的三个主要融合框架融合方法。模态对其和公开数据集进行了介绍,并提出了下一个观点。多模态融合表示多模态表示学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。主要包括两大研究方向:联合表示(Joint Representations)、协同表示(Coordinated Representations)、编解码。联合架构是将单模态投影到一个共享的子空间。以便能够融合多个模态的特征。协同融合是包括跨模态相似模型和典型类似分析,有点类似于通过语音做标签来对视频进行分类。编解码是用于将一个模态映射为另一个模态的中间层。下面一张图反映了各个研究领域使用上述三个方法的分布。联合架构多模态融合的策略是通过集成不同类型的特征来提高机器学习的泛化能力。联合架构如上图所示,它将多模态空间映射到共享语义子空间中。每个模态通过一个单独的编码都会映射到共享子空间中。这种方法在视觉问答,视频分类,事件检测等方面。获得了比较好的效果。多模态联合架构最简单的方法就是直接连接,也就是加法。该方法如下面公式所示。设置一个共享层,其中,v单个模态的输入,w是权重,下标表示不同的模态,通过这种映射方式可以将子模态的语义转换到共享空间。z = f ( w 1 T v 1 + … + w n T v n ) z=f\left(w_{1}^{T} v_{1}+\ldots+w_{n}^{T} v_{n}\right)z=f(w1T