美国、沙特、澳大利亚、韩国2025年联合研究《在视觉领域基础模型定义新时代:调查和展望》
摘要能够感知并理解视觉场景构成本质的视觉系统是理解我们所处世界的基础。物体与其位置之间的复杂关系、现实环境中存在的模糊性及多样性更适宜通过人类语言来描述——这种语言天然遵循语法规则并融合了音频、深度等其他模态信息。那些经过训练、能够弥合不同模态与大规模训练数据之间差距的模型有助于在测试时实现上下文推理、泛化能力及提示响应功能。这类模型被称为基础模型。其输出结果可通过人类提供的提示进行修改而无需重新训练例如通过提供边界框来分割特定物体通过询问图像或视频场景的问题来开展交互对话或通过语言指令操控机器人的行为。本综述全面梳理了这些新兴基础模型涵盖整合不同模态视觉、文本、音频等的典型架构设计、训练目标对比式、生成式、预训练数据集、微调机制以及文本型、视觉型和异构型等常见提示模式。我们探讨了计算机视觉领域基础模型面临的开放性挑战与研究方向包括模型评估与基准测试的困难、对现实世界的理解存在不足、上下文理解能力的局限、模型偏差以及对对抗性攻击的脆弱性等问题。本文系统而全面地综述了该领域近期的研究进展涵盖了基础模型在广泛应用领域的研究成果。计算机视觉中基础模型的演变概述。左图展示了计算机视觉模型的发展历程从具有预设输出数量的传统单模态模型逐步演变为文本提示型、视觉提示型及异构型模型。右图通过虚线标示了文献中报道的主要里程碑事件直观呈现了这些模型的演进过程。本文概述了我们针对视觉-语言基础模型的分类体系。根据这些基础模型的输入、输出及应用场景我们将它们划分为五大主要类别。本综述概述了四种不同的架构风格。从左至右分别为(a) 双编码器(b) 融合模型(c) 编码器-解码器(d) 适配器大语言模型Adapter LLM。每类别的示例均展示在底部一行。附录A节提供了关于这些架构的更多详细信息。基础模型中用于训练、微调和提示的数据集所采用的不同设置概述文本提示模式模型关于视觉提示式、异构模态基础模型及其嵌入式基础代理的公开信息概要包括它们的设计差异、训练数据类型与规模的特性。