文章总结与翻译一、主要内容该研究聚焦视觉语言模型(VLMs)的无训练测试时自适应问题,针对现有方法过度依赖熵准则、忽略形状敏感和风格不敏感等泛化因子的缺陷,提出了形状和风格引导(SSG)方法。核心背景视觉语言模型(如CLIP)在分布外(OOD)和跨域场景中面临性能下降问题,测试时自适应是缓解该问题的关键技术。现有无训练测试时自适应方法依赖熵准则选择视觉特征和更新缓存,但未充分利用泛化因子,导致模型鲁棒性不足;而需要梯度下降的方法(如提示调优)计算开销大,难以适用于资源受限场景。核心方法扰动预测差异(PPD)设计:通过对测试图像进行形状扰动(图像块洗牌)和风格扰动(颜色仿射变换+色调调整),计算原始图像与扰动图像的预测差异,分别得到形状扰动预测差异(PPD_sh)和风格扰动预测差异(PPD_st),并融合为PPD以量化泛化因子。特征重加权:基于PPD对高置信度视觉特征和预测结果进行重加权,突出形状敏感和风格不敏感因子的作用。缓存更新准则:结合熵和PPD作为缓存更新依据,筛选高置信度且具有强泛化因子的样本存入动态视觉缓存,提升自适应预测性能。实验结果在4个分布外基准数据集(ImageNet-A/V2/R/Sketch)和10个跨