Mirage: The Illusion of Visual Understanding

张

张建站

2026/7/25 3:46:44

10分钟阅读

Mirage: The Illusion of Visual Understanding

Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台深度绑定高性能弹性算力支持模型复现、训练、推理全流程以按需计费、低价高效破解高端算力紧缺与成本高昂难题同步Arxiv前沿论文并提供翻译、导读、分析服务支持各类大模型一键复现与数据集微调对接孵化资源助力科研成果转化同时搭载多样化AI在线课程实现理论学习与代码实操同步推进全方位覆盖AI研发、科研创新与技能学习全场景需求。大模型实验室官网链接https://www.lab4ai.cn/arxiv?utm_sourcecsdn_daily_paper主要作者信息Mohammad Asadi斯坦福大学电气工程系、Jack W. O’Sullivan斯坦福大学医学部心脏病学分部、斯坦福大学生物医学数据科学系研究背景多模态AI系统在真实世界任务中表现优异已广泛应用于通用图像理解、机器人及医疗等领域部分模型性能宣称超越人类专家在医疗健康场景中获得患者与临床医生的信任。当前多模态模型的视觉理解能力主要依靠各类基准测试Benchmark评估高基准测试准确率被直接等同于更强的视觉理解能力。现有评估范式存在显著缺陷模型的视觉-语言推理机制尚未被清晰理解模型可能利用文本线索、数据污染、隐藏模式而非真实视觉信息完成任务尤其在医疗等高风险场景中这种虚假的视觉理解会带来严重安全隐患。传统幻觉Hallucination研究聚焦于有效认知框架内的无依据细节填充而多模态模型在无图像输入时构建虚假认知框架的行为尚未被系统研究。研究目的揭示多模态大模型在无图像输入时仍自信生成视觉描述与推理的“幻影效应Mirage Effect”量化该现象的普遍程度与偏差特征。验证多模态模型的基准测试高分是否源于真实视觉理解还是仅依靠文本线索、数据模式与先验知识实现。对比模型在幻影模式Mirage-mode与明确猜测模式Guess-mode下的表现揭示两种模式的内在推理机制差异。提出可落地的基准测试净化方案实现对多模态模型真实视觉理解能力的公平、可靠评估。本文核心贡献定义并量化幻影效应首次提出多模态AI的“幻影推理”概念即模型在无图像输入时仍自信描述视觉特征、构建虚假认知框架且该行为在主流前沿模型中普遍存在医疗场景下还呈现病理偏向性。颠覆现有评估认知证明前沿多模态模型在无图像时仍能保留70%-80%的有图像基准准确率医疗基准更易被文本推理破解高分不代表真实视觉理解。文本模型超越多模态模型仅30亿参数的纯文本“超级猜测器”在无图像训练的胸部X光基准上性能超越所有前沿多模态模型与人类放射科医生。提出B-Clean净化框架通过后处理方式移除基准中可被文本破解的问题实现多模态模型真实视觉能力的公平对比改变模型原有排名与性能差距。研究方法1. 模型选择选用GPT-5系列、Gemini-3-Pro、Gemini-2.5-Pro、Claude Opus 4.5/Sonnet 4.5等主流前沿多模态模型通过官方API接口调用统一设置推理模式与参数。2. 数据集与基准测试幻影检测基准Phantom-0包含20个领域、200个无图像视觉问题用于量化幻影率。通用与医疗多模态基准MMMU-Pro、Video-MMMU、Video-MME通用VQA-Rad、MicroVQA、MedXpertQA-MM、ReXVQA医疗。纯文本超级猜测器基于Qwen2.5-3B纯文本模型在移除图像的ReXVQA训练集上微调避免数据污染。3. 核心实验设计幻影率量化向模型提交无图像的视觉问题不提示图像缺失用GPT-5自动判断模型是否描述不存在的视觉内容。幻影分数Mirage Score计算幻影分数无图像准确率/有图像准确率×100%衡量模型对文本线索的依赖程度。幻影模式vs猜测模式对比幻影模式不提示图像缺失猜测模式明确告知图像缺失并指令猜测对比两种模式的准确率差异。B-Clean基准净化先对候选模型做无图像测试移除所有模型可文本答对的问题剩余问题仅用于评估真实视觉能力。4. 医疗偏差分析以Gemini-3-Pro为对象在脑部MRI、胸部X光、心电图、病理切片、皮肤图像5类医疗场景重复200次无图像诊断请求统计病理偏向分布。研究结果幻影效应普遍存在所有测试前沿模型的平均幻影率超60%添加标准多模态提示后幻影率升至90%-100%模型完全无视图像缺失。医疗幻影具病理偏向模型在无图像时倾向生成严重病理诊断如STEMI、黑色素瘤、癌证等正常结果占比低存在高临床风险。无图像性能远超预期模型无图像时准确率超过有图像带来的额外增益平均保留70%-80%有图像准确率医疗基准易受文本推理破解。纯文本模型实现反超30亿参数Qwen2.5纯文本“超级猜测器”在ReXVQA测试集上超越所有前沿多模态模型与放射科医生平均水平推理轨迹与真实视觉推理难以区分。猜测模式性能显著下降明确告知图像缺失后模型准确率大幅降低证明幻影模式利用了隐藏文本模式而非简单猜测。B-Clean有效净化基准净化后基准仅保留原23%-26%的问题模型准确率大幅下降部分基准的模型排名发生改变真实视觉能力被准确评估。总结与展望总结本研究证实当前多模态AI的高基准测试成绩很大程度上是“幻影效应”带来的视觉理解假象模型并非依靠真实视觉感知而是利用文本线索、数据模式、先验知识完成任务。幻影效应在主流模型中普遍存在医疗场景下的病理偏向会引发严重安全风险现有评估范式无法区分真实视觉理解与文本推理。研究提出的B-Clean框架可有效净化现有基准实现多模态模型真实视觉能力的公平评估。局限性未完全揭示幻影效应的内部生成机制仅为推理假设。B-Clean框架依赖候选模型集合仅提供相对评估无法给出绝对视觉能力指标。研究仅针对多模态场景不否定模型的通用文本推理能力。未来展望将模态消融测试作为多模态模型评估的标准流程常规检测模型对各输入模态的依赖。采用私有或动态更新基准避免数据污染对评估的干扰。构建嵌入反事实探测的模型架构运行时检测并抑制幻影推理。深入研究幻影效应的生成机制开发更普适的无幻影多模态训练与评估方法。

告别卡顿！用华为云ECS搭建高性能eNSP Pro服务器，支持大规模组网实验

华为云ECS深度优化指南：解锁eNSP Pro大规模组网实验的终极性能当你在本地PC上运行eNSP Pro进行网络实验时，是否遇到过这样的困境：模拟5台设备就开始卡顿，复杂拓扑直接崩溃，或者保存配置时进度条像蜗牛爬行&#xff1f…...

2026/7/21 3:12:59 阅读更多 →

从零到一：基于Docker-Compose的Vulhub靶场快速部署与实战指南

1. 为什么选择Docker-Compose部署Vulhub靶场？ 第一次接触网络安全实战训练时，最头疼的就是环境搭建。传统方法需要配置各种依赖库、解决版本冲突，光是安装Web服务器和数据库就可能耗费大半天时间。直到发现Vulhub这个开箱即用的漏洞靶场&…...

2026/7/21 21:56:44 阅读更多 →

如何用开源字体解决中文排版难题？专业方案解析

如何用开源字体解决中文排版难题？专业方案解析【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 3步实现企业级字体部署在数字化设计与开发领域，中文字体选择长…...

2026/7/21 19:47:58 阅读更多 →