这项由清华大学与ModelBest联合开展的研究以预印本形式于2026年5月9日发布于arXiv平台编号为arXiv:2605.08985。感兴趣的读者可通过该编号直接检索原始论文。**一场关于看图效率的革命**手机里的AI助手越来越聪明了——你拍一张菜单它帮你翻译你上传一页合同它帮你找出关键条款你发一张数学题的照片它帮你一步步推导答案。这些能力背后有一类被称为多模态大语言模型的技术在默默支撑它们既能理解文字又能理解图像是当下AI领域最热门的研究方向之一。然而这类模型有一个鲜为人知的烦恼每当它们处理一张高清大图时计算机内部要做的数学题会多到令人咋舌。分辨率越高、图片越大计算量就呈爆炸式增长速度变慢、耗电量飙升甚至需要更昂贵的硬件支撑。研究人员们为此绞尽脑汁试图找到一种既快又好的处理方式。清华大学的这支团队决定从根子上重新审视这个问题。他们发现整个行业长期以来都在沿用一种看起来合理、实际上可以做得更好的处理流程。通过两个关键改变他们让模型处理高清图片的计算量直接减少了55.8%同时在多项权威测试上的表现不仅没有下降甚至在某些任务上还略有提升。这个系统被命名为LLaVA-UHD v4。**一、AI是怎么看图的先搞清楚这个问题**要理解这项研究的突破先得搞清楚AI处理图片的流程就像了解一个工厂的生产线一样重要。现有的多模态AI系统处理图片时大致经过两个关键环节。第一个环节是视觉编码可以把它理解为图片进入AI大脑后的预处理阶段——负责这个工作的是一个叫做视觉编码器Vision Transformer简称ViT的组件它把图片分成很多小格子称为图块或token然后让每个小格子都和其他所有小格子互相交流从而理解图片的内容。第二个环节是语言理解经过视觉编码器处理后这些小格子的信息被送入语言大模型语言模型把视觉信息和文字问题结合起来给出最终的回答。问题恰恰出在第一个环节。当图片很大、很清晰时被切成的小格子数量就会非常多。而视觉编码器在处理这些格子时要让每个格子都和其他所有格子互相交流——这个过程的计算量会随着格子数量的增加呈**平方级增长**。格子数量翻一倍计算量就变成原来的四倍格子数量增加三倍计算量就变成原来的九倍。这就是高清图片处理效率瓶颈的根本所在。当前业界的主流做法是在视觉编码器完成全部计算之后再用一个压缩器把大量格子合并压缩减少送入语言模型的信息量。这样做确实减轻了语言模型的负担但视觉编码器内部那海量的计算已经发生了无法追回。这就好比一家餐厅厨房已经把一百道菜全部做完了才意识到其实顾客只需要二十道——食材和时间都已经消耗掉无法挽回。清华团队的核心洞察是**问题要在源头解决**。他们从两个方向同时入手——重新审视图片送进编码器之前的处理方式以及在编码器内部更早地完成压缩工作。**二、一个被业界忽视的直觉切片比整体更好**当一张高清大图需要被AI处理时通常有两种策略。第一种叫全局编码把整张图片直接塞进视觉编码器让它一次性处理所有内容。第二种叫切片编码把大图切成若干个小块让编码器分别处理每个小块再把结果合并。直觉上全局编码听起来更好——毕竟编码器能看到完整的图片所有区域之间都能互相交流没有信息损失。切片编码则像是蒙住了编码器的大部分视野只让它一次看一小块似乎会丢失跨区域的整体信息。正因如此业界许多领先的多模态模型包括一些知名商业产品背后的技术方案都倾向于使用全局编码。然而清华团队通过严格的对比实验发现这个直觉是错的。在使用相同的视觉编码器、相同的语言模型、相同的训练数据量以及相同的最终压缩比例的条件下切片编码在几乎所有测试中都优于全局编码有时差距还相当显著。研究团队在一系列涵盖数学推理、文字识别、图表理解、视觉问答等多种类型的八项权威测试上进行了系统比较分别测试了4倍压缩和16倍压缩两种设置以及400万和800万两种规模的训练数据总计四种组合。在所有四种组合中切片编码的平均得分均高于全局编码优势幅度从0.5分到1.7分不等。尤其值得关注的是文字识别类任务OCRBench测试。在这类任务中AI需要识别图片中的小字、表格数字、文档内容等细节对局部精度要求极高。切片编码在这类任务上的优势最为突出在四种测试设置中分别领先3.6到5.5分——这是一个相当显著的差距。为了确保这个结论不是偶然团队还用另一个视觉编码器MoonViT一个专门针对原始高分辨率图像训练的模型重复了实验结果切片编码依然保持了约1.5分的平均优势当他们把切片的分辨率进一步提升使用更大的切片方案时优势进一步扩大到超过2分而且没有出现饱和的迹象。为什么切片编码反而更好研究团队给出的解释颇有意思。关键不在于全局信息的有无而在于注意力资源的分配方式。全局编码时编码器要同时处理整张大图的所有内容一张复杂文档图片里文字区域的细节要和图片背景、装饰元素争夺同等的计算资源。而切片编码时每个小块内的注意力资源是高度集中的编码器能更充分地挖掘每个区域内部的精细结构——比如密密麻麻的小字、表格中的数字格式、图表的局部标注。这种局部专注的特性恰好契合了高清图片处理中最难也最重要的需求对细节的精准感知。**三、压缩器的选择简单的结构往往赢过复杂的结构**确定了切片编码更优之后团队还需要回答另一个问题视觉编码器输出的大量格子在送入语言模型之前用哪种方式压缩效果最好目前业界主要有两类方案。一类叫重采样器原理是让一批预先设定好数量的学习查询可以理解为一批代言人通过类似投票的方式从大量视觉格子中汇集信息把成百上千个格子的内容压缩到几十个代言人身上。这种方法在Flamingo、BLIP-2等知名模型中被广泛使用。另一类叫MLP压缩器原理更直接把相邻的几个格子合并成一个把它们的特征信息拼在一起再经过一个简单的神经网络映射完成压缩。研究团队在相同条件下对两者进行了对比。结果是MLP压缩器在所有测试设置中都优于重采样器在压缩比例较低4倍压缩时优势最为明显领先幅度达到3.3到6.7分。随着压缩比例增大16倍压缩、训练数据规模增加差距有所收窄但MLP始终保持领先。背后的原因其实并不复杂。MLP压缩器是把相邻的格子直接合并——合并后的每个新格子仍然对应图片中一个明确的局部区域空间位置信息被完整保留。重采样器则是通过学习的方式动态汇聚信息输出的代言人不再和图片中的固定位置对应空间结构被打乱了。对于需要理解图片局部细节和空间关系的视觉任务这种空间结构的保留至关重要而重采样器恰恰在这一点上天然处于劣势。有趣的是重采样器的参数量通常更大在低压缩比设置下尤为明显但参数多并不能弥补空间信息丢失的短板。由此团队确立了以切片编码加MLP压缩器作为基准方案并开始攻克真正的核心难题。**四、在流水线最前端动刀LLaVA-UHD v4的核心创新**切片编码和MLP压缩器组合在一起已经是一个相当不错的方案。但有一个根本性的效率问题仍然没有解决无论压缩器多高效视觉编码器内部的计算量依然没有减少。编码器还是要把每张切片的所有格子走完全部计算流程之后压缩器才能介入。清华团队问了一个简单而关键的问题**为什么不把压缩的时间点提前到编码器内部呢**这个想法看似自然实际操作却充满风险。视觉编码器通常是在海量图片数据上预先训练好的复杂系统其内部每一层都对前一层输出的特征有精确的期望——就像一条精密的流水线每道工序都依赖上一道工序产出特定规格的半成品。如果贸然在中途插入一个随机初始化的压缩模块输出的格子数量突然减少特征分布也随之改变后续各层就会接收到与预期完全不符的输入轻则性能大幅下降重则整个系统崩溃。修复这种损伤需要大量额外的训练而且不一定能完全恢复原来的性能水平。团队设计了一套精妙的解决方案并为它起名叫参数复用早期压缩器intra-ViT early compressor简称D。这个压缩器的核心设计遵循三条原则它必须插在编码器内部而非外部必须尽可能靠前以最大化节省后续层的计算量以及必须不破坏编码器已经学到的特征表示体系。压缩器D的内部结构由两个步骤构成。第一步叫窗口注意力在压缩之前先让每个格子和它相邻的三个格子组成一个2×2的小窗口互相交流、相互融合让每个格子都能感知到自己周围的上下文。这一步很重要因为接下来要把这四个格子合并成一个在合并之前先让它们充分交流信息损失就会小得多。第二步叫下采样融合把这个2×2窗口里的四个格子直接合并成一个通道维度变为原来的四倍再经过一个轻量级的神经网络映射回原来的维度完成压缩。经过这两步原本N个格子变成了N/4个格子序列长度缩短为原来的四分之一。然而如何初始化这个压缩器才是解决破坏原有特征体系问题的关键所在。团队采用了一个极其聪明的策略**直接复用压缩器插入位置前一层的预训练权重来初始化D**。具体来说窗口注意力部分的参数直接拷贝自相邻的编码器层只是把原本的全局注意力换成了局部的2×2窗口注意力注意力机制的权重本身不变。融合MLP部分的参数则被构造成模拟把前一层的前馈网络独立应用于窗口内每个格子然后取平均的操作——这在数学上是可以通过特定的权重矩阵构造实现的。这样一来在训练刚开始的第一步这个压缩器的行为就已经非常接近于先走一遍相邻层的计算再做平均合并而不是随机噪声。系统从一个接近合理的起点开始微调而不是从一片混乱中重新摸索。团队经过实验确定将压缩器插入在编码器第6层之后SigLIP 2编码器共有若干层是效果和效率的最优平衡点。插得太早比如第3层之后会导致灾难性的性能崩溃——平均得分从约70分跌落到不足40分因为编码器前几层刚刚开始处理图片的原始像素信息尚未形成有语义意义的特征此时强行合并等于直接销毁原始信息。插在第9层或第15层之后则效果略低于第6层而且节省的计算量也更少因为越靠后前面已经走完的层就越多。第6层恰好处于一个甜蜜点编码器已经积累了足够的语义特征格子之间的合并是安全的而后续还有大量计算层需要走完将它们的格子数量压缩到四分之一所节省的计算量极为可观。整个LLaVA-UHD v4的完整流程如下一张高清图片先被切分成缩略图加若干高清切片分别送入视觉编码器编码器走完前6层之后压缩器D将每张切片的格子数量压缩为四分之一编码器剩余的层在这个四分之一的格子数量上继续计算编码器输出后MLP压缩器再次将格子数量压缩到原来的四分之一最终送入语言模型的格子数量是初始格子总数的十六分之一而视觉编码器内部后续各层的计算量也降低到了原来的约四分之一。**五、实验结果数字说话**研究团队用五种不同规模的训练数据从400万到6400万样本对LLaVA-UHD v4和仅用编码器后压缩的基准方案进行了系统比较评测在八项标准测试上展开。计算量方面的改善非常直观。处理一张切片所需的视觉编码计算量从基准方案的3555G FLOPs降低到1573G FLOPsFLOPs是衡量计算量的单位降幅达55.75%。换句话说完成同样的视觉编码任务只需要原来不到一半的计算资源。性能方面的表现同样令人满意。在五个训练规模设置下LLaVA-UHD v4的平均得分与基准方案的差距始终在±0.8分以内平均偏差仅为-0.29分——几乎可以忽略不计。随着训练数据从400万扩大到6400万两个系统都在持续进步LLaVA-UHD v4从67.4分提升到75.6分基准方案从68.2分提升到76.2分彼此的差距并没有随着训练规模扩大而系统性地拉大说明这种压缩设计不会在更大规模训练下变成短板。具体到各项测试两个系统互有胜负。LLaVA-UHD v4在数学视觉推理MathVista测试上用6400万数据训练时反而略高于基准方案76.9对76.3在中文多模态理解MMBenchCN测试上用6400万数据训练时二者基本持平86.5对86.4。基准方案在某些通用视觉问答测试上略有优势但差距普遍很小。团队还对压缩器的各种设计变体做了详细对比。仅仅使用最简单的平均池化方法直接把四个格子的值取平均合并插入编码器内部平均得分会从70.6分降到69.6分稍复杂一些的随机初始化MLP压缩器可以恢复到69.8分但依然低于基准方案。只加入参数复用初始化不加窗口注意力能提升到69.9分只加入窗口注意力不做参数复用随机初始化MLP可以提升到70.1分。当两者同时使用时得分达到70.7分不仅回到了基准方案的水平还略微超过了它。研究团队把这个现象描述为超加法效应两种机制合在一起的效果超过了各自单独效果的简单叠加。原因在于窗口注意力让相邻格子在合并前充分交流而参数复用初始化让合并后的格子恰好处于后续编码器层所期待的特征空间中——两者缺一不可单独使用任何一个都不能充分解决压缩之后特征不兼容的问题。**六、研究的局限与未来方向**这支研究团队对自己工作的局限也有清醒的认识并在论文中坦诚地列出了几点值得注意的地方。当前的压缩器对图片所有区域一视同仁以固定的比例进行压缩无论某个区域是密密麻麻的文字还是纯色的背景。更理想的方案应该能根据内容的复杂程度动态调整——对信息密集的区域保留更多格子对信息稀疏的区域更激进地合并。这种按需分配的动态压缩是一个值得探索的方向。此外压缩器插入的最佳位置第6层是专门针对SigLIP 2这个特定的视觉编码器测试得出的结论换用其他结构不同或层数更多的编码器时可能需要重新确定这个参数。切片编码虽然在细节感知上表现出色但它天然地把图片切成了若干独立处理的块不同切片之间的空间关系主要靠一张低分辨率的缩略图来兜底。对于某些需要跨越大范围区域才能理解的视觉问题这种方式仍然存在一定的信息损失。归根结底这项研究最重要的贡献或许不仅仅在于LLaVA-UHD v4这个具体系统而在于它通过严谨的实验证明了两件让业界重新思考的事情那个被默认为更好的全局编码方案实际上未必比切片编码更优以及那个被视为难以逾越的视觉编码器内部压缩难题通过参数复用初始化的巧妙设计是可以安全解决的。当处理高清图片所需的计算量可以砍去一半以上而效果几乎不打折扣这意味着未来AI助手在手机上实时分析高清照片、在低功耗设备上理解复杂文档都变得更加可期。算力不再是拦路虎细节感知的极限也可以持续向前推进。QAQ1切片编码和全局编码有什么本质区别为什么切片编码反而更好A全局编码是把整张图片一次性送入视觉编码器处理所有区域在同一个注意力空间里相互竞争计算资源。切片编码则把大图分成若干小块分别处理编码器在每个小块内能更集中地挖掘局部细节。实验表明对于文字识别、文档理解等需要精细感知的任务这种局部专注的方式比全局注意力更有效在OCRBench测试中领先差距可达3.6到5.5分。Q2LLaVA-UHD v4的参数复用初始化具体是怎么做的A在视觉编码器第6层之后插入压缩模块时该模块的全部参数都直接从相邻的第6层预训练权重复制而来而非随机初始化。窗口注意力部分直接拷贝第6层的注意力权重融合MLP部分则被构造成模拟对窗口内四个格子各跑一次第6层前馈网络然后取平均的数学等效操作。这样训练一开始压缩模块的行为就接近合理状态不会破坏后续编码器层所依赖的特征分布。Q3LLaVA-UHD v4减少的55.75%计算量具体体现在哪里A减少的计算量主要来自视觉编码器内部。压缩模块在编码器第6层之后就把格子数量降低到四分之一编码器后续的所有层都只需要处理原来四分之一数量的格子。由于编码器内部的计算量和格子数量的平方成正比格子数量变为四分之一后后续各层的计算量大约降低到原来的十六分之一整体下来视觉编码的总计算量从3555G FLOPs降至1573G FLOPs降幅为55.75%。