美团CVPR 2026中稿精选:视觉生成遇上慢思考,解码多模态推理新范式
点亮“☆”星标不错过推送内容~CVPRIEEE/CVF Conference on Computer Vision and Pattern Recognition是计算机视觉和模式识别领域中顶级的国际学术会议。多年来CVPR 成功汇聚了上述领域的一流研究人员和开发人员为交流有关计算机视觉、人工智能和机器学习研究的最新发展提供了一个国际论坛。2026 年美团技术团队共有十多篇论文被 CVPR 收录本文精选了其中的 10 篇论文Main Conference进行分享技术方向覆盖跨粒度关联、实时交互、数字人、可控图像定制、平面设计等领域希望能够对从事相关研究的同学以帮助或启发。 活动预告5 月 21 日周四下午我们将分享 CVPR 6 篇论文Main Conference相关知识点和技术思考扫码预约开播提醒文末附更多详细信息。报名预约开播提醒 https://hdxu.cn/1HZCj01U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual GenerationU-Mind面向实时多模态交互与视听生成的统一框架论文类型CVPR Main Conference论文下载https://arxiv.org/abs/2602.23739论文简介针对生成式 AI 实时交互中逻辑混乱和音画不同步的挑战论文推出了全栈多模态对话系统 U-Mind。该系统在统一交互环路中支持语言、语音、动作和视频生成核心采用“统一对齐与推理框架”通过分段对齐策略和“排演驱动学习”机制确保多模态输出的严丝合缝并保持逻辑推理能力。实验表明U-Mind 在多模态问答及指令遵循等任务上均达到当前顶尖水平SOTA。02Active Intelligence in Video Avatars via Closed-loop World Modeling主动智能视频化身基于闭环世界建模论文类型CVPR Main Conference论文下载https://arxiv.org/abs/2512.20615论文简介论文探讨了视频数字人从“被动执行”向“主动感知与决策”的转变提出了 L-IVA 任务基准及 ORCA主动推理与闭环行动框架。ORCA 通过“观察-思考-行动-反思OTAR”闭环机制赋予数字人自主规划、记忆维护和主动提问能力。配合发布的 L-IVA 评测集实验证明 ORCA 在长时序、多步任务场景中显著优于现有方法为构建主动智能视频助手提供了新思路。03PositionIC: Unified Position and Identity Consistency for Image CustomizationPositionIC面向图像定制化的统一位置与身份一致性论文类型CVPR Main Conference论文下载https://arxiv.org/abs/2507.13861论文简介PositionIC 是一个面向多主体可控图像定制的框架旨在解决主体精确摆放与自然交互问题。研究构建了自动化管线 BMPDS 以生成高质量空间标注数据并引入可见性感知注意力机制通过体渲染启发的权重调制实现空间与身份特征的有效解耦。该方案轻量高效在保持身份一致性、空间精度与视觉自然度方面显著优于现有方法适用于电商展示及内容创作等真实应用场景。04PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward FeedbackPosterOmni基于任务蒸馏与统一奖励反馈的通用艺术海报生成论文类型CVPR Main Conference论文下载https://arxiv.org/pdf/2602.12127论文简介本论文提出了通用艺术海报生成框架 PosterOmni通过“数据—蒸馏—奖励”流水线整合了局部编辑与全局创作。该方法构建了涵盖六种任务的多场景数据集从专业模型中提炼知识并利用“统一奖励反馈”机制确保生成结果符合人类审美偏好。实验显示PosterOmni 在图像保真度和设计质量上显著优于现有基准相关代码已开源至 MeiGen-AI 仓库。05PosterReward: Unlocking Accurate Evaluation for High-Quality Graphic Design GenerationPosterReward面向高质量平面设计生成的精准评估解锁论文类型CVPR Main Conference论文下载https://alexlai2860.github.io/mypaper/posterreward/PosterReward_Arxiv_official.pdf论文简介针对现有奖励模型难以捕捉字体、布局等精细平面设计元素的问题论文构建了利用多模态大模型自动生成偏好对的流程并提出多阶段奖励模型 PosterReward。该模型有效解决了高质量平面设计偏好数据匮乏的难题能够对图形设计进行精准评估。实验表明PosterReward 在电商及影视海报的打分与分析性能上显著优于现有模型。06UniComp: Rethinking Video Compression Through Informational UniquenessUniComp基于信息唯一性的视频压缩新思考论文类型CVPR Main Conference论文下载https://arxiv.org/pdf/2512.03575论文简介UniComp从信息论角度重构视频压缩。研究将压缩形式化为最小化条件熵HX|S问题建立信息独特性与重建误差的理论关联证明最大化保留Token独特性等价于最小化信息损失。框架包含三个模块仅需两个超参数无需修改模型结构跨架构通用。实验表明 5%极端压缩下仍能保留关键语义细节。07OneThinker: All-in-one Reasoning Model for Image and VideoOneThinker图像与视频全能推理模型论文类型CVPR Main Conference论文下载https://arxiv.org/pdf/2512.03043论文简介针对现有视觉强化学习模型受限于单一模态或任务的“专才”局限本论文提出了统一的多模态视觉推理通才模型 OneThinker。研究团队不仅构建了覆盖图文与视频、包含十类核心视觉任务的统一数据集 OneThinker-600k还创新性地提出了 EMA-GRPO 算法有效解决了多任务强化学习训练中的奖励不平衡问题。实验表明该模型横扫了 31 个主流基准测试展现出极强的零样本泛化能力目前相关代码与数据已全部开源。08Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views (3DThinker)Think with 3D基于有限视角的几何想象力驱动空间推理3DThinker论文类型CVPR Main Conference论文下载https://arxiv.org/pdf/2510.18632论文简介为弥补当前多模态大模型大多停留在 2D 推理、缺乏三维几何结构表达的缺陷论文提出了首个内蕴三维空间意象的“Think with 3D”推理范式 3DThinker。该方法无需 3D 标注数据通过“监督蒸馏”与“强化训练”二段式潜空间对齐机制将 3D 基础模型特征注入推理链让模型在生成文本时学会“脑补”几何特征。实验证明该方法大幅刷新了空间推理性能的 SOTA且具备能够直接从生成的 3D 潜变量中恢复出三维点云的极强可解释性。09Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual GenerationThinking-while-Generating在视觉生成全过程中交织文本推理论文类型CVPR Main Conference论文下载https://arxiv.org/abs/2511.16671论文简介针对文生图模型在复杂空间控制上的偏差以及传统修改策略缺乏灵活性或开销巨大的局限论文首创了在单一轨迹中深度交织文本推理与视觉生成的 TwiG 框架。该方法将生成过程拆解为“生成-思考-再生成”的循环让模型像人类画师一样在作画时通过规划思维时间表、生成思维链和触发自我批判局部重画来进行动态修正。实验表明TwiG 显著减少了生成幻觉其强化学习版本在关键指标上已能匹敌 FLUX.1 等顶尖模型相关代码及项目已全部开源。10UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language ModelsUFVideo面向统一细粒度视频协作理解的大语言模型论文类型CVPR Main Conference论文下载https://arxiv.org/abs/2512.11336论文简介针对视频大语言模型在跨粒度关联上的局限论文提出了统一框架 UFVideo。该框架通过视觉-语言引导对齐机制融合大语言模型的生成能力与 SAM2 掩码解码器实现了全局问答、像素级分割及时间定位等多粒度任务的协同处理。此外研究构建了包含三个全新协同任务的综合基准测试 UFVideo-Bench。实验证明UFVideo 在常规视频理解、目标指代等 9 个基准测试中均达到领先水平。活动预告识别海报二维码或访问下方链接报名https://hdxu.cn/1HZCj