点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐来源IRMV实验室IRMV实验室TPAMI26成果介绍第一人称视角下的通用人手运动预测框架论文题目Uni-Hand: Universal Hand Motion Forecasting in Egocentric Views作者Junyi Ma, Wentao Bao, Jingyi Xu, Guanzhong Sun, Yu Zheng, Erhang Zhang, Xieyuanli Chen, Hesheng Wang*项目地址https://irmvlab.github.io/unihand.github.io01、背景与挑战人手是人与世界产生交互的最重要媒介之一。在服务机器人和增强现实等场景中系统不仅需要理解人当前在做什么更需要提前判断人手接下来会移动到哪里、何时与物体接触。若能从第一人称视角视频中预测未来手部运动就可以为机器人等自主系统提供直观、可迁移的动作先验。现有人手轨迹预测方法通常依赖二维图像输入难以充分刻画手指、手腕等细粒度目标也缺少对手-物接触和分离时刻的判断。此外第一视角中的头部运动与手部运动高度耦合只利用过去的人手运动作为预测输入会限制模型对未来交互过程的理解。更重要的是现有的人手运动预测算法方法主要在轨迹误差上验证效果尚未充分说明其对真实机器人操作和动作理解任务的价值。围绕这些问题本文提出Uni-Hand将人手运动预测从“单一中心点轨迹预测”扩展为“多模态、多目标、交互感知、任务条件化”的通用框架并通过真实机器人和动作理解任务验证其下游可用性。02、算法框架图1 Uni-Hand算法框架图Uni-Hand 的整体思想是用多模态信息补足第一视角观测的不确定性用未来头部运动约束手部预测用目标指示符统一不同手部关键点并将预测结果直接连接到可执行的下游任务。相比只预测人手中心的传统范式Uni-Hand同时实现视觉语义理解、人手运动模式捕捉、人手关节运动感知、手-物接触分离时刻预测并通过预测结果支撑下游任务。其算法框架如图1所示。多模态输入与统一表征Uni-Hand 同时利用第一视角图像、历史手部轨迹、点云和文本提示。图像与语言特征帮助模型捕获手、物体和任务语义点云提供真实三维结构历史轨迹提供局部运动趋势文本提示则为语言条件化操作提供接口。这种融合降低了单一图像输入带来的几何歧义也使模型更适合真实机器人场景。视觉语言融合模块和点云编码模块如图2、图3所示。图2 视觉语言融合模块图3 点云编码模块手头协同的双分支扩散预测如图4所示人类在操作物体时头部视角和手部动作并不是独立发生的。Uni-Hand 设计了双分支扩散模型一条分支预测未来头部相机运动趋势另一条分支在该趋势约束下预测手部运动。这样模型能够显式学习手和头之间的协同关系使预测轨迹在方向性和稳定性上更符合真实交互过程。图4 第一视角交互中头部运动和手部运动相互影响。头部可能先移动以寻找目标手部运动也可能引导后续视角变化混合Mamba-Transformer降噪模块在手部运动分支中Uni-Hand的混合Mamba-Transformer降噪模块如图5所示结合Mamba 的时序建模能力与Transformer的全局上下文建模能力。运动感知 Mamba 负责利用相机运动信息建模长时序变化结构感知Transformer引入点云体素上下文使预测更关注可达空间和物体布局任务感知 Transformer 将任务文本特征注入扩散模型去噪过程让同一场景下的不同指令产生不同的手部运动结果如图6所示。图5 混合Mamba-Transformer降噪模块图6 任务文本注入后不同操作指令会在未来手部运动特征中形成更明显差异说明模型能够感知具体任务意图多目标与交互状态预测Uni-Hand 通过目标指示符统一建模人手中心、手腕和手指关键点使一个模型能够服务于不同粒度的预测需求。同时模型还预测手与物体的接触和分离状态。对机器人来说轨迹决定“移动到哪里”交互状态则决定“何时抓取或释放”二者结合才更接近机器人可执行动作。接触和分离状态的训练标签可以由EgoLoc自动标注。03、实验结果论文在多个公开数据集和两个自建基准上进行验证覆盖二维与三维手部轨迹预测、多关节预测、真实机器人操作、动作类别预测、和动作识别等任务。整体结果表明Uni-Hand 在主要预测指标上优于现有方法并且预测特征可以有效迁移到下游任务。预测精度与多目标能力验证在人手中心点预测中Uni-Hand 受益于多模态输入和未来相机运动约束在二维与三维空间均取得更稳健的结果如图7和图8所示。多目标实验说明目标指示符可以帮助模型区分不同手部关键点从而在统一框架内完成手腕和多手指关节轨迹预测如图9所示。图7 三维手部轨迹预测可视化图8 二维手部中心预测可视化图9 多关节预测可视化自建基准与真实机器人验证如图10所示在自建 HAT 基准中Uni-Hand 将预测到的人手轨迹和交互状态直接转化为机器人末端夹爪动作。实验覆盖推、抓放、堆叠、任务指令下的抓放以及长程抓放等任务。结果显示Uni-Hand不仅降低了轨迹预测误差还在真实机器人执行中显著提升任务成功率体现了人手运动预测对人机策略迁移的实际价值。图10 真机实验验证动作理解任务增强验证除机器人操作外Uni-Hand 预测的未来手部运动还包含丰富的人类行为语义。如图11和表1所示将降噪后的运动特征注入已有动作预测和动作识别框架后模型对动作类别的判断更准确。这说明 Uni-Hand并不是单纯追求轨迹误差更低而是提供了一种可复用的手部行为表征。图11 动作预测性能提升表1 动作识别性能提升更多可视化和消融实验详见原论文。04、总结与展望本文提出Uni-Hand一个面向第一人称视角的通用人手运动预测框架。它将多模态感知、手头协同建模、多目标手部关键点预测、接触状态预测整合到同一体系中使人手运动预测从低层轨迹估计进一步走向可执行、可迁移的任务表征。从实验结果看Uni-Hand在公开数据集、自建基准和真实机器人平台上均展示了良好的预测能力与下游适配能力。未来工作可进一步结合触觉等物理信息让模型在更复杂、更精细的机器人操作中理解抓取力度、接触稳定性和物体状态变化从而推动第一视角人类视频向更复杂机器人技能学习的迁移。文案Junyi Ma编辑Junyi Ma本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看