EgoScale: 基于多样化第一人称视角人类数据的灵巧操作规模化
NVIDIA、加州大学伯克利分校和马里兰大学的研究人员开发了EgoScale这是一个利用超过20000小时以自我为中心的人类视频来训练灵巧机器人操作策略的框架。该方法使22自由度机械手在任务完成率和成功率方面提高了54%建立了人类数据的对数线性标度律并实现了单次任务适应和跨实体泛化。目录概述方法论与技术途径主要发现与结果贡献与意义概述EgoScale提出了一种通过大规模人类数据学习灵巧机器人操作的系统方法证明了人类行为数据可以作为复杂机器人控制任务的主要训练信号。这项工作解决了机器人学中的一个基本挑战如何将人类日常展示的丰富操作技能高效地转移到具有高度自由度的机器人系统上。该研究将人到机器人的转移确立为一种规模化现象表明增加人类训练数据的量会导致机器人性能的可预测改进。作者利用超过20,000小时的以自我为中心的人类视频数据——比以往的努力大20多倍——训练视觉-语言-动作模型这些模型可以控制22自由度的灵巧机械手执行复杂的操纵任务。方法论与技术途径EgoScale框架采用两阶段训练方案将大规模多样化预训练与精确的具身对齐解耦。该方法以视觉-语言-动作VLA模型架构为核心该架构处理以自我为中心的图像和语言指令以预测机器人动作序列。人类动作表示该方法的一个关键组成部分是将人类传感器流转换为机器人兼容的动作表示。系统使用相对变换捕捉手腕级的手臂运动$$\Delta W_t (W_0^w)^{-1} W_t^w$$这种表示使得运动指令对全局摄像机运动保持不变同时保留了局部手臂动力学。对于手部关节运动系统通过基于优化的程序将人类手部姿态21个关键点重新映射到目标机械手的22自由度关节空间。数据来源与处理训练数据包括两个不同类别服务于不同的目的第一阶段数据20,854小时来自不同真实世界环境包括家庭、工业和零售环境的大规模以自我为中心的人类记录。虽然嘈杂且不受约束但这些数据提供了各种场景、任务和对象的操作行为的广泛覆盖。第二阶段数据总计54小时一个较小但经过精心对齐的数据集其中人类和遥控机器人在匹配的环境中执行相似的桌面操作任务。这些数据弥合了人类演示和机器人执行之间的领域差距。训练流程三阶段训练过程系统地利用了两种数据类型人类预训练VLA模型在20,854小时的人类数据上训练100,000步所有参数都更新以吸收大规模行为模式。对齐中期训练在对齐的人机数据集上进一步训练50,000步其中视觉-语言骨干网络被冻结仅更新视觉编码器和动作组件。任务特定微调在机器人演示每个任务通常100条轨迹上进行最终调整持续10,000步。主要发现与结果规模化定律的发现研究揭示了人类数据量与模型性能之间存在清晰的对数线性关系。验证损失随数据增加呈对数下降$$L 0.024 - 0.003 \times \ln(D)$$其中D表示数据量小时R² 0.9983。这种验证损失与真实机器人任务性能密切相关平均任务完成率从1,000小时训练数据的0.30单调增加到20,000小时的0.71。性能改进经过人类预训练和对齐中期训练的模型实现了显著的性能提升与没有人类预训练的基线相比平均任务完成率提高了54%以上评估的操作任务的平均成功率提高了54%在需要精细手指关节运动的任务中持续改进涌现能力这种结合的训练方法实现了卓越的泛化特性一次性任务适应仅凭一次机器人演示并辅以对齐的人类数据该系统在衬衫折叠任务上取得了88%的成功率在拧开瓶盖任务上取得了55%的成功率——这些能力是在没有针对这些特定任务进行明确训练的情况下涌现出来的。跨具身迁移经过人类预训练的策略成功迁移到截然不同的机器人硬件上包括一个7自由度的三指手相比仅通过机器人训练成功率绝对提升了30%以上。动作表示分析消融研究证实重定向的关节空间手部动作在各种操作任务中提供了最稳定一致的性能。腕部运动或指尖控制等替代表示方法表现不佳特别是对于需要精确手指协调的任务。贡献与意义EgoScale 为机器人学和具身AI领域做出了几项重要贡献建立预测性缩放定律这项工作首次提供了系统性证据表明人到机器人的迁移遵循可预测的缩放关系类似于在大型语言模型中观察到的关系。这使得研究人员能够估算达到目标性能水平所需的数据量。展示大规模迁移通过成功利用超过20,000小时的人类数据来训练灵巧操作策略这项研究表明人类行为数据可以作为复杂机器人控制的主要而非辅助训练信号。高效迁移方案大规模预训练后进行有针对性对齐的两阶段方法为在不进行大量机器人特定数据收集的情况下开发有能力的操作策略提供了一条实用途径。跨具身泛化在显著不同的机器人手22自由度到7自由度之间成功迁移表明人类运动提供了与具身无关的运动先验知识可以适应各种硬件平台。这项工作将人类行为数据定位为开发复杂机器人操作能力的可扩展基础可能加速灵巧机器人在现实世界应用中的部署。所建立的缩放定律和迁移方法为未来从人类演示中学习物理智能的研究提供了科学框架。Egovla从第一人称人类视频中学习视觉-语言-动作模型本文是一项基础性相关工作它也预训练了一个基于人类手部运动的视觉-语言-动作 (VLA) 模型用于机器人迁移。EgoScale 论文明确比较了其手部动作表示重定向关节与 EgoVLA 中使用的基于指尖的表示使其成为一个直接的方法学基准。Ruihan Yang, Qinxi Yu, Yecheng Wu, Rui Yan, Borui Li, An-Chieh Cheng, Xueyan Zou, Yunhao Fang, Xuxin Cheng, Ri-Zhao Qiu, et al. Egovla: Learning vision-language-action models from egocentric human videos. arXiv preprint arXiv:2507.12440, 2025.第一人称模仿通过自我视角视频实现模仿学习的规模化EgoMimic是一项高度相关的现有工作它也专注于使用以自我为中心的人类数据来扩展机器人模仿学习。EgoScale论文将其贡献特别是扩展定律的发现以及使用了超过20倍的数据定位为与EgoMimic等早期工作形成鲜明对比。Simar Kareer, Dhruv Patel, Ryan Punamiya, Pranay Mathur, Shuo Cheng, Chen Wang, Judy Hoffman, and Danfei Xu. Egomimic: Scaling imitation learning via egocentric video, 2024. URL https://arxiv.org/ abs/2410.24221.Gr00t n1通用型人形机器人开放基础模型这一引用至关重要因为 EgoScale 论文明确指出其模型遵循类似于 GR00T N1 的基于流的 VLA 架构。它还采用了 GR00T N1 中所用的具身条件适配器这使其成为该论文模型架构和方法论的一个基本参考。NVIDIA, :, Johan Bjorck, Fernando Castañeda, Nikita Cherniadev, Xingye Da, Runyu Ding, Linxi Jim Fan, Yu Fang, Dieter Fox, Fengyuan Hu, Spencer Huang, Joel Jang, Zhenyu Jiang, Jan Kautz, Kaushil Kundalia, Lawrence Lao, Zhiqi Li, Zongyu Lin, Kevin Lin, Guilin Liu, Edith Llontop, Loic Magne, Ajay Mandlekar, Avnish Narayan, Soroush Nasiriany, Scott Reed, You Liang Tan, Guanzhi Wang, Zu Wang, Jing Wang, Qi Wang, Jiannan Xiang, Yuqi Xie, Yinzhen Xu, Zhenjia Xu, Seonghyeon Ye, Zhiding Yu, Ao Zhang, Hao Zhang, Yizhou Zhao, Ruijie Zheng, and Yuke Zhu. Gr00t n1: An open foundation model for generalist humanoid robots, 2025. URL https://arxiv.org/abs/2503.14734.Egodex从大规模第一人称视角视频中学习灵巧操作这篇论文是EgoScale预训练阶段所使用的一个重要数据集的来源。作者明确指出他们纳入了829小时的EgoDex数据集以提供更高精度的运动学信号这补充了他们更大、更嘈杂的野外数据并且对其数据策略至关重要。Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, and Jian Zhang. Egodex: Learning dexterous manipulation from large-scale egocentric video, 2025. URL https://arxiv.org/abs/2505.11709.