【具身智能】VLA 赛道图谱(全景横评)
研究日期: 2026-05-13覆盖范围: 主流 VLA 模型 触觉/多传感器扩展 中国玩家数据基础: 公开论文 arXiv 5 篇精读 RynnVLA-002 源码一、什么是 VLAVLA Vision-Language-Action吃图像文字指令吐机器人动作的端到端模型。它替代了什么传统机器人的感知模块 规划模块 控制模块三层 pipeline现在用一个大模型端到端搞定。核心问题它解决了泛化性。传统机器人换个杯子就要重新编程VLA 模型见过 100 种杯子后第 101 种也能拿。二、第一梯队通用 VLA 主干拼基础模型出品时间参数量核心特点RT-2Google DeepMind2023-0755BVLA 鼻祖PaLM-E 衍生闭源OpenVLAStanford2024-067B开源 VLA 标杆Llama2 基底π0 (Pi-Zero)Physical Intelligence2024-10~3B商业闭源Flow Matching 头OctoUC Berkeley2024-0593M-1.3B模块化 Transformer可插拔RynnVLA-002阿里达摩院2025-117B开源 SOTA统一 VLA World Model关键差异点维度OpenVLAπ0RynnVLA-002动作头离散 tokenFlow Matching离散 连续双路多视角单相机单相机第三人称 腕部本体状态❌✅✅世界模型❌❌✅开源✅❌✅LIBERO 成绩~84%~94%97.4%三、第二梯队感官扩展派拼输入主流 VLA 都只吃 RGB语言但真实世界还有很多 RGB 看不见的信号。这一派专攻加感官。触觉 VLATLA中科院 三星arXiv 2503.08548| 2025-03把触觉图像GelSight 类作为独立模态接入 Qwen2-VL24k 触觉-动作-指令数据集关键证明未见过物体形状的泛化任务上TLA 比 Diffusion Policy 高 40%→ 详见 yimu-research/summaries/01-TLA多传感器 VLAOmniVLAMicrosoft ResearcharXiv 2511.01210| 2025-11加红外/声学/毫米波雷达**全部转成伪图像**叠加在 RGB 上RGB-only 25% → OmniVLA 84% 成功率找冷饮/找盒子里东西/找响铃手机→ 详见 yimu-research/summaries/05-OmniVLA异构传感器接入Beyond SightarXiv 2501.04693| 2025-01核心思路用语言作为通用转接头传感器 → 语言描述 → 现成 VLA数据需求降低 10-100 倍5k 条 vs 100k战略价值传感器厂商不用绑定某个 VLA做USB 标准→ 详见 yimu-research/summaries/03-BeyondSight四、第三梯队执行层专精派拼输出灵巧手内操作FBIarXiv 2508.14441| 2025-08专攻问题物体在手里翻转、换握、传递核心创新Shortcut Policy——触觉信号短路直连动作跳过视觉编码触觉 ms 级响应 vs 视觉 100ms 级视触觉融合 纯视觉 纯触觉→ 详见 yimu-research/summaries/02-FBIDiffusion Policy 系非 VLA 但相关用扩散模型生成动作序列被很多 VLA 借鉴为动作头π0 的 Flow Matching 是其轻量化版优势动作平滑劣势推理慢五、数据生产派拼训练弹药Few-shot Sim2RealarXiv 2503.01301| 2025-03力反馈遥操作 高保真渲染 真实数据需求降低 50 倍50-100 条真实数据微调 ≈ 5000 条纯真实数据训练战略价值把采集机器人数据做成生意NVIDIA Isaac Tesla 数据中心范式→ 详见 yimu-research/summaries/04-FewShotSim2RealOpen-X-EmbodimentDeepMind2023 年 22 家机构联合1M 轨迹22 种机器人本体行业最大公开数据集OpenVLA 的基底六、中国玩家速览公司定位拳头产品路线阿里达摩院开源派RynnVLA-002, RynnRCP, RynnEC全栈开源技术品牌银河通用VLA 主干派GraspVLA训自己的通用大脑自变量全栈派自研 VLA 整机模型硬件一体千寻智能全栈派自研 VLA 双足机器人对标 Figure帕西尼触觉感知派多模态触觉传感器卡感知层入口一目科技触觉灵巧手SENTRA DEXTRA走 Beyond Sight 路线七、五维评估矩阵选型参考通用性 精度 开源 硬件依赖 商用成熟度 RT-2 ★★★ ★★★ ❌ 高 中 OpenVLA ★★★ ★★ ✅ 中 中 π0 ★★★ ★★★★ ❌ 低 高 RynnVLA-002 ★★★ ★★★★ ✅ 中 中 TLA ★ ★★★★ 部分 高触觉 低 OmniVLA ★★ ★★★★ 未知 高多传感器低选型建议想跑通 demo 快速验证 → OpenVLA商用要稳定 → π0如果能拿到想魔改/做研究 →RynnVLA-002做接触密集型任务 → TLA 触觉硬件做 RGB 看不见的场景 → OmniVLA 思路八、三大技术分歧行业未达成共识分歧 1动作表示——离散 vs 连续 vs Diffusion详见06-action-representation.md分歧 2是否需要世界模型派别 ARynnVLA-002要能做规划做数据增强派别 BOpenVLA/π0不要VLA 直接够用World Model 是负担分歧 3感官接入方案——重训 vs 翻译重训派每加新传感器训新 VLAOmniVLA 部分场景翻译派传感器 → 语言/伪图像 → 现成 VLABeyond Sight、OmniVLA 主体九、2026 趋势预判开源 VLA 追上闭源RynnVLA-002 已经触摸 π0 性能上限多传感器融合是必经之路OmniVLA 的 84% vs 25% 太刺激数据飞轮成为护城河训练算法趋同谁有数据谁赢VLA World Model 统一是方向单纯 VLA 解释性差加 World Model 可做心算Sim2Real 突破是商业化拐点仿真数据可用 → 边际成本崩塌十、参考资料OpenVLAPhysical Intelligence π0OctoRT-2RynnVLA-002v1.0 | 2026-05-13 首次建档