MEM: Multi-Scale Embodied Memory for Vision Language Action Models

张

张建站

2026/5/26 6:29:10

10分钟阅读

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

MEM视觉语言动作模型的多尺度具身记忆头图“用于短视界图像记忆的高效视频编码器以及用于捕获长视界记忆的基于语言的记忆机制。”“在这项工作中我们的主要见解是用于长视野机器人控制的有效内存架构应该结合多种模式来捕获这些不同的抽象级别。我们引入了多尺度嵌入记忆MEM这是一种在机器人策略中使用混合模式长视野记忆的方法。 MEM 将通过视频编码器压缩的基于视频的短视野内存与基于文本的长视野这个比较好理解看下图2左侧VLM部分内存相结合。”“基于这些观察我们引入了多尺度体现记忆MEM这是一种为策略配备多模式、长视野记忆的系统。 MEM 结合了两种关键成分使长视野记忆变得易于处理。首先我们使用视频编码器架构将多秒的基于图像的密集内存有效地编码为紧凑的表示。其次我们引入了一种基于语言的记忆机制其中策略以压缩语言格式跟踪语义事件。这种记忆系统不仅可以适应非常长的视野任务还可以通过利用短期记忆来实现各种新功能例如上下文适应以纠正错误以及对部分可观察性和自遮挡的恢复能力。”“我们将动作预测问题分解如下”“我们将行动的概率分为低级策略 πLL和高级策略 πHL。低级策略对以任务目标 g、较短的观察序列 (K ≪ T ) 和子任务指令 lt1 为条件的动作序列进行建模。子任务指令又是由高层策略生成的高层策略不仅以任务目标为条件而且也是对自然语言中先前语义事件的总结。下面我们将这种总结称为语言记忆。它使我们能够显着减少输入到模型的密集观测值的数量 K ≪ T而不会牺牲捕获几分钟左右的记忆的能力。”“我们的架构通过将在每个观察中应用双向空间注意力的层白色箭头与在观察中额外应用因果时间注意力操作的层黑色箭头交错扩展了用于编码视频输入的标准 ViT。我们在 ViT 上层中删除过去时间步的观察令牌以压缩输入并减少传递到 VLA 主干的令牌数量。”“然后我们在 ViT 的每第 4 层修改注意力机制以纳入空间如 ViT 中的标准和时间上下文。为了避免在时间和空间上的大量总补丁上进行过于昂贵的联合注意力操作我们的架构将注意力分解为单独的空间和时间注意力操作。每第 4 层通过使用因果注意掩模“时间”对同一图像块的时间步表示进行注意在时间维度上附加地增加注意力 - 请参阅图 4 的视觉描述”“这将每层中相应注意力的计算复杂度从 O(n2K2)对于时间和空间上的朴素注意力降低到 O(Kn2 nK2)。最后为了减少后续 VLA 变压器主干处理的补丁数量我们仅传递为当前时间步长计算的表示删除过去时间步中所有补丁的表示。因此我们的视频编码器与通常在没有内存的单步 VLA 中传递到 VLA 主干的令牌数量相匹配我们有效地迫使视频编码器将时间信息合并到为当前观察生成的表示中通过修改后的注意机制。我们的视频编码器的一个关键特性是与标准的单图像 ViT 相比它不会引入新的可学习参数。通过修改 ViT 的注意力模式并添加固定的正弦时间位置编码来添加视频编码功能。因此我们可以根据任何标准视觉语言模型的预训练 ViT 权重来初始化视频编码器的权重就像在无记忆 VLA 中一样。为了最大化特征传输我们确保对于 K 1即单图像输入我们的编码器的初始化与 VLM 的初始化完全匹配这是通过在 t 0 时值为 0 的正弦时间位置嵌入来实现的。总之我们的视频编码器架构允许我们有效地将基于观察的内存扩展到数十秒而不会在训练或推理期间产生过高的计算开销图 3同时允许从预训练的初始化视觉语言模型权重。”

Excel摊销表实战：用PMT、IPMT、PPMT精准生成360期贷款还款计划

1. 这不是Excel表格，而是一张贷款的“生命体征监测图”我做财务建模和信贷分析十多年，经手过上千份贷款文件，也教过几百个刚入行的同事怎么拆解还款逻辑。很多人第一次听说“摊销表”（Amortization Schedule）&#xff…...

2026/5/26 6:28:39 阅读更多 →

[Git] Vibe Coding一个Git分支保护管理工具

背景故事由于项目管理需要，之前部署过一个Git的钩子，用来控制项目的分支代码提交权限。详见这篇博文：《[Git] SSHGit 实现控制分支的提交权限》。苦于没有界面，使用起来不太方便，每次都得去修改脚本。然后想到现在…...

2026/5/26 6:28:18 阅读更多 →

保姆级教程！互联网用户行为日志数据加工全流程（半结构化解析 + ETL聚合 + 完整源码）

#助睿数智 #商业数据分析 #数据集成 #ETL #用户画像 #大数据处理一、实验背景 1.1 实验目的本次实验依托助睿数智（Uniplore）零代码数据集成平台，通过对首届中国互联网数据挖掘竞赛公开数据集的浏览器用户行为日志进行数据加工&#xff0…...

2026/5/26 6:28:17 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/25 5:34:47 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/25 7:22:06 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/25 6:52:07 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/25 17:59:32 阅读更多 →