MEM: Multi-Scale Embodied Memory for Vision Language Action Models
MEM视觉语言动作模型的多尺度具身记忆头图“用于短视界图像记忆的高效视频编码器以及用于捕获长视界记忆的基于语言的记忆机制。”“在这项工作中我们的主要见解是用于长视野机器人控制的有效内存架构应该结合多种模式来捕获这些不同的抽象级别。我们引入了多尺度嵌入记忆MEM这是一种在机器人策略中使用混合模式长视野记忆的方法。 MEM 将通过视频编码器压缩的基于视频的短视野内存与基于文本的长视野这个比较好理解看下图2左侧VLM部分内存相结合。”“基于这些观察我们引入了多尺度体现记忆MEM这是一种为策略配备多模式、长视野记忆的系统。 MEM 结合了两种关键成分使长视野记忆变得易于处理。首先我们使用视频编码器架构将多秒的基于图像的密集内存有效地编码为紧凑的表示。其次我们引入了一种基于语言的记忆机制其中策略以压缩语言格式跟踪语义事件。这种记忆系统不仅可以适应非常长的视野任务还可以通过利用短期记忆来实现各种新功能例如上下文适应以纠正错误以及对部分可观察性和自遮挡的恢复能力。”“我们将动作预测问题分解如下”“我们将行动的概率分为低级策略 πLL和高级策略 πHL。低级策略对以任务目标 g、较短的观察序列 (K ≪ T ) 和子任务指令 lt1 为条件的动作序列进行建模。子任务指令又是由高层策略生成的高层策略不仅以任务目标为条件而且也是对自然语言中先前语义事件的总结。下面我们将这种总结称为语言记忆。它使我们能够显着减少输入到模型的密集观测值的数量 K ≪ T而不会牺牲捕获几分钟左右的记忆的能力。”“我们的架构通过将在每个观察中应用双向空间注意力的层白色箭头与在观察中额外应用因果时间注意力操作的层黑色箭头交错扩展了用于编码视频输入的标准 ViT。我们在 ViT 上层中删除过去时间步的观察令牌以压缩输入并减少传递到 VLA 主干的令牌数量。”“然后我们在 ViT 的每第 4 层修改注意力机制以纳入空间如 ViT 中的标准和时间上下文。为了避免在时间和空间上的大量总补丁上进行过于昂贵的联合注意力操作我们的架构将注意力分解为单独的空间和时间注意力操作。每第 4 层通过使用因果注意掩模“时间”对同一图像块的时间步表示进行注意在时间维度上附加地增加注意力 - 请参阅图 4 的视觉描述”“这将每层中相应注意力的计算复杂度从 O(n2K2)对于时间和空间上的朴素注意力降低到 O(Kn2 nK2)。最后为了减少后续 VLA 变压器主干处理的补丁数量我们仅传递为当前时间步长计算的表示删除过去时间步中所有补丁的表示。因此我们的视频编码器与通常在没有内存的单步 VLA 中传递到 VLA 主干的令牌数量相匹配我们有效地迫使视频编码器将时间信息合并到为当前观察生成的表示中通过修改后的注意机制。我们的视频编码器的一个关键特性是与标准的单图像 ViT 相比它不会引入新的可学习参数。通过修改 ViT 的注意力模式并添加固定的正弦时间位置编码来添加视频编码功能。因此我们可以根据任何标准视觉语言模型的预训练 ViT 权重来初始化视频编码器的权重就像在无记忆 VLA 中一样。为了最大化特征传输我们确保对于 K 1即单图像输入我们的编码器的初始化与 VLM 的初始化完全匹配这是通过在 t 0 时值为 0 的正弦时间位置嵌入来实现的。总之我们的视频编码器架构允许我们有效地将基于观察的内存扩展到数十秒而不会在训练或推理期间产生过高的计算开销图 3同时允许从预训练的初始化视觉语言模型权重。”