这项由ServiceNow AI Research、蒙特利尔大学、麦吉尔大学、蒙特利尔理工学院以及加拿大人工智能研究所CIFAR联合开展的研究以预印本形式发表于2026年5月论文编号为arXiv:2605.21463。有兴趣深入了解的读者可以通过该编号查询完整原文。**一段关于记性太好的烦恼**你有没有遇到过这样一种情况朋友给你推荐了一家馆子说那家红烧肉特别好吃结果你到了那里发现今天根本没有红烧肉只有清蒸鱼。朋友的建议并没有错但她的记忆停留在上次她去的时候而那个记忆放到你今天的情况里就完全不管用了。人工智能助手面临的问题和这个类似。当我们让AI帮我们完成一些复杂任务——比如在网上购物、操作企业软件系统、或者完成家务类的虚拟任务——AI往往需要记住过去的经验才能在新任务中少走弯路。于是研究者们开始给AI配备记忆库把过去的经验存起来下次遇到类似情况时翻出来用。但问题来了这种翻出来的记忆往往是死板的。就像你朋友那句红烧肉特别好吃的推荐被原封不动地贴在你今天的菜单上——不管今天有没有红烧肉推荐就是推荐。AI在面对和过去相似但不完全相同的新任务时检索出来的旧经验会带着过去的具体细节把AI引向错误的方向甚至越帮越忙。这篇论文的研究团队决定换一个思路。他们设计了一套叫做**Mem-π**读作Mem-pi的新框架把AI的记忆从仓库里翻档案变成根据当前情况现场生成建议。更关键的是这套系统还学会了判断什么时候应该给出建议什么时候应该保持沉默。---**一、从查档案到现场出主意记忆方式的根本转变**大多数现有的AI记忆系统工作方式有点像图书馆员。图书馆里存了大量书籍也就是过去的经验当你来问一个问题图书馆员根据你的问题找出最相关的那本书递给你。这种方式叫做检索式记忆技术上的名字叫RAG检索增强生成。它的好处是可靠——书里写什么就是什么不会捏造。但缺点也很明显书里写的是过去某个具体情境的经验而你现在的情境可能和当初稍有不同。比如记忆库里有一条经验是找出店铺排名前2的搜索词但你今天的任务是找出前3的搜索词。图书馆员直接递给你那本写着找前2个的书AI就会照着做最终给你错误的答案。原因很简单旧经验的2被原封不动地搬到了新任务里。Mem-π的做法完全不同。它不维护一个需要不断翻阅的档案库而是把大量过去的经验消化吸收到一个专门的小模型里——这个小模型就是所谓的记忆策略模型πmem。当新任务来临这个小模型不是去翻旧档案而是根据当前任务的具体情境现场生成一段量身定制的建议。就像一位资深厨师他不需要翻菜谱而是凭借对烹饪的深刻理解直接告诉你这道菜今天怎么做最好。而且这位资深厨师还有一个更厉害的本领当他判断你这道菜其实很简单或者他的建议可能帮倒忙时他会主动选择闭嘴。这就是Mem-π的弃权机制——系统会自动判断现在需不需要给建议而不是任何情况下都开口说话。---**二、两阶段的成长历程先博览群书再历练实战**Mem-π的记忆策略模型是怎么培养出来的这个过程分为两个阶段可以把它理解为一个年轻厨师的成长故事。第一阶段叫做经验蒸馏。在这个阶段模型要读大量的菜谱集——也就是研究者从AI过去执行任务的轨迹中整理出来的经验提示库。这个提示库由另一个工具JEF-Hinter负责生成它能从长长的操作记录里提炼出关键步骤变成简洁、可复用的操作建议。记忆模型通过监督学习就像临摹字帖大量阅读这些经验把它们内化成自己的知识。完成第一阶段之后模型已经掌握了大量通用知识但还不够聪明——它不知道什么时候该说话也不知道自己生成的建议是不是真的有用。于是进入第二阶段叫做适应蒸馏。在这个阶段模型进入了真实的任务环境通过强化学习来精进自己。强化学习的核心逻辑是你做的事情是否让下游的AI任务成功了成功了就是好的失败了就要反思。模型在真实任务中反复尝试收到任务成功与否的反馈信号逐渐学会两件事第一什么样的建议真正有用第二什么时候应该保持沉默。为了支持保持沉默这个能力研究团队给模型的词表里加了两个特殊标记[GENERATE]我要生成建议和[ABSTAIN]我选择不说话。每次模型接到一个任务它都要先决定说还是不说如果选择说再决定说什么。---**三、训练中的精妙设计让说与说什么分开学习**这里有一个很微妙的技术挑战也是这篇论文最有创意的地方之一。如果你直接用常规方法训练模型同时学要不要说话和说什么内容就会遇到一个不公平的竞争问题。要不要说话只有一两个词[GENERATE]或[ABSTAIN]而说什么可能有几十上百个词。在梯度更新时内容部分的信号会压倒性地盖过决策部分模型根本学不好要不要说话这件事。这就好像你同时评估一个厨师的两件事一是他决定做不做这道菜一个简单的是/否选择二是他怎么做这道菜一整套复杂的操作。如果你把所有反馈放在一起打分怎么做的细节会淹没要不要做这个决定的学习。为了解决这个问题研究团队设计了决策-内容解耦策略优化方法。具体做法是这样的在训练时对于每一个任务模型都会生成一组结构化的尝试——强制包含一个弃权版本和三个生成建议版本。然后研究团队把学习信号拆成两层一层是决策层信号专门用来评估弃权和生成相比哪个更有利这个信号只作用于决策标记另一层是内容层信号用于评估三个生成版本中哪个建议更好这个信号只作用于内容部分的词。更精妙的是内容层的学习还有一个门控机制——只有当生成建议比弃权更好的时候内容层的信号才被激活。如果弃权表现更好那就不应该去优化生成了什么内容因为根本就不应该生成任何内容。这个设计确保了模型不会在应该闭嘴的情况下反而越学越爱说话。此外模型还有一个建议不要太长的惩罚机制。建议越冗长奖励就会被轻微扣除这促使模型生成简洁有用的建议而不是把所有能想到的内容一股脑塞进去。---**四、四个测试场地在真实战场上接受检验**研究团队在四个差异显著的任务环境中测试了Mem-π覆盖了网页操作、企业软件、终端命令行和文字游戏世界等不同场景。第一个测试场地是WebArena一个包含812个网页操作任务的仿真环境涵盖网上购物、内容管理系统、GitLab代码仓库、Reddit论坛和地图服务五个领域。每个任务都要求AI在真实的网页界面上点击、填写、搜索完成一系列多步骤操作难度相当高。第二个是WorkArena一个基于ServiceNow企业软件平台的测试环境考察AI处理企业日常工作流的能力包括菜单导航、表单填写、列表筛选和知识库查询四类任务。这里有33种任务模板每种模板会用不同的随机参数实例化测试AI能否举一反三而不是死记硬背。第三个是LifelongAgentBenchLAB专门测试AI在终端环境中的长期经验复用能力。测试分两个子集一个是数据库操作SQL命令22种技能另一个是操作系统操作Bash命令29种技能。每个子集各有500个任务按7:3分为训练集和测试集。第四个是ALFWorld一个文字版的家务模拟环境。AI需要在文字描述的家居场景中找到物品、清洁物品、加热或冷藏物品再放到指定位置。虽然是文字游戏但任务需要多步规划难度不低。对比的基准方法包括直接使用基础AI不加任何记忆RAG检索BM25算法找最相似的经验Mem0RAG加上规则管理Memory-R1用强化学习训练记忆管理器以及MemRL学习Q值来做有用性感知检索。所有实验使用gpt-5.4-mini作为基础下游智能体模型Mem-π的记忆策略模型则基于Qwen-2.5-7B-Instruct构建两者是完全独立的模型。---**五、成绩单全面领先WebArena相对提升近50%**结果相当清晰。在所有四个基准测试上Mem-π的表现均优于所有对比方法。在WebArena上Mem-π的平均任务成功率达到43.1%而基础智能体不加记忆为27.1%提升幅度约为59%相对改善接近50%从基础值来看。在CMS子任务上Mem-π从基础的14.6%提升到42.8%这28.2个百分点的绝对提升格外醒目在Reddit子任务上从28.8%提升到52.6%同样惊人。在WorkArena上平均成功率从42.0%提升到50.3%表单类任务的提升幅度接近15个百分点。在ALFWorld上从85.3%提升到91.6%在一个已经很高基线上仍有明显进步。在LAB上数据库和操作系统任务的综合成功率从26.8%提升到36.7%。一个有趣的发现是仅完成第一阶段训练经验蒸馏没有强化学习的Mem-π在WebArena上就已经达到35.0%的成功率和需要完整强化学习训练的Memory-R133.2%和MemRL34.0%不相上下。这说明把经验内化到模型参数里本身就是一种非常强效的初始化策略——换句话说消化吸收了大量菜谱的厨师在没有经过真实厨房历练的情况下表现就已经和在厨房里摸爬滚打很久但没好好读书的厨师差不多了。而加上第二阶段的强化学习之后Mem-π在WebArena上再提升8.1个百分点充分说明两个阶段缺一不可。---**六、消融实验每个设计都有它的道理**为了验证每个设计选择的必要性研究团队做了一系列拆零件测试看看去掉某个部分后性能会下降多少。去掉第一阶段初始化直接从零开始强化学习WebArena下降5.2个百分点ALFWorld下降4.7个百分点。这说明没有扎实的知识积累强化学习在这个场景下很难收敛。把两个阶段合并为一个阶段同时用相似度奖励和任务成功奖励训练性能下降更大WebArena下降6.8个百分点ALFWorld下降5.9个百分点。原因在于两个奖励信号存在冲突相似度奖励要求模型的建议和参考答案相似而任务成功奖励要求建议真正有用——这两件事并不总是一致的。去掉结构化对比采样不强制每组包含弃权版本WebArena下降4.8个百分点ALFWorld下降4.5个百分点是所有强化学习相关设计中最关键的一项。没有弃权版本做对照模型就失去了学习什么时候不说话的机会。去掉门控机制弃权表现更好时仍然更新内容层梯度WebArena下降1.8个百分点ALFWorld下降2.0个百分点说明门控机制能有效防止在应该沉默的时候反而越说越多。去掉长度惩罚性能也有轻微下降说明简洁的建议确实比冗长的建议更有利于下游任务。---**七、深度分析弃权不是逃避而是智慧**研究团队进一步分析了弃权行为和任务难度之间的关系结果揭示了一个优雅的模式。他们把WebArena的任务按照基础智能体的成功率分成五组0-20%最难20-40%40-60%60-80%80-100%最简单。对于每一组他们统计了Mem-π的弃权率和任务成功率提升幅度。结果清晰明了在最简单的任务组基础成功率80-100%Mem-π大约71%的情况下选择弃权而在最难的任务组基础成功率0-20%弃权率只有约13%。与此同时任务提升最大的恰恰是最难的那组提升幅度达9.7个百分点而最简单那组只提升1.3个百分点。这个模式传达的信息很清楚Mem-π学会了一种有分寸的智慧——简单的任务基础智能体自己就能搞定额外建议只会引入噪音困难的任务才真正需要经验性的指引。这不是保守而是精准的判断。---**八、跨模型迁移给弱智能体训练的记忆能否帮助强智能体**这个问题很有实践价值。如果企业用一个较弱的开源模型训练了记忆策略能不能把这个记忆策略直接迁移到更强大的闭源模型上使用研究团队做了对比Mem-π记忆策略分别搭配训练时使用的Qwen2.5-7B较弱的开源模型和未见过的GPT-5.4-mini更强的闭源模型。在WebArena上搭配Qwen2.5-7B时Mem-π带来的提升是18.2个百分点而RAG只有4.2个百分点搭配GPT-5.4-mini时提升是16.0个百分点RAG只有4.3个百分点。Mem-π的提升幅度是RAG的3到5倍。这意味着基于弱智能体训练出来的记忆策略确实能迁移到强智能体上继续发挥作用。直觉上可以理解当记忆策略被训练用于帮助一个比较笨的智能体时它必须把任务建议说得非常清晰明确这种显式表达对于更强的智能体同样有用甚至可能更有用。---**九、用更少的词说更有用的话效率的双重收益**Mem-π不仅表现更好还更省。在WebArena上Mem-π平均每个任务向智能体注入138个记忆词而仅完成第一阶段训练的版本是200个词Memory-R1是225个词。Mem-π用比Stage 1少31%、比Memory-R1少38%的词汇量反而取得了更高的成功率。原因不复杂弃权机制让模型不再给已经可以搞定的任务添乱省下来的词汇预算反而提升了整体效率。一直说话不如按需说话按需说话不如说到点子上。---**十、案例分析说与不说之间的微妙边界**研究团队在WebArena上做了详细的案例分析把测试集按照基础智能体、RAG和Mem-π三者的成功与失败情况分成了八个区域逐一分析Mem-π的优势和局限。在Mem-π独立成功RAG失败的案例中最典型的是数量不匹配问题。任务问的是列出排名前3的搜索词但记忆库里最相似的经验来自一个关于前2名的任务。RAG直接把那个经验搬出来建议里写的是读取前两行——数字直接错了。Mem-π则根据当前任务里明确写着3这个数字自动生成了取前三行的建议精准命中。在弃权成功RAG失败弃权赢的案例中有一个任务是找到最适合存放40张Switch游戏卡的收纳方案。记忆库里的经验锁定在游戏卡盒或卡带收纳盒这一类窄范围产品上。RAG把这个偏颇的搜索建议传给了智能体让它只看了一部分产品就做出判断最终搜索范围太窄。Mem-π判断这个任务不需要限制搜索方向直接弃权让基础智能体自由搜索反而找到了更合适的收纳方案。当然Mem-π也有失手的情况。在一个关于预览Magento主题的任务里正确操作是点击操作列下的查看链接而Mem-π生成的建议反而告诉智能体不要点击操作列——恰恰和正确做法相反。RAG在这个任务上反而成功了因为它直接复制了来源任务的原始步骤而生成的建议在这里出现了不合理的创作。这类逆转案例占总体很少4个任务但说明生成式方法在某些情况下确实可能产生合理但有误的指令。此外还有一类情况是所有方法都无能为力——通常是因为底层工具存在限制。比如某个任务需要刷新Magento的统计报表但服务器在有限步数内无法完成刷新任何再好的记忆建议都无法帮助智能体突破工具层面的瓶颈。---说到底Mem-π这套框架做的事情换一种说法其实相当直观它在教一个AI助手什么时候该开口什么时候该闭嘴以及开口了要说得有针对性而不是照搬过去的说法。这听起来像是人之常情但对AI系统来说做到这一点需要相当精心的设计。这项研究的意义不仅仅在于性能数字的提升。它揭示了一个更深层的问题在AI系统中记忆不应该是一个被动的存档-检索机制而应该是一个主动的、能感知当前情境的决策过程。这和认知科学对人类记忆的理解也是一致的——人类在回忆时并非播放录像而是根据当前需要动态重构。对普通用户来说这个研究方向意味着未来的AI助手可能真的更懂你——不是因为它记住了你的一切而是因为它学会了在合适的时候、用合适的方式提供真正切题的帮助并在帮了倒忙的时候主动收手。研究团队也坦诚地指出了未来的方向闭环的持续记忆学习让智能体在运行中不断更新记忆策略以及可溯源的记忆能追踪生成建议的依据兼顾灵活性和可靠性。有兴趣的读者可以通过arXiv编号2605.21463查阅完整论文里面包含了更详细的实验数据和技术细节。---**QA**Q1Mem-π的弃权机制是怎么训练出来的为什么不直接让模型一直生成建议AMem-π通过强化学习的结构化对比采样来训练弃权行为——每次训练强制生成一个弃权版本和三个生成建议版本比较两者对下游任务的贡献。研究发现如果模型一直生成建议在任务本身已经很简单的情况下多余的建议反而引入噪音拉低成功率。弃权机制让模型学会简单任务不插嘴平均节省了约31%的建议词数同时提升了整体表现。Q2Mem-π和RAG检索记忆相比最核心的区别是什么ARAG是找最像的旧经验直接搬过来用生成的建议固定不变遇到和旧经验细节不符的新任务就容易出错比如把前2名的经验套用到前3名的任务上。Mem-π把经验消化进模型参数遇到新任务时根据当前具体内容重新生成建议能自动修正数量、格式等细节差异。简单来说RAG是复印Mem-π是理解后重写。Q3Mem-π的记忆策略模型和执行任务的智能体模型是同一个吗A不是两者完全独立。记忆策略模型πmem是专门训练来生成任务建议的小模型基于Qwen-2.5-7B-Instruct构建执行任务的下游智能体是单独的模型论文主实验用的是gpt-5.4-mini。这种分离设计的好处是可以用一个较小的私有模型作为记忆策略搭配更强大的前沿模型执行任务而且记忆策略训练好后可以迁移到不同的下游智能体上使用无需重新训练。