这项由浙江大学、阿里巴巴集团、同济大学及MemTensor等机构联合开展的研究于2026年5月27日以预印本形式发布在arXiv平台论文编号为arXiv:2605.28773。研究提出了一个名为FluxMem的全新AI记忆框架致力于让AI智能体的记忆系统像人类大脑一样能随着经验的积累不断自我完善和进化。一、一个让AI头疼的老问题记忆太死板了每个人脑子里都有一套自己的记忆整理方式。你今天帮朋友修了电脑明天遇到类似问题就会想起上次怎么解决的多次经历类似情况之后你甚至能总结出一套通用的排查思路。这种经验积累→形成规律→灵活调用的过程对人类来说再自然不过。然而对于当今的AI智能体来说这件事却难得出奇。目前绝大多数具备记忆功能的AI系统都像是用一个固定格式的纸质档案柜来保存信息——每次任务来了就按预先设定好的步骤去翻档案找出看起来相关的内容然后交给AI参考。这套流程是提前写死的不管任务怎么变、环境怎么变检索和整理记忆的方式都一成不变。这种设计在简单固定的任务里还凑合但一旦遇到复杂多变的真实场景问题就接连出现了。研究团队把这些问题归纳为两大类。第一类叫做记忆连接不准确。具体来说有时候AI会漏掉关键信息——明明有一份相关档案但因为检索方式不够灵活就是没找到导致AI在关键时刻缺少必要的参考依据像是侦探破案时把最重要的线索落在了抽屉里没拿出来。另一种情况正好相反AI会检索出一堆无关紧要的内容把真正有用的信息淹没在噪音里就像侦探把整个城市的监控录像都调出来看反而不知道从哪里入手。第二类问题叫做记忆内容颗粒度不合适。有时候记忆里存的东西太粗糙只有一个大概方向缺少执行所需的细节有时候又太细碎只有零散的操作步骤却看不出任务的整体脉络。这两种情况都会导致AI拿到记忆之后仍然无法做出正确决策。除此之外还有一个更深层的问题现有系统无法让记忆真正成长。每次任务结束后AI或许会把这次经历存下来但下次遇到类似任务时它只是机械地把旧记录翻出来参考而不会从反复出现的成功经验中提炼出规律、形成可复用的通用技能。这就好比一位厨师每次做某道菜都要重新翻食谱从来不把心得体会整理成自己的一套烹饪心法——时间再长手艺也不会真正精进。二、像人脑一样建档FluxMem的三层记忆图谱面对上述挑战研究团队提出了FluxMem这套框架。理解FluxMem的核心可以用档案馆里的立体关系网这个意象来帮助思考。在FluxMem里所有记忆不是平铺在一个平面上的而是被组织成一张由三种不同类型节点构成的异质图。每一条记忆都是图中的一个节点而节点与节点之间通过边相互连接形成一张关系网络。这三类节点分别对应三种不同功能的记忆层。第一层叫做语义知识层负责存储静态的事实性知识比如工具的使用文档、背景知识库、对话历史记录等。这一层就像档案馆里存放百科全书和参考手册的区域是提供原材料的地方。第二层叫做情节经验层记录的是AI实际执行任务时的完整过程包括每一步看到了什么、做了什么就像侦探办案时写下的详细案件笔记记录着每个案子从头到尾的具体经过。第三层叫做程序技能层存放的是从多次成功经历中提炼出来的通用方法或推理模板类似于侦探总结出来的破案通用套路——不针对某个具体案子而是可以反复复用的思维框架。这三层之间并不是孤立的而是通过两种类型的边相互关联。当AI在执行某项任务时从事实知识库里找到的某条具体知识为当前任务提供了支撑这条关系就被记录下来形成知识层和经验层之间的连接。当多次类似任务的经历被提炼成一个通用技能时经验层和技能层之间就建立起另一种连接。如此一来整个记忆系统就像一张纵横交错的神经网络既有纵向的层次结构又有横向的关联关系。每当AI面对一个新任务时它不是去翻一个杂乱的记忆堆而是在这张大网上激活一个局部子图——选出当前任务最相关的那些节点和边把它们串联起来形成此刻决策所需的上下文。这个激活的局部子图就是AI当前的工作记忆而优化记忆的过程本质上就是不断调整和修剪这个子图让它越来越精准地服务于当前任务。三、三个阶段让记忆从粗糙草图变成精密电路FluxMem的运作方式分为三个阶段可以把这个过程理解为先画一张草图再根据实际反馈反复修改最后把成功经验固化成标准模板。第一阶段叫做初始连接形成在每次任务执行的每一步开始时都会进行。AI会根据当前观察到的内容同时去三层记忆里各取所需。在语义知识层它通过综合计算三种相似度指标——密集向量相似度、稀疏关键词匹配度以及大语言模型本身的判断——来找出最相关的事实知识这三种方式结合起来就像用望远镜、显微镜和直觉一起观察比单一方法更可靠。在情节经验层它通过向量相似度找出过去最相近的几次任务经历。在程序技能层它并不直接搜索而是顺着已经找到的经验节点自动继承与这些经验相关联的通用技能节点。三层内容汇聚在一起形成当前这一步的初始工作上下文相当于侦探刚到案发现场时初步整理出的线索集合——这是一个起点还比较粗糙但足以支撑第一步的行动。第二阶段叫做反馈驱动的连接优化在AI执行完一步动作并收到反馈之后立刻启动。反馈可以来自外部环境——比如操作失败的报错也可以来自AI自身的自我核查——比如它判断自己给出的答案逻辑上有问题。收到反馈后系统会分析失败原因然后对当前的记忆子图进行有针对性的修改。这种修改有三种具体形式。如果反馈表明当前上下文缺少某些关键信息系统会主动把那些原本没有激活的节点纳进来建立新的连接——就像侦探意识到某条线索被遗漏了赶紧去补调相关档案。如果反馈表明上下文里有噪音在干扰判断系统会剪断那些不相关的连接把干扰源移除——就像侦探清理掉桌上一堆无关证物让真正的关键线索更清晰地呈现出来。还有第三种情况如果检索到的记忆内容方向对了但颗粒度不合适系统就会对节点本身的内容进行改写——要么拆解得更细要么提炼得更抽象让记忆的精细程度和当前任务的需求匹配起来。这个修改-执行-再反馈的循环可以反复进行直到任务成功或者达到预设的最大迭代轮次为止。第三阶段叫做长期连接固化是在任务完成之后离线进行的。系统会把本次任务的完整执行轨迹存入情节经验层然后对所有已有的经验记录按照语义相似度进行聚类——简单说就是把做过的事情按类型分类整理把内容相近的经历归到同一组。对于每一组相似经历系统会调用大语言模型来提炼这一组经历的共同规律生成一个新的程序技能节点就像老侦探把自己多年办案的心得汇总成一本内部手册供以后遇到类似案子时直接参考。然而仅仅生成这个技能节点还不够因为第一次提炼出来的心法未必真的管用。于是系统引入了一个专门的质量评估指标叫做PEMS程序进化成熟度评分。这个分数由三部分决定这个技能指导下相关任务的平均成功率有多高越高越好技能描述的文字有多精炼越短越好代表提炼得越精华与上一个版本相比这次修改带来了多大的实质性变化变化太小说明已经趋于稳定。系统会根据PEMS的高低对技能进行反复修改直到分数不再显著提升为止此时认为这个技能已经成熟可以稳定地为未来的任务提供指引。当某类任务的技能足够成熟之后AI在遇到同类任务时甚至可以直接激活对应的成熟子图跳过繁琐的检索和迭代大幅提升效率。四、三场考试看看FluxMem的真实成绩研究团队在三个截然不同的测试场景中检验了FluxMem的表现可以理解为安排这位新型侦探参加了三场风格迥异的考试。第一场考试是LoCoMo专门测试对超长对话内容的记忆和推理能力。这个数据集包含10段极长的对话平均每段对话有588轮、超过一万六千个词研究团队从中提取了1540个问题分为单跳问题、多跳推理问题、时间推理问题和开放领域问题四类。使用GPT-4.1-mini作为基础模型时FluxMem达到了95.06分的平均得分。作为参照直接把整段对话全部塞给AI让它自己找答案的全文上下文方法只有81.23分而此前最强的同类记忆系统EverMemOS也只有93.05分。换用另一个基础模型Qwen3时FluxMem同样以93.44分领先而全文上下文方法在这个模型下直接跌到了74.87分——说明在记忆整理和精准检索这件事上FluxMem带来的提升是真实且稳定的。第二场考试是Mind2Web模拟真实的网页操作任务比如在网站上完成搜索、点击、填写表单等连续操作。这类任务的难度在于网页元素繁多干扰信息密集AI必须在一大堆无关的按钮和链接中找到正确的操作目标。研究团队特别区分了两种测试设置一种是过滤版提前人工剔除掉非关键元素降低了难度另一种是真实版保留所有元素更接近实际使用场景。在真实版测试中以跨任务成功率这个指标为例不使用记忆的基础系统只有2.8%之前最强的记忆系统AWM达到了3.6%而FluxMem直接提升到了8.1%。换用Gemini-2.5-flash时FluxMem的跨任务成功率进一步提升到9.6%而AWM在这个模型下只有5.6%。第三场考试是GAIA测试的是通用任务能力包含从简单的工具调用到复杂的多步骤推理等各种类型的任务按难度从低到高分为三个级别。FluxMem的测试方式是在Flash-Searcher这个已有的搜索框架基础上加入记忆机制与同样在这个框架上运行的MemEvolve进行对比。使用Kimi K2模型时Flash-Searcher基准成功率为52.12%加入MemEvolve之后提升到61.21%而加入FluxMem则直接跳升到64.85%绝对提升幅度达到12.73个百分点。在最难的第三级任务中FluxMem的成功率从基准的34.62%提升到46.15%提升了超过11个百分点。五、拆开来看哪个部件最关键为了弄清楚这三个阶段各自贡献了多少研究团队专门做了消融实验也就是依次去掉某一个阶段看看性能会下降多少。在LoCoMo测试中去掉第二阶段反馈优化带来的损失最大——GPT-4.1-mini的平均分从95.06直接跌到85.32Qwen3模型则从93.44跌到84.74而去掉另外两个阶段的影响相对较小。这个结果很容易理解LoCoMo本质上是一个精准检索的任务答案都藏在对话记录里只要能准确找到、筛选出来就能回答正确。第二阶段通过反复扩充和修剪检索结果正好击中了这类任务的核心需求。而在Mind2Web测试中结论完全反转——去掉第三阶段长期固化带来的损失最大跨任务成功率从8.1%直接跌到3.2%去掉第二阶段的影响反而相对有限。这同样说得通网页操作任务需要复杂的多步骤规划能力光靠即时检索和修正还不够必须有从大量经验中提炼出来的稳定技能框架来支撑第三阶段正是提供这种框架的关键所在。研究团队还专门分析了第二阶段迭代次数的影响。在LoCoMo上从0轮迭代也就是不做反馈优化到5轮迭代平均得分从85.32稳步提升到95.06而且改善曲线相当平滑几乎每增加一轮都有可见的提升。不过在第4轮到第5轮之间提升幅度只有0.54%说明性能开始接近上限。这个趋势暗示存在一个性价比最高的迭代次数区间不需要无限迭代在合适的轮次停下来就足够了。第三阶段的PEMS指标同样呈现出清晰的收敛规律从第0轮的0.072在前四轮内迅速爬升到0.158然后在第5轮时趋于稳定停在0.159附近。这种收敛趋势意味着系统可以自动判断技能什么时候已经足够成熟从而适时停止迭代避免浪费计算资源。六、一个具体案例AI如何处理一道奥运奖牌统计题研究团队在论文中分享了一个具体的案例能够很直观地说明FluxMem三个阶段是如何配合工作的。任务是给定一个包含各国参赛运动员人数和奖牌数量的CSV文件找出平均每位运动员获得奖牌最多的国家。在第一阶段系统激活了一个初始工作上下文包括关于CSV文件解析的工具文档、一段过去处理过类似排名问题的任务经历以及一个关于表格问答的通用技能节点。这个通用技能的内容大概是读取文件→检查列结构→进行排序属于一个比较粗糙的模板。AI按照这个上下文开始执行第一步成功读取了文件结构。但第二步出问题了——AI调用了一个电子表格可视化工具来做数据聚合结果触发了环境报错这个工具不支持这种操作渲染超时失败了。第二阶段随即启动系统判断这是一个连接不准确的问题于是剪断了与电子表格工具相关的连接同时把Python数据分析库的相关文档节点拉进了工作上下文建立了新的连接。切换工具之后聚合计算成功执行了。然而接下来AI做了自我核查发现虽然数据处理成功了但调用的那个通用技能模板有问题——它能处理对现有统计数据排序这类任务却不知道该怎么先计算每人奖牌数再排序这个需要组合计算的操作。于是第二阶段再次发挥作用这次触发了节点重塑把原来那个粗糙的通用技能节点替换成一个更精细的节点这个新节点明确描述了按实体分组→推导指标→归一化→比较这样一套更完整的统计聚合流程。有了这个更细致的指引AI正确计算出了每个国家的平均奖牌数并给出了正确答案。这个案例清楚地展示了FluxMem的三种修正机制是如何在同一个任务里按需依次触发的而不是机械地按固定顺序走流程。七、目前还做不到的事情研究团队对这套框架的局限性持坦诚态度指出了几个目前尚未解决的问题。第一是计算开销。第二和第三阶段都需要反复调用大语言模型来做验证、修改和技能归纳这意味着每完成一个任务背后要消耗相当多的API调用次数和时间。研究团队坦言目前的实验主要关注任务成功率没有系统地测量延迟、API费用和token消耗而这些对于实时应用或资源受限的场景来说是非常现实的约束。第二是测试场景的局限。三个测试数据集都是预先收集好的静态数据不能完全模拟真实世界中持续变化、任务边界模糊的场景。在真正的开放世界里任务分布会不断漂移记忆还需要主动管理遗忘机制而这些场景目前还没有被充分验证。第三是超参数的敏感性。框架里有几个关键参数需要人工设定比如第二阶段最多迭代多少轮、PEMS的收敛阈值、检索时取前多少个结果。目前的实验更多关注各组件的有效性还没有对这些参数在不同模型和不同任务类型下的稳健性做系统测试。第四是离线固化的调度问题。第三阶段目前是周期性地批量离线执行没有研究在线执行和离线固化之间的动态调度策略也没有评估固化频率对在线性能的影响。这些都是未来需要继续探索的方向。说到底FluxMem这项研究想解决的是AI智能体记忆系统长期以来的一个根本性缺陷记忆太静了。现有的系统把记忆当成一个固定的档案柜存进去什么就是什么检索方式也是一成不变的。而FluxMem的思路是把记忆变成一张活的关系网允许在任务执行过程中动态调整哪些节点被激活、哪些连接被保留或切断并且在长期积累中把成功经验提炼成越来越成熟的通用技能。对普通用户来说这项研究的意义在于未来的AI助手有可能真正从与你的历次互动中学到东西而不只是每次都从零开始。你跟它沟通一次下次遇到类似问题时它的处理方式会更准确、更贴合你的习惯——不是因为它死记硬背了你说过的每一句话而是因为它真的提炼出了一套更好用的处理思路。当然这距离真正成熟的实用化还有距离计算成本、实时性、跨场景的稳定性都还需要进一步打磨。但这个方向本身代表着AI记忆研究从存储向进化的一次重要转变值得持续关注。对这项研究感兴趣的读者可以通过arXiv平台以论文编号arXiv:2605.28773查阅完整原文。QAQ1FluxMem和普通AI记忆系统有什么区别A普通AI记忆系统通常采用固定的存储和检索流程不会根据任务反馈进行调整。FluxMem的核心区别在于它将记忆建模为一张动态关系图可以在任务执行过程中实时增加或删减节点连接还能通过长期积累将成功经验提炼成可复用的通用技能。简单说普通系统的记忆是静态档案柜而FluxMem的记忆更像是会自我整理和优化的活体知识网络。Q2PEMS评分是怎么衡量技能质量的APEMS程序进化成熟度评分综合了三个维度技能指导下相关任务的平均成功率越高分越高技能描述的文字越简洁精练分越高与上一版本相比变化越小说明越趋于稳定分越高。三者结合既要求技能真的管用又要求描述精炼不冗余还要求经过多次迭代后趋于收敛从而筛选出真正高质量且稳定的通用技能节点。Q3FluxMem在哪些实际场景下最有用A从三个测试结果来看FluxMem在需要精准信息检索的长对话场景、需要多步骤规划的复杂网页操作场景以及需要综合多种能力的通用助手任务中均有明显提升。实际应用中最有潜力的场景包括需要长期记忆用户偏好的个人AI助手、需要积累操作经验的自动化办公智能体以及需要在复杂信息环境中精准决策的搜索和问答系统。