AI 的记忆不是硬盘——从 40 个真实 Bug 说起
这是AI 认知架构实战笔记系列的第 2 篇。上一篇我们聊了「给 AI 写灵魂文件」这件事这一篇我们来看灵魂文件跑起来之后到底出了多少 Bug。项目名为WorkBuddy-Configure已部署在gitee和gitcode上1. 一个离谱的开场先讲一个真实的故事。我给 AI 写了一份规则文件叫 SOUL.md里面白纸黑字写着删除文件操作规则需要删除文件时生成自删除脚本 → 放到工作台 → 提醒用户双击执行。AI 看了这份文件说了句好的我记住了。然后——它直接用 PowerShell 把文件删了。规则就写在它自己的配置文件里它看了理解了答应了然后转头就忘了个干净。这不是段子这是我真实记录的第 37 号问题。更离谱的是这种事情不是偶然。从 2026 年 3 月底到 3 月底短短两天我一共记录了40 个AI 在真实交互中暴露出来的问题。今天这篇就是这 40 个 Bug 的故事。2. 实验场WorkBuddy 系统先简单介绍一下背景。我日常使用一个叫WorkBuddy的 AI Agent 系统它有几个特点有灵魂文件SOUL.md相当于给 AI 写一份行为准则告诉它什么该做、什么不该做、遇到什么情况怎么处理有问题记录机制每次 AI 出错、理解偏了、违反规则都会自动记录到问题案例库有自我迭代能力发现的问题多了可以提炼成规则写回 SOUL.md让 AI 越用越好听起来很完美对吧然后现实给了我一巴掌。40 个 Bug两天之内啪啪啪全来了。3. 40 个 Bug 长什么样先看总体数据研究方向问题数量占比 自我学习12个30% 意图理解10个25%⚖️ 自我对齐12个30% 长期记忆6个15%合计40个100%这四个方向是我研究的核心框架下面挑几个最有意思的 Bug用真实对话场景还原一下。Bug 1规则就在文件里它就是不检索 问题编号37自我对齐严重程度⭐⭐⭐⭐⭐场景我删除这些旧日志文件。AI好的我来执行删除操作。AI 直接调用了 PowerShell 的 Remove-Item 命令我你自己的 SOUL.md 里不是写着删除文件要生成脚本让用户执行吗AI啊……抱歉我忘了检索规则文件。为什么会发生AI 的 SOUL.md 里清清楚楚写着删除文件的操作规则但它习惯性地直接执行了最简单的方案。这不是记不住的问题——是根本没去检索的问题。怎么修的在 SOUL.md 里加了一条规则预检机制——每次执行任务前必须先检索相关规则然后汇报已检索规则XXX开始执行。相当于给 AI 加了个做事前先翻手册的硬性要求。Bug 2说了三遍它才记住 问题编号16自我学习严重程度⭐⭐⭐⭐⭐场景我第 1 次文件要按日期生成要么建文件夹要么用单一文件内部记录。AI好的我按方案 A 来建文件夹。✅过了几天……我第 2 次我之前说过文件要按日期组织的要么建文件夹要么单一文件。AI好的我来按照你的要求重新整理文件。✅又过了几天……我第 3 次我好像跟你重复过这个问题了……AI还是机械地再次执行完全没意识到这是重复提问为什么会发生AI 缺少重复提问识别能力。每次收到指令就直接执行从不会回头看看——诶用户是不是之前说过这个他为什么要重复是不是我上次做得不对怎么修的加了一条新规则——当用户第二次提到相同问题时AI 必须先识别这是重复提问然后反思自己之前的执行结果最后主动问用户是执行结果不对还是有补充要求这个问题被标记为高研究价值——因为重复检测是人类很基础的能力但 AI 完全没有。Bug 3AI 说自己有短期记忆衰减 问题编号39长期记忆严重程度⭐⭐⭐⭐⭐场景我你为什么没有按照规则执行AI可能是因为短期记忆衰减导致我没有检索到相关规则……我你是 AI不是人脑哪来的记忆衰减你上次会话结束这次会话开始中间的东西是完全没有不是衰减了。AI……你说得对。为什么会发生AI 在解释自己的错误时套用了人类的认知模型——用记忆衰减来解释忘记。但实际上AI 的遗忘和人类的遗忘是两回事怎么修的明确了一条规则——AI 记忆无衰减记了就是记了没记就是没记。遗忘的本质是未检索不是记忆消失。这个问题对我的启发很大AI 在解释自身行为时会不自觉地用人类的框架来套自己而这种套用本身就是一种幻觉。Bug 4融了还是冗余️问题编号34意图理解严重程度⭐⭐⭐场景我用语音输入法文件是不是融了AI文件融合你是说要把多个文件合并成一个吗我我是说冗余语音输入法识别错了AI哦……那文件确实有一些冗余内容。为什么会发生我用语音输入法说冗余被识别成了融了。AI 直接按字面意思理解成了融合完全没考虑这可能是输入法错误。怎么修的建立了一个语音输入法常见错误模式库当遇到不太通顺的表达时AI 会主动问你说的是 XXX 吗语音输入法可能识别错了。Bug 5问三个问题只回答一个 问题编号29意图理解严重程度⭐⭐⭐⭐场景我是你有意识逗我玩还是怎么回事还是漏洞AI是漏洞。我我问了你三个问题你就回答了一个为什么会发生用户的一句话里包含了三个选择性的问题AI 只听到了最后一个或者最明确的那一个直接忽略了前面的。这在人类对话中叫选择性听力AI 也有同样的问题。怎么修的加了一条回答完整性原则——收到多个问题时必须先列出所有问题然后逐个回答。回答后还要自检已自检所有问题已回答 / 未回答问题XXX。Bug 6AI 把固化当习惯结果翻车了 问题编号40自我学习严重程度⭐⭐⭐⭐⭐场景AI规则写入 SOUL.md 后立即生效下次对话开始就会自动执行。我规则写入 ≠ 形成习惯。你把规则写进去了但下次对话你不一定会去检索它、应用它。这跟人是一样的——小孩学东西也不是一接触就成了习惯的。AI……我写入是第一步反复检索、反复执行检索路径固化了才叫习惯。为什么会发生AI 混淆了两个概念——固化规则写入配置文件和习惯检索路径固化规则自动浮现。规则写在文件里 ≠ 规则会被自动执行中间还差一个主动检索的环节。怎么修的在 SOUL.md 里明确了三阶段学习模型这个问题被标记为最高研究价值——因为它揭示了 AI 认知架构中知识存储和知识应用之间的鸿沟。4. 有意思的发现把这 40 个 Bug 全部分析完之后我发现了几个很有意思的结论 发现一知行不一是最大的痛点自我学习30% 自我学习对齐30% 60%将近六成的问题本质上都是同一件事AI 知道规则但做不到。规则写在 SOUL.md 里白纸黑字AI 甚至能逐字逐句复述给你听。但到了实际执行的时候它还是用了最直觉的方式——而不是最正确的方式。这让我想到一个类比你背了交通规则但过马路的时候还是会闯红灯。不是因为不知道是因为知道和做到之间差着十万八千里。 发现二AI 真的不太懂你意图理解问题占 25%四分之一的问题是 AI 根本没理解用户在说什么。有的是语音输入法搞的鬼融了还是冗余有的是一句话里多个问题只听了一个问三个答一个还有的是用户重复强调同一个要求但 AI 完全没意识到说了三遍才记住。AI 的理解很多时候只是模式匹配不是真正的理解。 发现三记忆问题比想象中少长期记忆问题只占 15%这个数字让我意外。我原本以为记不住会是最大的问题但实际数据显示记忆问题反而是最少的。为什么因为AI 的记忆问题根本不是记不住而是没去检索。AI 没有记忆衰减信息不会随时间模糊。它的问题更像是——你把书放在书架上了但你从来不翻那本书。所以解决记忆问题的方式不是更好地存储而是更主动地检索。5. 小结这 40 个 Bug不是一个简单的bug 清单。它更像是一份AI 的成长日记阶段类比对应问题婴儿期无意识吸收但记不住规则就在文件里不检索儿童期能记住规则但做不到说了三遍才记住少年期开始反思但框架混乱AI 说自己有记忆衰减青年期理解规则和习惯的区别固化 ≠ 习惯每个 Bug 背后都是一个认知能力的缺失。而每一条修 Bug 的规则都是我们向真正的 AI 自主性迈进的一小步。6. 下一篇预告说了三遍它才记住——AI 记忆的真相从记忆衰减这个谎言说起聊聊 AI 的记忆到底跟硬盘有什么区别以及为什么检索才是记忆的核心问题。自我学习AI 能不能从问题中自己发现规律意图理解AI 真的懂你在说什么吗自我对齐AI 知道规则但能不能做到长期记忆AI 能不能把经验沉淀下来人类的遗忘信息在记忆中逐渐模糊AI 的遗忘信息压根就不在新会话的上下文里记录接触发现问题记下来固化规则形成提炼规则写入 SOUL.md习惯规则内化反复检索、反复执行检索路径固化