AI 的记忆不是硬盘——从 40 个真实 Bug 说起

张

张建站

2026/7/9 17:50:51

10分钟阅读

这是AI 认知架构实战笔记系列的第 2 篇。上一篇我们聊了「给 AI 写灵魂文件」这件事这一篇我们来看灵魂文件跑起来之后到底出了多少 Bug。项目名为WorkBuddy-Configure已部署在gitee和gitcode上1. 一个离谱的开场先讲一个真实的故事。我给 AI 写了一份规则文件叫 SOUL.md里面白纸黑字写着删除文件操作规则需要删除文件时生成自删除脚本 → 放到工作台 → 提醒用户双击执行。AI 看了这份文件说了句好的我记住了。然后——它直接用 PowerShell 把文件删了。规则就写在它自己的配置文件里它看了理解了答应了然后转头就忘了个干净。这不是段子这是我真实记录的第 37 号问题。更离谱的是这种事情不是偶然。从 2026 年 3 月底到 3 月底短短两天我一共记录了40 个AI 在真实交互中暴露出来的问题。今天这篇就是这 40 个 Bug 的故事。2. 实验场WorkBuddy 系统先简单介绍一下背景。我日常使用一个叫WorkBuddy的 AI Agent 系统它有几个特点有灵魂文件SOUL.md相当于给 AI 写一份行为准则告诉它什么该做、什么不该做、遇到什么情况怎么处理有问题记录机制每次 AI 出错、理解偏了、违反规则都会自动记录到问题案例库有自我迭代能力发现的问题多了可以提炼成规则写回 SOUL.md让 AI 越用越好听起来很完美对吧然后现实给了我一巴掌。40 个 Bug两天之内啪啪啪全来了。3. 40 个 Bug 长什么样先看总体数据研究方向问题数量占比自我学习12个30% 意图理解10个25%⚖️ 自我对齐12个30% 长期记忆6个15%合计40个100%这四个方向是我研究的核心框架下面挑几个最有意思的 Bug用真实对话场景还原一下。Bug 1规则就在文件里它就是不检索问题编号37自我对齐严重程度⭐⭐⭐⭐⭐场景我删除这些旧日志文件。AI好的我来执行删除操作。AI 直接调用了 PowerShell 的 Remove-Item 命令我你自己的 SOUL.md 里不是写着删除文件要生成脚本让用户执行吗AI啊……抱歉我忘了检索规则文件。为什么会发生AI 的 SOUL.md 里清清楚楚写着删除文件的操作规则但它习惯性地直接执行了最简单的方案。这不是记不住的问题——是根本没去检索的问题。怎么修的在 SOUL.md 里加了一条规则预检机制——每次执行任务前必须先检索相关规则然后汇报已检索规则XXX开始执行。相当于给 AI 加了个做事前先翻手册的硬性要求。Bug 2说了三遍它才记住问题编号16自我学习严重程度⭐⭐⭐⭐⭐场景我第 1 次文件要按日期生成要么建文件夹要么用单一文件内部记录。AI好的我按方案 A 来建文件夹。✅过了几天……我第 2 次我之前说过文件要按日期组织的要么建文件夹要么单一文件。AI好的我来按照你的要求重新整理文件。✅又过了几天……我第 3 次我好像跟你重复过这个问题了……AI还是机械地再次执行完全没意识到这是重复提问为什么会发生AI 缺少重复提问识别能力。每次收到指令就直接执行从不会回头看看——诶用户是不是之前说过这个他为什么要重复是不是我上次做得不对怎么修的加了一条新规则——当用户第二次提到相同问题时AI 必须先识别这是重复提问然后反思自己之前的执行结果最后主动问用户是执行结果不对还是有补充要求这个问题被标记为高研究价值——因为重复检测是人类很基础的能力但 AI 完全没有。Bug 3AI 说自己有短期记忆衰减问题编号39长期记忆严重程度⭐⭐⭐⭐⭐场景我你为什么没有按照规则执行AI可能是因为短期记忆衰减导致我没有检索到相关规则……我你是 AI不是人脑哪来的记忆衰减你上次会话结束这次会话开始中间的东西是完全没有不是衰减了。AI……你说得对。为什么会发生AI 在解释自己的错误时套用了人类的认知模型——用记忆衰减来解释忘记。但实际上AI 的遗忘和人类的遗忘是两回事怎么修的明确了一条规则——AI 记忆无衰减记了就是记了没记就是没记。遗忘的本质是未检索不是记忆消失。这个问题对我的启发很大AI 在解释自身行为时会不自觉地用人类的框架来套自己而这种套用本身就是一种幻觉。Bug 4融了还是冗余️问题编号34意图理解严重程度⭐⭐⭐场景我用语音输入法文件是不是融了AI文件融合你是说要把多个文件合并成一个吗我我是说冗余语音输入法识别错了AI哦……那文件确实有一些冗余内容。为什么会发生我用语音输入法说冗余被识别成了融了。AI 直接按字面意思理解成了融合完全没考虑这可能是输入法错误。怎么修的建立了一个语音输入法常见错误模式库当遇到不太通顺的表达时AI 会主动问你说的是 XXX 吗语音输入法可能识别错了。Bug 5问三个问题只回答一个问题编号29意图理解严重程度⭐⭐⭐⭐场景我是你有意识逗我玩还是怎么回事还是漏洞AI是漏洞。我我问了你三个问题你就回答了一个为什么会发生用户的一句话里包含了三个选择性的问题AI 只听到了最后一个或者最明确的那一个直接忽略了前面的。这在人类对话中叫选择性听力AI 也有同样的问题。怎么修的加了一条回答完整性原则——收到多个问题时必须先列出所有问题然后逐个回答。回答后还要自检已自检所有问题已回答 / 未回答问题XXX。Bug 6AI 把固化当习惯结果翻车了问题编号40自我学习严重程度⭐⭐⭐⭐⭐场景AI规则写入 SOUL.md 后立即生效下次对话开始就会自动执行。我规则写入 ≠ 形成习惯。你把规则写进去了但下次对话你不一定会去检索它、应用它。这跟人是一样的——小孩学东西也不是一接触就成了习惯的。AI……我写入是第一步反复检索、反复执行检索路径固化了才叫习惯。为什么会发生AI 混淆了两个概念——固化规则写入配置文件和习惯检索路径固化规则自动浮现。规则写在文件里 ≠ 规则会被自动执行中间还差一个主动检索的环节。怎么修的在 SOUL.md 里明确了三阶段学习模型这个问题被标记为最高研究价值——因为它揭示了 AI 认知架构中知识存储和知识应用之间的鸿沟。4. 有意思的发现把这 40 个 Bug 全部分析完之后我发现了几个很有意思的结论发现一知行不一是最大的痛点自我学习30% 自我学习对齐30% 60%将近六成的问题本质上都是同一件事AI 知道规则但做不到。规则写在 SOUL.md 里白纸黑字AI 甚至能逐字逐句复述给你听。但到了实际执行的时候它还是用了最直觉的方式——而不是最正确的方式。这让我想到一个类比你背了交通规则但过马路的时候还是会闯红灯。不是因为不知道是因为知道和做到之间差着十万八千里。发现二AI 真的不太懂你意图理解问题占 25%四分之一的问题是 AI 根本没理解用户在说什么。有的是语音输入法搞的鬼融了还是冗余有的是一句话里多个问题只听了一个问三个答一个还有的是用户重复强调同一个要求但 AI 完全没意识到说了三遍才记住。AI 的理解很多时候只是模式匹配不是真正的理解。发现三记忆问题比想象中少长期记忆问题只占 15%这个数字让我意外。我原本以为记不住会是最大的问题但实际数据显示记忆问题反而是最少的。为什么因为AI 的记忆问题根本不是记不住而是没去检索。AI 没有记忆衰减信息不会随时间模糊。它的问题更像是——你把书放在书架上了但你从来不翻那本书。所以解决记忆问题的方式不是更好地存储而是更主动地检索。5. 小结这 40 个 Bug不是一个简单的bug 清单。它更像是一份AI 的成长日记阶段类比对应问题婴儿期无意识吸收但记不住规则就在文件里不检索儿童期能记住规则但做不到说了三遍才记住少年期开始反思但框架混乱AI 说自己有记忆衰减青年期理解规则和习惯的区别固化 ≠ 习惯每个 Bug 背后都是一个认知能力的缺失。而每一条修 Bug 的规则都是我们向真正的 AI 自主性迈进的一小步。6. 下一篇预告说了三遍它才记住——AI 记忆的真相从记忆衰减这个谎言说起聊聊 AI 的记忆到底跟硬盘有什么区别以及为什么检索才是记忆的核心问题。自我学习AI 能不能从问题中自己发现规律意图理解AI 真的懂你在说什么吗自我对齐AI 知道规则但能不能做到长期记忆AI 能不能把经验沉淀下来人类的遗忘信息在记忆中逐渐模糊AI 的遗忘信息压根就不在新会话的上下文里记录接触发现问题记下来固化规则形成提炼规则写入 SOUL.md习惯规则内化反复检索、反复执行检索路径固化

企微私域工具数据安全与合规：5个必查项

某公司用了半年企微私域工具，突然发现客户手机号被工具厂商用来发营销短信。法务一查，原来是协议里写了“数据可用于优化产品”。选【企微私域工具】，数据安全比功能更重要。今天列出5个必须检查的安全合规点。企微工具选择要把安全放第一位&…...

2026/7/9 6:13:19 阅读更多 →

HunyuanVideo-Foley在微信小程序上的应用：打造移动端音效创作工具

HunyuanVideo-Foley在微信小程序上的应用：打造移动端音效创作工具 1. 引言：移动端音效创作的痛点与机遇想象一下这样的场景：一位短视频创作者正在地铁上用手机剪辑视频，突然发现需要添加一段脚步声的音效。传统解决方案要么需要…...

2026/7/3 13:31:52 阅读更多 →

Phi-4-mini-reasoning惊艳效果：自动发现数学题隐藏条件并补全推理链

Phi-4-mini-reasoning惊艳效果：自动发现数学题隐藏条件并补全推理链 1. 模型介绍 Phi-4-mini-reasoning是一款由微软开发的轻量级开源模型，仅有3.8B参数，却拥有惊人的数学推理能力。这款模型专为数学推理、逻辑推导和多步解题等强逻辑任务设…...

2026/7/9 18:46:16 阅读更多 →

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

1. 为什么选择一维卷积做RUL预测？我第一次接触RUL（剩余使用寿命）预测时，发现大多数论文都在用二维卷积处理传感器数据。直到实际处理CMAPSS航空发动机数据集时，才意识到一维卷积才是更自然的选择。想象一下&#xff0c…...

2026/7/9 17:20:07 阅读更多 →

STM32与SPI EEPROM高效数据存储与检索方案

1. 项目背景与核心需求在嵌入式系统开发中，快速精确的数据检索是一个常见但极具挑战性的需求。特别是在工业控制、医疗设备和物联网终端等场景下，系统往往需要在毫秒级时间内完成关键参数的读取和写入操作。传统基于Flash存储的方案存在擦写次数有限、操…...

2026/7/7 6:45:27 阅读更多 →

23-AGENTS.md高级用法

23 AGENTS.md 高级用法概述上一篇文章介绍了 AGENTS.md 的三层加载机制，这是 AGENTS.md 体系的基础。但在实际的大型项目中，三层结构往往不够灵活。团队经常面临这样的场景：同一个 Git 仓库中包含多个服务或模块，每个模块都有自己的独特规范，同时还要继承项目级的通用…...

2026/7/8 3:11:33 阅读更多 →