Claude “变笨“之谜揭开:AI 系统的脆弱不在模型,而在 Harness
Claude 变笨之谜揭开AI 系统的脆弱不在模型而在 Harness引言过去几周大量开发者抱怨 Claude 变得懒惰、“推理能力下降”、“更容易幻觉”。AMD 的一位高级工程师甚至审计了6,852 个 session 文件、234,000 tool calls用硬数据证明 Claude 的推理深度明显下滑。第三方基准测试报告准确率从 83.3% 暴跌到 68.3%排名从第 2 跌到第 10。用户把这种现象称为“AI shrinkflation”AI 缩水。4月23日Anthropic 终于发布官方解释模型权重没有改变是 “harness”外围配置出了问题。这个事件揭示了一个被忽视的工程真理AI 系统的脆弱性往往不在模型本身而在部署层的各种优化尝试。什么是 Harness在 AI 工程中“harness” 指的是包裹在模型外部的所有配置和基础设施System prompts系统提示词Reasoning effort settings推理强度设置Context caching上下文缓存Token limits输出限制Latency optimizations延迟优化Tool invocation patterns工具调用模式模型本身只是大脑harness 是神经系统——它决定了大脑如何接收信号、如何思考、如何输出结果。一个看起来合理的 harness optimization可能悄然牺牲了推理质量。Claude 事件的三个 BugAnthropic 的 post-mortem 披露了三个具体问题Bug 1Reasoning Effort 降低项目详情时间3月4日变更默认 reasoning effort 从high改为medium原因解决 UI 冻结问题——用户等待时界面看起来卡住影响复杂任务推理明显变弱教训延迟优化的代价是推理深度。用户看到界面卡住会抱怨体验差。但降低推理强度来流畅化本质上是在用智能换速度。这不是用户真正想要的——他们要的是答案正确而不是答案快速但错误。Bug 2Caching Logic Bug项目详情时间3月26日变更新的 caching optimization原因清理 idle sessions 的 old thinking节省 memoryBug本应 1 小时后清理结果每轮都清理影响模型丢失短期记忆变得重复、遗忘教训缓存的边界条件是最容易出错的地方。代码逻辑if idle 1 hour: clear thinking实际行为clear thinking on every turn一个简单的条件判断错误让 Claude 在每次对话后都忘记自己在想什么。这不是模型问题是 harness bug。Bug 3Verbosity Limits项目详情时间4月16日变更System prompt 添加字数限制要求工具调用间 ≤ 25 词最终回复 ≤ 100 词原因减少 Opus 4.7 的 verbosity影响编码质量下降 3%教训prompt 的副作用难以预测。Anthropic 可能觉得用户抱怨废话太多于是加个限制。但这个限制让模型在复杂任务中无法展开思考——该说的话没说完就被迫压缩。一个 25 词的限制可能让模型跳过了关键推理步骤。为什么 Harness Bug 比 Model Bug 更隐蔽Model Bug容易发现容易定位如果模型权重有问题表现会在所有场景下滑。基准测试会直接反映出来。修复路径清晰重新训练或调整权重。Harness Bug场景依赖难以复现Harness 问题通常只在特定场景触发长对话 sessioncaching bug复杂推理任务reasoning effort多工具调用任务verbosity limits单一基准测试可能测不到。用户抱怨时公司可能说我们没有改动模型因为确实没改动——但改动的是 harness。信息不对称公司知道改了什么用户不知道Anthropic 改 reasoning effort 时用户不知道。他们只感觉Claude 变笨了。几周后才有人做系统性审计Stella Laurenzo 的 6,852 sessions 分析才有了硬证据。这个时间差就是信任 gap。Harness 工程的核心原则Claude 事件给 AI 工程团队上了重要一课。以下是实操原则1️⃣ 每个变更必须 Ablation Test不要改了一个 system prompt直接上线。要设计对照组旧 prompt vs 新 prompt在多个 benchmark 上测试量化副作用不只是目标指标Anthropic 现在的做法“We will now run a broader suite of per-model evaluations and ablations for every system prompt change to isolate the impact of specific instructions.”2️⃣ Latency Optimization 必须声明代价改 reasoning effort 从high到medium好处UI 不冻结体验流畅代价复杂任务准确率下降这个代价必须透明声明让用户选择“需要深度推理时请手动开启 high reasoning effort”而不是偷偷改成默认值让用户不明不白承受代价。3️⃣ Caching Logic 的边界条件必须测试缓存逻辑的典型 bug 场景条件判断错误每轮清理 vs 闲置后清理时间单位错误秒 vs 分钟并发竞争多个 session 同时触发测试必须覆盖正常场景闲置后清理边界场景刚好超过阈值异常场景频繁切换、并发访问4️⃣ Prompt Limits 必须评估 Reasoning 代价字数限制的隐秘代价模型可能跳过推理步骤关键信息可能被压缩丢失复杂任务可能无法展开评估方法在复杂任务 benchmark 上测试对比无限制 vs 有限制的推理轨迹统计推理步骤完整性5️⃣ Dogfooding 必须用 Public BuildAnthropic 的教训内部员工可能用的是特殊版本不体验用户真实感受。新做法“A larger share of internal staff will be required to use the exact public builds of Claude Code to ensure they experience the product as users do.”如果你自己不用公开发布版本你就不知道用户在抱怨什么。一个 Harness 变更 Checklist每次改动 harness 配置时问这些问题[ ] 这个变更的目标是什么降低 latency减少 verbosity [ ] 代价是什么推理深度记忆保留输出完整性 [ ] 有对照组测试吗旧配置 vs 新配置 [ ] 测试覆盖了哪些场景简单任务 vs 复杂任务 [ ] 用户会感知到变化吗透明告知 vs 隐藏改动 [ ] 有 rollback 计划吗发现问题后如何快速恢复 [ ] Dogfooding 测试了吗内部员工用过吗如果任何一个答案是不清楚或没有不要上线。Claude 事件的深层启示模型是引擎Harness 是传动系统引擎再强传动系统出问题车子也跑不好。Claude Opus 4.6 的模型权重没有变——引擎还是那个引擎。但 harness 的三个 bug 让传动系统失灵油门踩不到底reasoning effort变速箱每秒换挡caching bug限制排气管流量verbosity limits结果用户感觉引擎没力了但其实是传动系统卡住了。优化的双刃剑每个 harness optimization 都有理由降低 reasoning effort → 解决 UI latency清理 thinking cache → 节省 memory限制输出 verbosity → 减少用户阅读负担但每个 optimization 都有隐秘代价。问题是代价是否被量化代价是否被透明告知代价是否被充分测试Claude 事件的教训没有量化测试的 optimization是危险的 optimization。用户信任比功能指标更重要Anthropic 的 post-mortem 开头就说“We take reports about degradation very seriously.”为什么因为用户信任一旦破裂修复极难。几周的变笨投诉让用户质疑Anthropic 是否在偷偷 nerfing是否在用低质量服务骗订阅费benchmark 数据是否可信即使最终解释了是 harness bug 不是 model bug信任裂痕已经存在。预防胜于治疗透明变更、充分测试、及时沟通。结语Claude 变笨事件表面上是 model quality 问题实际上是 harness engineering 问题。核心教训Harness 是 AI 系统的神经系统——它决定了模型如何思考每个 optimization 都有代价——代价必须量化、透明、测试Dogfooding 必须用 public build——否则不知道用户真实体验信任比指标更重要——用户感知是最终检验标准下次你的 AI 产品出现莫名性能下降先问一个问题“是不是 harness 出了 bug而不是模型出了问题”如果答案是可能先检查 system prompt、caching logic、reasoning settings——这些外围配置往往是最脆弱的环节。附录Anthropic 的整改措施Anthropic 在 post-mortem 中承诺的改进措施说明Internal Dogfooding更多员工使用 public buildEnhanced Evaluations每个 prompt 变更都做 ablation testTighter Controlsprompt 变更更容易审计模型特定变更严格 gatedSubscriber Compensation重置所有订阅用户的 usage limits这些措施的本质让 harness 变更更透明、更可控、更可测试。参考文献Anthropic Blog: Technical Post-Mortem on Claude Quality IssuesVentureBeat Analysis by Carl Franzen (April 23, 2026): Mystery solved: Anthropic reveals changes to Claude’s harnesses and operating instructionsStella Laurenzo’s Audit: 6,852 Claude Code sessions, 234,000 tool callsBridgeMind Benchmark Report: Claude Opus 4.6 accuracy drop from 83.3% to 68.3%关键词Claude, Anthropic, Harness Engineering, AI Shrinkflation, Reasoning Effort, Caching Bug, Prompt Engineering, AI Quality, Model Deployment