AI开发烂尾病有救了!Anthropic推出Harness多Agent框架
Anthropic 把 GAN 的思路搬过来搞了三个 AI Agent组成了一个打工天团分工明确互相配合Planner 导演规划Generator 演员干活Evaluator 影评人挑毛病。你有没有过这种经历兴冲冲地打开 AI想让它帮你写个小工具、做个小应用。一开始 AI 写得飞快界面出来了基础功能也有了你还在感叹 AI 真牛解放生产力。结果写着写着不对劲了AI 开始忘事了之前说好的功能它忘了做 写出来的代码越来越乱之前的 bug 没改完又出新问题 你问它做完了吗它一脸无辜地说“我完成了呀所有功能都实现了”结果你一跑点啥都没反应整个项目直接烂尾。咖啡喝了三杯夜熬到两点最后还是得自己上手擦屁股。谁懂啊原来不是 AI 不行是你没找对方法Anthropic 官方搞出来的这个 Harness 多 Agent 框架直接把 AI 开发的烂尾病给治好了甚至能让 AI 自己花 4 小时搞定一个复杂的全栈应用今天就把这个官方干货给你扒透了看完你也能让 AI 从 “摆烂菜鸡” 变成 “全栈大佬”。谁懂啊用 AI 写代码越写越烂尾我之前踩过一个巨坑让 AI 帮我做个浏览器里的小游戏。一开始 AI 咔咔写半小时就把界面搭好了我还美滋滋地想这下不用自己写代码了。结果过了两小时我发现不对AI 写的按钮点了没反应 之前说好的角色移动功能完全没做 我问它“你是不是漏了功能” 它说“没有呀我都写完了你看代码逻辑没问题的。”我一看代码好家伙它把移动的函数写了但是根本没绑定到按键上它自己看自己的代码觉得完美但是实际跑起来根本用不了。最后这个项目就这么烂尾了。后来我才知道不止我一个人踩这个坑Anthropic 的工程团队做了大量的测试发现只要让 AI 单独做长时间的复杂任务几乎都会烂尾。为什么因为裸 AI 就像一个刚毕业的实习生你直接扔给他一个 “帮我盖个房子” 的需求他一开始干的挺好但是干着干着就忘了之前的设计图重复干活甚至卡住了都不知道。而 Harness就是给这个实习生配了个完整的项目管理团队帮他分工、帮他检查、帮他校准方向让他能踏踏实实把活干完。原来 AI 也会 “失忆” 和 “自嗨”Anthropic 发现AI 做复杂任务的时候有两个绕不开的毛病就像人一样第一个毛病AI 也会 “失忆” 和 “焦虑”你有没有过开会记笔记白板写满了前面的字看不清了然后你就开始着急怕后面的内容写不下赶紧潦草收尾AI 也一样它的上下文窗口就像那个白板对话越长写的东西越多白板就越满。等到快满的时候AI 就会开始 “上下文焦虑”—— 明明任务还没做完它就开始着急收尾质量直接跳水甚至把前面的内容都忘了。之前大家想的办法是压缩把前面的内容缩成摘要但是没用焦虑还是存在白板还是满的。Harness 的办法是什么接力赛跑跑一段就把接力棒交给下一个人前面的人跑完就下场下一个人拿着干净的白板拿着交接文档继续跑。这样每个人都有全新的上下文不会有焦虑也不会忘事。第二个毛病AI 也会 “自嗨”自己夸自己你有没有见过厨师尝自己做的菜怎么吃都觉得好吃盐放多了他都觉得刚好。但是美食评论家一尝就能挑出一堆毛病。AI 也一样你让它自己评估自己写的代码、做的设计它几乎永远会夸自己“我做的太好了完美”哪怕在我们看来这东西一堆 bug设计丑的要死它都觉得没问题。这就是自我评估偏差LLM 天生就喜欢夸自己因为训练的时候它学的就是友好的回应模式。那怎么办很简单别让它自己评自己找个独立的 “美食评论家”专门来挑它的毛病Anthropic 发现调教一个独立的评估器让它变严格比让生成器对自己的工作保持批判性容易太多了把 GAN 的思路搬过来AI 也能组 “打工天团”搞懂了这两个毛病Anthropic 直接把 GAN 的思路搬过来了你知道 GAN 吗就是造假者和鉴定师造假的不断提高技术鉴定的不断提高眼光最后造假的能做出以假乱真的东西。Harness 就是这个思路搞了三个 AI Agent组成了一个打工天团分工明确互相配合Planner导演管规划就像电影里的导演你跟他说 “我要拍个爱情片”他不会直接让演员去演而是会把你的一句话需求变成详细的剧本分镜头甚至把整个拍摄分成好几个阶段每个阶段要拍什么验收标准是什么都写的明明白白。比如你说 “帮我做个游戏制作工具”Planner 直接给你拆成 16 个功能10 个开发阶段甚至连精灵动画、音效、AI 辅助这些你都没想到的功能都给你规划进去了。Generator演员管干活就是那个实际干活的就像演员拿着导演的剧本按要求把内容拍出来写代码、做设计都是它的活。当然它也会犯错也会漏功能没关系后面有人管它。Evaluator影评人挑挑毛病就是那个严格的影评人演员拍完一段他就过来审片按之前说好的标准一条一条检查有没有漏功能有没有 bug设计好不好看发现问题了就写个详细的 bug 报告告诉 Generator“你这里不对这里要改”然后 Generator 就去改改完再给它查直到没问题了再进入下一个阶段。你看这不就是一个完整的团队吗导演管规划演员管干活影评人管质量三个人配合比一个人闷头干强一万倍终于治好了 “AI 味” 设计原来美也能打分之前我最烦的就是 AI 做的设计千篇一律的紫色渐变 白色卡片就是那种 “能看但是毫无灵魂” 的食堂味就像烹饪机器人做的菜能吃但是没有创意。Anthropic 之前也遇到这个问题Claude 默认做得设计永远都是安全、平淡没有个性。那怎么让 AI 做出好看的设计他们搞了个神操作把 “美不美” 这个主观的问题变成了可量化的打分标准他们定了四个评分维度不管是生成设计的 Generator还是评估设计的 Evaluator都按这个标准来设计质量整个设计是不是连贯的色彩排版有没有情感原创性有没有自己的设计重点是紫色渐变 白色卡片不合格工艺排版、间距、色彩是不是和谐功能性用户能不能看懂能不能用你别说这招太管用了Generator 知道自己会被这么打分就不敢再做那种千篇一律的模板了Evaluator 就按这个标准一条一条挑毛病然后反馈给 Generator让它改。迭代了几轮之后AI 居然能做出什么水平的设计有个案例他们让 AI 做荷兰艺术博物馆的网站迭代到第 10 轮的时候AI 直接把整个网站重做了做成了一个 3D 的画廊用 CSS 做了透视画作挂在墙上你能在不同的房间之间导航就像真的逛博物馆一样这种创意之前单次生成根本做不出来就是靠这个反馈循环AI 才敢跳出自己的舒适区做出真正有创意的东西。4 小时搞定全栈应用AI 自己当产品 开发 QA添加图片注释不超过 140 字可选搞定了设计Anthropic 把这个架构直接扩展到了全栈开发结果惊到我了他们做了个测试同一个需求“帮我做个浏览器里的游戏制作工具”分别用单 Agent 和 Harness 来做结果天差地别。单 Agent 版烂尾预定直接让一个 AI 从头到尾干没有规划没有评估结果呢布局乱的要死大量的空白空间操作逻辑混乱用户根本不知道该干嘛游戏完全跑不起来实体点了没反应还一脸无辜地说我做完了呀Harness 版直接出成品用了完整的三个 Agent结果呢界面布局合理用了全部的视口有统一的设计风格看起来就像专业做的功能完整不仅有编辑器还内置了 AI能帮你生成精灵、设计关卡游戏真的能玩能移动实体能交互怎么做到的其实就是把我们人类开发的流程完全复刻到了 AI 身上Planner 先当产品经理把需求拆成 10 个 Sprint每个 Sprint 都有详细的验收标准比如 “矩形填充工具要能拖拽填充”、“删除键要能删掉选中的实体”光一个 Sprint 就有 27 个验收标准然后 Generator 当开发按标准写代码写完一个 Sprint就交给 EvaluatorEvaluator 当 QA用 Playwright 实际打开这个应用点按钮、填表单真的测不是看代码是实际跑发现 bug 了就写个详细的报告精确到哪个文件哪一行比如 “LevelEditor.tsx 的 892 行删除键的判断有问题”然后 Generator 就去改改到过了测试再进下一个 Sprint。你看这不就是我们人类开发的流程吗产品、开发、QA一个都不少只不过现在这三个角色全都是 AI模型变强了框架也要 “减肥”你以为 Harness 就是一成不变的不对Anthropic 说Harness 就像小孩的学步车。小孩刚学走路的时候你要给他学步车、护膝、头盔帮他稳住别摔倒。但是等小孩长大了能自己走了这些辅助工具就没用了你还给他用反而限制他。AI 模型也是一样越来越强原来需要的那些辅助慢慢就不需要了。比如 Claude Opus 4.6 出来之后能力比之前强太多了能自己干更长时间的活不会跑偏能处理更大的代码库。那原来的 Harness那些复杂的 Sprint 分解、每个 Sprint 都要评估是不是就没用了Anthropic 做了个消融实验就像拆炸弹一次拆一个组件看哪个有用哪个没用他们把 Sprint 结构拆了发现没问题Opus 4.6 能自己连续干 2 小时的活不需要拆成小块了他们把 Evaluator 从每个 Sprint 都测改成整个做完了测一次也没问题成本直接降了好多但是 Planner 不能拆没了 PlannerAI 就会直接开始写代码忘了做规划最后做出来的功能少了一大半哦原来如此模型变强了我们的框架就要跟着 “减肥”把没用的辅助拿掉留下真正有用的部分这样既省钱又高效。花 124 刀AI 用 4 小时做了个音乐工作站最后他们用优化后的 Harness做了个终极测试让 AI 做一个浏览器里的 DAW也就是数字音频工作站就是我们用来做音乐的那种软件有音轨、混音、效果器非常复杂。结果是什么整个过程花了 3 小时 50 分钟总成本 124.7 美元。你没看错4 小时不到花了不到一千块人民币AI 就自己把这个复杂的音乐软件做出来了中间的过程也很有意思第一轮 BuildAI 花了 2 小时把主体做出来了但是 Evaluator 一测发现一堆问题音频片段不能拖、没有乐器面板、效果器没有可视化然后 AI 改了 1 小时第二轮 Build又测发现还有问题录音功能是假的、片段不能改大小、效果器还是滑块不是曲线再改 10 分钟第三轮终于搞定了最后做出来的东西居然真的能用有编排视图能拖音频片段有混音器能调音量甚至还内置了 AI你能跟它说 “帮我做个 4/4 拍的流行旋律”它就直接给你生成了你想想要是让人类团队做这个一个产品 一个前端 一个后端 一个 QA4 小时要多少钱远不止 124 块吧这效率直接拉满了最后聊聊其实 Harness 不是什么黑科技它最厉害的地方就是把我们人类社会里最有效的协作模式搬到了 AI 身上。我们都知道一个人干不过一个团队哪怕这个人再厉害。AI 也是一样哪怕模型再强一个 AI 干复杂任务也会有失忆、自嗨的毛病但是把它拆分成分工明确的团队规划的、干活的、挑毛病的互相配合就能搞定远超单个 AI 能力的复杂任务。而且最妙的是这个框架不是死的它会跟着模型一起进化模型变强了我们就把辅助的东西拿掉让 AI 更自主永远用最简单的方式解决问题。 最后问你个问题 你有没有过用 AI 开发项目烂尾的经历是 AI 写着写着失忆了还是它自我感觉良好但实际一堆 bug评论区聊聊你的踩坑经历我们一起看看怎么治 AI 的烂尾病