责编 | 梦依丹出品 | CSDNIDCSDNnews在 AI 辅助编程风靡全球的今天许多开发者都经历过 Vibe Coding 带来的惊艳输入一行 PromptAI 迅速生成一个精美的 Demo。然而当技术团队试图将这些工具引入复杂的、百万行级代码的企业级生产系统时往往会面临“硬着陆”的尴尬每次开启新会话AI 就会忘记项目既定的技术栈和代码规范长对话进行到后期AI 因为上下文污染和“注意力漂移”变得越来越糊涂甚至开始原地打转自动生成的代码因为隐藏的逻辑缺陷或依赖引入导致 PR 被多次退回。这些痛点说明了一个严峻的事实Demo 惊艳不等于产线可用。AI 编程的瓶颈已经不再是模型本身的智力而是工程化能力。近日新加坡科技研究局高性能计算研究所 AI 研究员、知名技术作家黄佳咖哥走进 CSDN 「AI 进化论」栏目深入拆解了如何将 Claude Code 从 Demo 推进到产线的完整方法论。黄佳指出“2025 年我们都在玩 Vibe Coding而 2026 年企业真正需要的是 Harness Engineering。”本文基于黄佳老师的分享内容整理了将 Agent 推向生产环境必须跨越的“八道关卡”及对应的工程设计模式以飨读者。立即领取立即领取核心共识Agent Model Harness在系统拆解之前我们需要厘清一个核心公式AgentModelHarnessHarness 一词的原意为“马具”套在马身上的挽具、缰绳等。马匹虽然力大无穷但若没有马具的控制与牵引便无法拉动车辆。大语言模型也是如此它本身只是一个具备理解与生成能力的“智力引擎”而 Harness 则是包裹在模型外层的一切工程化基础设施包括上下文管理、工具调度、事件拦截、状态持久化等。截图自黄佳老师 PPT近期多项行业实测证实了一个关键规律“同一模型在不同 Harness 下的表现差异远大于不同模型在同一 Harness 下的差距。”在 TerminalBench 基准测试中仅通过对 Harness 层的优化就使同一个模型的能力从基线以下跃升至 Top 5Vercel 团队发现主动剔除 80% 的 Agent 工具后流程更精简Token 消耗骤降响应速度反而更快。因此调教 Harness 才是释放 AI 真实工程效能的真正变量。第一关如何让 AI 读懂巨型代码库痛点AI 记不住项目规范大库读不完每次新建会话都要重新给 AI 解释项目背景且由于上下文窗口的限制面对百万行级别的代码大库AI 常常面临“读不完”或“读了后面忘前面”的窘境。解法五层记忆体系 上下文分诊1. 建立分层的记忆架构不能把所有的规范都塞进同一个配置文件里。黄佳老师提出应该构建一个五层记忆体系Enterprise 级企业全局 CLAUDE.md写入不可绕过的安全与合规策略如严禁将代码发送至外部 API、禁止硬编码密钥等。User 级 存放个人的编码偏好如交流语言、快捷指令映射。Project 级 团队共享的项目级规范如明确规定使用 Fastify 框架和 pnpm 包管理。Anthropic 官方硬指标要求该文件控制在 200~300 行以内它不是文档夹而是始终在线的 P0 槽每一行都应是真金白银的规则。Rules 级 将细分领域的规范如前端组件规范、数据库迁移规范、测试策略拆解为独立文件。利用 YAML Frontmatter 的 paths 字段声明 Glob 模式进行条件化加载。例如只有当 AI 操作 tests/** 路径时才会激活测试规范实现按需取用。Local 级存放个人的临时备忘该文件自动被纳入 .gitignore不提交到代码库。2. 上下文分诊类比操作系统调度黄佳老师给出了一个精妙的隐喻在大模型时代LLM 是 CPUContext 是内存文件系统则是磁盘。我们无法把磁盘一股脑堆进内存中这就需要引入类似 OS 虚拟内存管理器的“上下文分诊”机制将候选信息分为四个等级P0 ~ P3截图自黄佳老师PPT通过这种分诊调度例如在排查“订单扣款失败”问题时AI 仅调入 3 段核心日志P0/P1与 5 段历史工单句柄P3将上下文体积从 18K 压缩至 2K Token信噪比大幅提升定位问题的准确度反而更高。第二关如何控制 AI 的幻觉痛点AI 给出看起来对、实际是错的代码在长会话中Claude Code 在 95% 容量时会自动触发上下文压缩。如果它把一段 487-token 的“连接池耗尽”错误堆栈压缩成了一句简单的 a database error occurredAI 就丢失了原本的反馈回路接下来可能会花费数小时重试那些早已被堆栈排除掉的错误方案在原地打转。解法结构化上下文 Hooks 质量门禁1. 结构化输入注入而非生成减少幻觉的关键在于让 AI 基于已有的代码进行“注入修改”而不是让其“凭空创造”。在向 AI 下达任务时尽量避免“帮我优化这个函数”等模糊表达而是要提供结构化信息反例帮我优化这个函数。正例优化 src/utils/parser.ts 的 parseConfig 函数瓶颈在第 42 行的循环。2. Stop Hook 作为契约将控制交回确定性工程“Prompt 是请求Hook 是契约。”我们不需要在 Prompt 里一遍遍地哀求 AI “请不要胡思乱想”而是要用确定性的 Hook 门禁把不靠谱的产出挡在门外。通过在扩展层配置 Stop Hook在 AI 完成响应并生成完代码之后、准备交付之前触发让系统自动静默运行单元测试与代码静态检查{ hooks: { Stop: [ { matcher: All, command: pnpm lint pnpm test, blocking: true } ] } }如果测试未通过系统直接阻断本次提交并报错把结果喂回给 AI让其自己修改直到自愈通过后再交付。第三关如何实现经验复用痛点好 Prompt 锁在个人脑子里无法团队共享每个开发者都在自己的终端里重复写着类似的代码审查、测试生成等 Prompt新人上手慢全队重复造轮子。解法从 Prompt 到声明式 Skill在 Claude Code 的设计中支持将好用的 Prompt 封装为 .claude/skills/ 目录下的 Skill 资产并通过 Git 进行版本控制。如此一来新人克隆代码库时就能瞬间继承整个团队沉淀的 AI 编程能力。一个 Skill 实质上是一个包含 SKILL.md 的目录。为了节省 TokenClaude 采用了渐进式披露的设计启动阶段 仅加载每个 Skill 顶部的 name 和 description约 100 tokens 的元数据。匹配阶段 当用户的输入命中该 Skill 的语义如提到“审查代码”系统才会展开完整的 SKILL.md 主文件。执行阶段 只有在真正需要动作时才动态调用挂载的 bundled 脚本/外部资源。通过这种“只在翻开书的对应章节时才看内容”的设计在运行多 Skill 系统时Token 空间可节省达 98% 左右。第四关算力贵、用量不透明探寻 Token 经济学痛点一次任务烧了多少钱说不清长对话越到后面越贵解法反向选型、多层路由与 Talker-Reasoner 架构1. 建立模型选择矩阵在企业实际部署中全跑高档的 Opus 往往会造成极大的资金浪费。经过对真实业务复杂度分布的统计发现多达 41% 的查询只是简单的 SQL 模板填空只需要最便宜的 Haiku 模型即可胜任。通过在 Harness 中配置三层路由机制Haiku (60%)→Sonnet (30%)→Opus (10%)在保障产出质量的前提下月账单可以从 48 万骤降至 12 万综合成本下降达 65%~75%。2. 反向选型在受限模型下选择“模式”当预算和部署环境是硬约束只能在本地部署开源便宜模型如 Qwen-32B时该如何提升准确率黄佳老师强调此时模式的选择才是设计的核心单次调用 Opus 价格高昂面对边缘 case 依然可能出错。Haiku 便宜模型 迭代自愈 让 Haiku 写代码另一个 Haiku 做 Code Review循环迭代 2 轮。其综合算力成本依然远低于单次调用顶级模型但最终产出质量反而实现了反超。3. Talker-Reasoner 双系统针对实时对话/Voice 等高频交互场景长时间的思考延迟如 reasoning 模型动辄等待 24 秒会导致用户以为系统卡死。借鉴 Kahneman 双系统理论可将架构重构为 Talker-Reasoner 协同模型Talker采用 200ms 的极速便宜模型如 Haiku负责立即回复用户、边聊边等Reasoner采用慢速但聪明的模型如 Opus/ reasoning在后台进行深度推理将推理出的 belief state信念状态源源不断地供给给 Talker。这样成功地把思考延迟在用户的感知里“藏”了起来。第五关约束与放手痛点AI 改对了 Bug却顺手改了三处不该改的安全逻辑解法约束行动而不是约束思考引入 HITL 人工审核在治理 AI 的行动边界时很多技术负责人会陷入一个误区试图在 Prompt 里细化 AI 的每一个思考步骤。这反而会束缚模型的推理自由。“约束限定的是行动的边界而不是思考的自由。约束不是能力的保障而是能力的容器。”合理的工程约束应该放置在动作发生、产生副作用不可逆操作的地方只读/低爆炸半径操作如查代码、看文档 自动放行不中断流程。可写/中等影响操作 留痕放行记录全链路的 Keyed log事后支持完整 replay 溯源。高爆炸半径/不可逆操作 强制触发阻断并在控制台弹出 HITL 人工审核面板人手点下确认后AI 才能继续往下执行。第六关复杂的编排载体该如何抉择痛点SubAgent、Skill、Workflow、Agent Team 概念混淆不知道怎么组织解法一张四方图厘清边界在 Harness 设计中这四种编排载体并不是竞争关系而是分别映射了现实世界中的四种工作实体Skill 岗位操作手册是静态的、跨任务复用的知识包与 SOP 模板代表了 Agent 的职业能力。SubAgent 专职员工具备独立的、被隔离的上下文空间执行完特定任务如跑个测试、搜个关键字后即刻销毁实现防污染。Workflow SOP 流程图将控制流显式、确定性地冻结在代码或脚本中适用于多步、有着明确目标的长期自动化流程如 nightly build 代码自动修复。Agent Team 持续协作的虚拟团队维持长期的、多人的对话交互各个 Mate 角色拥有持久化 Session。在成熟的企业项目中这四者通常是互补、嵌套使用的共同组合为一套业务流水线。第七关如何防止长任务状态漂移痛点复杂的长任务跑着跑着就偏离了目标解法三平面分立架构 草稿纸看板针对这个问题黄佳老师引述了团队核心共创者梁博老师在金融级 SaaS 智能体落地中的实践经验。当一个 Agent 需要操作多套系统并维持长周期任务时传统的混沌上下文极易导致“状态漂移”。其核心解法是推行三权分立的状态平面管理执行调度平面采用 DAG结构只记录任务状态与执行流不掺杂任何自然语言叙事与业务参数。机械参数平面严格键值的结构化字典是业务 API 入参的唯一可审计来源。叙事对齐平面采用自然语言记录“目标与进展”它是防漂移的“防波堤”包含三个核心锚Anchor锁定用户的原始最终目标无论中间跳转多少轮均以此进行校准防漂移。账Ledger里程碑台账结构化地纪要“做到了哪一步”、“确认了什么”。集Collection投影工作集。由于全量状态过大每一步只给 AI 投影当前该看的、最小的上下文集合降低检索开销。此外引入草稿纸看板设计将 AI 内部的思考流外化成一块可读、可审计、可随时恢复的物理看板落盘保存。即使某一轮因意外故障导致崩溃系统也能根据草稿纸记录瞬间恢复状态并继续运行。第八关从 Demo 到产线如何合规治理痛点能写代码不等于能交付系统谁来对 AI 的生产出错负责解法可观测性 来源坐标 团队的两条纪律AI 本身作为概率性模型无法承担最终的生产安全责任。“背锅”和负责的永远是人。因此走向生产环境的最后一步是构筑一套可观测与安全追溯的防线Provenance 来源坐标体系对系统中的每一个机械参数进行严格的链路追踪哪个工具产生、从响应的哪条路径抽取、处于哪一步 turn、由哪个用户输入发起出事能精准回溯到源头。两条铁的纪律纪律一 角色规则前置别等出事再通过 Prompt 去补必须写进 Skill 或 agent.md。纪律二 实行 Pre-task gating。在 AI 动手写代码前强迫其先进行评估说出“要做好这件事我还需要补充什么信息、明确哪些问题”。不评估不准写代码。从 Vibe Coding 的热闹走到 Harness Engineering 的严谨这是 Agent 工业化落地的必经之路。为了不让这些踩坑得来的经验重新回到封闭的个人脑海里黄佳老师联合业内在软件工程、长程多智能体编排以及企业级落地有着丰富经验的资深专家茹炳晟、姜宁、梁博共同发起了 Agent 设计模式共同体Agent Design Patterns Society, 简称 ADPS。如果您对将 AI 真正引入生产系统、优化研发效能、打通 Harness 工程设计感兴趣欢迎添加 CSDN 福利官领取黄佳老师本次分享的 PPT 与直播回放视频。