硅谷顶级工程师已经不写代码了，他们在做一种叫 Harness Engineering 的新工作

张

张建站

2026/7/11 13:39:31

10分钟阅读

硅谷顶级工程师已经不写代码了，他们在做一种叫 Harness Engineering 的新工作

最近读到 Nav Toor 写的一篇长文标题很抓人为什么 2026 年最好的 AI 工程师已经不写代码了。文章讲的是一个正在工程圈子里快速升温但主流媒体几乎没有报道的新概念叫 Harness Engineering。这个概念的起点是一个让人震惊的实验结果。同一个模型同一套测试成绩翻了将近一倍有研究者用同一个 AI 模型跑同一套编程基准测试第一次得了 42 分第二次得了 78 分。模型没换测试没换温度参数没调什么都没变。唯一变了的是包裹在模型外面的那套系统也就是所谓的 harness。Harness 这个词直译过来是「挽具」就是套在马身上用来控制方向的那套装备。Nav Toor 用了一个很形象的比喻模型是马很有力量但如果没有缰绳、马鞍和嚼子马想去哪就去哪。Harness 就是让这匹马按照你的意图跑的那套东西。具体来说harness 包括注入给 AI 的规则文件、工具配置、技能模块、记忆文件、以及各种反馈回路。它决定了 AI 在接到任务之后怎么理解需求、怎么拆解步骤、怎么避免犯错、怎么在出错之后自我纠正。LangChain 的团队独立验证了同样的结论。他们的编程智能体在 Terminal Bench 2.0 基准测试上从排名 30 开外直接冲进了前 5。模型没换只换了 harness。OpenAI 的 Codex 团队更夸张他们用 AI 写了一个超过一百万行代码的生产级应用其中没有一行是人手写的。工程师全程没有写代码他们做的事情就是设计 harness。这些案例指向一个非常清晰的结论模型的选择远没有大家以为的那么重要真正决定 AI 编程质量的是你围绕模型搭建的那套系统。Harness Engineering 到底在做什么Nav Toor 引用了 Terraform 的创造者 Mitchell Hashimoto 的定义每当你发现 AI 犯了一个错误你就花时间设计一个解决方案确保它再也不会犯同样的错误。这句话就是 harness engineering 的全部哲学。不要祈祷下一个模型版本会更好去修复模型周围的系统。文章详细拆解了 AI 编程智能体的五个可配置节点每一个都是你可以拉动的杠杆。第一个是系统指令文件。这是放在代码仓库根目录的一个 markdown 文件AI 每次启动会话时都会读取它。它告诉 AI 你的代码库是干什么的、遵循什么规范、有哪些禁区。大部分人要么跳过这个文件要么让 AI 自己生成一个。两种做法都是错的。苏黎世联邦理工学院测试了 138 个这样的文件发现 AI 生成的反而会降低表现还多消耗 20% 的 token。人写的有帮助但前提是简洁且具体。Nav Toor 的建议是控制在 60 行以内只写全局通用的指令不要放目录结构AI 自己会发现不要写条件逻辑「如果做 X 就按 Y 来」这种写法会让 AI 困惑。第二个是技能模块。与其把所有知识都塞进系统提示词里不如拆成一个个聚焦的模块AI 在遇到匹配的任务时自动加载。比如你可以有一个数据库迁移的技能、一个 API 端点创建的技能、一个前端组件模式的技能。AI 遇到迁移任务就加载迁移技能其他的不加载。这叫渐进式披露让 AI 从最少的上下文开始按需拉取更多信息保持上下文窗口的干净。第三个是 MCP 服务器。它可以把 AI 连接到外部系统比如 Linear 做任务追踪、Sentry 做错误监控、数据库做实时查询。但 Nav Toor 特别警告每接一个 MCP 工具都会增加 AI 系统提示词的负担。接太多会导致所谓的「工具抖动」AI 把时间浪费在选择用哪个工具上而不是干正事。建议从两三个开始遇到真正的瓶颈再加。第四个是子智能体。这里有一个很重要的纠偏子智能体的正确用法不是按角色分工一个负责前端、一个负责后端HumanLayer 团队试过这种方式放弃了。子智能体的正确用法是作为上下文防火墙。当主智能体遇到一个会把上下文窗口塞满中间噪音的任务时把它委派给子智能体。子智能体在自己的隔离上下文里干活完成后只把结果传回来中间过程不会污染主线程。Chroma 的研究显示AI 模型在更长的上下文长度下表现会明显下降。子智能体的作用就是把大问题拆成小的、聚焦的会话让模型始终保持在最佳状态。第五个是钩子Hooks。钩子是在 AI 工作流的特定节点自动运行的脚本给一个非确定性的系统加上确定性的控制。比如提交前的钩子可以跑代码检查和测试完成前的钩子可以强制 AI 对照原始需求做一次验证循环检测钩子可以在 AI 反复做同一个修改时及时打断它。LangChain 做了一个叫 PreCompletionChecklistMiddleware 的钩子在 AI 完成任何任务之前强制做一次需求核验这一个钩子就贡献了他们整个 harness 里最大的性能提升之一。为什么模型之争是一个误区Nav Toor 在文章里花了不少篇幅讲一个很多开发者都在犯的错误花大量时间争论 Claude 好还是 GPT 好还是 Gemini 好追逐每一次新模型发布相信下一个版本会解决一切问题。数据给出的答案很明确。同一个模型通过调整 harness 可以从 42% 跳到 78%这是将近翻倍的提升。历史上没有任何一次模型升级带来过 2 倍的性能提升但一个设计良好的 harness 可以常规性地做到。OpenAI 的 Codex 团队自己也说得很直接当智能体表现不好的时候我们把它当成一个信号去找缺少了什么是工具、是护栏、还是文档然后把它补回到代码仓库里。他们不换模型他们修 harness。Nav Toor 用了一个很精辟的总结模型是引擎harness 是方向盘、刹车和路面。你可以拥有世界上最强大的引擎但没有方向盘它只会撞墙。这个观点跟我们之前聊的好几个话题都能对上。Ryo Lu 说品味和判断力是 AI 时代的护城河Aaron Levie 说知道该构建什么比构建本身更有价值Zack Shapiro 说输入层才是真正值钱的东西。Harness engineering 本质上就是这些理念在工程实践中的具体落地你给 AI 搭建的系统决定了 AI 的产出质量。一套可以立刻开始的实践方法Nav Toor 在文章最后给出了一套非常具体的起步方法。首先在代码仓库根目录创建一个系统指令文件控制在 60 行以内写清楚你的技术栈、测试命令、硬性规则比如「永远不要删除迁移文件」「提交前必须跑测试」「使用 TypeScript 严格模式」其他什么都不放。然后找到代码库里反复出现的模式比如 API 端点创建、数据库迁移、组件脚手架为每一种模式写一个聚焦的技能文件包括正确做法、边界情况和常见错误。接着加一个提交前钩子跑代码检查和测试套件。AI 如果试图提交不通过的代码钩子会在它进入仓库之前拦住。一个钩子巨大的收益。当你发现 AI 在长任务上开始失去连贯性的时候把任务拆成子任务委派给子智能体让主线程保持干净。最后也是最关键的习惯每周五回顾这一周的失败案例。每一个失败加一条规则、一个技能或者一个钩子到你的 harness 里。每个失败花五分钟。随着时间推移你的 harness 会不断积累修复方案你的 AI 会一周比一周更可靠。不是因为模型变好了是因为你的系统变好了。这对职业发展意味着什么Nav Toor 在文章结尾做了一个很有说服力的论证。AI 模型正在商品化。每家公司都能用到同样的前沿模型Claude、GPT、Gemini谁都能调用。模型本身已经不是竞争优势了。但一个精心设计的 harness 是。它跟你的代码库绑定跟你团队的模式绑定跟你领域的边界情况绑定。它没法通过下载一个模型来复制它是通过数周数月的时间把真实世界里的失败一个个编码进系统里慢慢积累出来的。能设计这种 harness 的开发者就是公司无法替代的人。不是因为他们写的代码最好是因为他们设计了让 AI 写出最好代码的系统。OpenAI 自己说得很明确工程师的工作不再是写代码而是设计环境、明确意图、构建反馈回路让智能体能够可靠地工作。Nav Toor 最后做了一个时间线梳理2023 年的核心技能是 Prompt Engineering2025 年是 Context Engineering2026 年是 Harness Engineering。学习成本为零不需要新工具任何有 AI 编程工具的开发者都可以立刻开始。唯一的问题是你是今天就开始设计你的 harness还是继续等下一个模型发布来拯救一切。数据已经回答了这个问题。原文地址https://x.com/heynavtoor/status/2037200578842157462给大家说件事从今年开始我星球里会录制各种视频教程到目前为止录制的视频教程就已经有 20 多期了。最近非常火的 Agent Skill 视频教程也录制了 16 期了。加入我的星球社群「AIGC·掘金成长研习社」即可获取视频链接学习。最后介绍一下我的星球「AIGC·掘金成长研习社」可点击链接查看星球全面介绍主要分享三个板块的内容1、副业赚钱领域的内容。我做自媒体十几年了有很多副业赚钱方面的经验和干货而且每周都会定期详细带大家拆解一个副业赚钱案例持续更新的那种目前已经分享了上百篇跟副业赚钱相关的帖子和文章了。2、AI 落地和实操相关的内容。我在里面也分享了很多 AI的各种玩法和落地场景包括用 AI 做副业的案例也都有。3、个人成长。我会分享很多我做超级个体和自由职业的一些思考和成长类的内容目前我已经做自由职业 5 年了有太多的感慨和内容分享。如果你想学习如何搞副业如何使用 AI 甚至如何使用 AI 搞副业那一定要加入我这个超值的星球。目前已经更新了 1800 多条干货和文章了加入成员 1500。感兴趣的可以加入。限时优惠中原价 199 元今天加入可以立减 30 元只需要 169 元优惠券仅剩 10 多个优惠名额。我认为我的星球是目前副业和 AI 领域最超值和具有性价比的星球价格不贵同时内容也不比几千块钱的星球差。大家可以扫码查看支持 3 天无理由退款内容好不好先进来看看再说不适合自己退了也没毛病。

GD32定时器多通道输入捕获实现高精度波形频率测量

1. GD32定时器输入捕获基础原理第一次接触GD32的定时器输入捕获功能时，我也被那些专业术语搞得一头雾水。后来在实际项目中用它测量风扇转速才发现，这其实就是个"电子秒表"功能。想象一下你要测量跳绳的频率——每次绳子转到最高点时按下秒表…...

2026/7/4 2:59:18 阅读更多 →

LeetDown：在macOS上降级A6/A7设备的终极解决方案

LeetDown：在macOS上降级A6/A7设备的终极解决方案【免费下载链接】LeetDown a GUI macOS Downgrade Tool for A6 and A7 iDevices 项目地址: https://gitcode.com/gh_mirrors/le/LeetDown 你是否拥有一台老旧的iPhone 5s、iPhone 6或iPad Air，但升…...

2026/7/11 0:36:41 阅读更多 →

后端开发者的全栈转型：前端该学到什么程度？

转型浪潮下的新命题在软件研发领域，技术栈的融合与角色的泛化已成为不可逆转的趋势。传统的后端开发者，面对日益复杂的业务需求和敏捷迭代的开发模式，常需跨越架构的边界，向前端领域延伸，从而迈向“全栈”之路。然而&a…...

2026/7/10 14:16:00 阅读更多 →

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

1. 为什么选择一维卷积做RUL预测？我第一次接触RUL（剩余使用寿命）预测时，发现大多数论文都在用二维卷积处理传感器数据。直到实际处理CMAPSS航空发动机数据集时，才意识到一维卷积才是更自然的选择。想象一下&#xff0c…...

2026/7/9 17:20:07 阅读更多 →

STM32与SPI EEPROM高效数据存储与检索方案

1. 项目背景与核心需求在嵌入式系统开发中，快速精确的数据检索是一个常见但极具挑战性的需求。特别是在工业控制、医疗设备和物联网终端等场景下，系统往往需要在毫秒级时间内完成关键参数的读取和写入操作。传统基于Flash存储的方案存在擦写次数有限、操…...

2026/7/10 3:37:57 阅读更多 →

23-AGENTS.md高级用法

23 AGENTS.md 高级用法概述上一篇文章介绍了 AGENTS.md 的三层加载机制，这是 AGENTS.md 体系的基础。但在实际的大型项目中，三层结构往往不够灵活。团队经常面临这样的场景：同一个 Git 仓库中包含多个服务或模块，每个模块都有自己的独特规范，同时还要继承项目级的通用…...

2026/7/11 13:29:47 阅读更多 →