回头看:Coding Agent 才是通往 AGI 的那条窄门
约 3200 字 / 阅读时间 12 分钟一、开场当年我们都猜错了方向如果时间倒回 2023 年初你去硅谷任何一场酒会问一句AGI 会从哪条路走出来最常听到的答案有三种多模态、具身机器人、通用 Agent 框架AutoGPT 那一类。几乎没有人会一本正经地告诉你“是写代码的 Agent。”那时候Coding 在大模型语境里是一个垂直能力——和写诗、做表格、解数学题并列GitHub Copilot 还在做补全下一行AutoGPT 在 GitHub 上一周涨 10 万星但实际跑起来连订一张机票都会陷入死循环。写代码这件事被默认是 AGI 路线图上一个有用但不关键的支线任务。三年过去2026 年的春天我们打开任何一家头部 AI 公司的内部周会纪要几乎都会看到同一个关键词Coding Agent。Anthropic 把它放在公司战略最上面一行OpenAI 在去年秋天把 Codex 整建制独立成事业部Google DeepMind 在今年 I/O 上把 Jules 提到了 Gemini 主舞台中央。回头看整个行业用三年时间集体走完了一个祛魅—承认—追赶的过程。今天我们想聊的正是这个 180 度的认知翻转为什么是 Coding Agent为什么是 Anthropic以及这对 ChatGPT 和 Gemini 又意味着什么二、为什么写代码是通往 AGI 的窄门很多人到现在仍然不理解写代码不就是一种特殊的打字吗它和通用智能有什么必然关系要回答这个问题我们需要先把 AGI 这个词从神坛上请下来换一个更工程化的定义AGI 是一个能在开放环境中自主完成长链路目标的智能体。注意三个关键词——开放环境、自主、长链路。按这个定义往回推你会发现一个有意思的事实人类世界里唯一一个天然满足开放、可执行、可验证、可累积四要素的任务空间就是软件工程。第一它是开放的。没有任何一份题库能穷尽真实世界的需求每一个 bug、每一个新需求、每一次重构本质上都是没见过的新问题。这正是模型最稀缺的训练养料。第二它天然可执行。和写一篇好散文不同代码写出来要跑——能编译、能通过测试、能让用户点一下按钮真的弹出对话框。这意味着 Agent 每一步的行为都有一个毫不留情的客观裁判站在终点。第三它可验证。单元测试、集成测试、生产环境的报错日志构成了一套从微观到宏观的反馈回路。Agent 不需要等人类标注员上线它可以自己给自己打分。第四它可累积。代码会被 commitcommit 会被 reviewPR 会被合并软件会迭代——整个过程在 Git 里留下了一份完整的思维轨迹数据集。这是人类社会中极少数被如此完整记录、又如此结构化的长程决策语料。把这四点叠起来你就会得到一个朴素但被严重低估的结论软件工程是为强化学习量身定做的训练道场也是 AGI 在物理世界里第一个可以真正自我对弈的领域。围棋的 self-play 让 AlphaGo 走出了人类两千年没走过的妙手而代码的 self-play正在让 Coding Agent 走出超过普通工程师的解题路径——区别只在于这次的棋盘不是 19×19而是整个人类的数字基础设施。三、Anthropic 的窄门战略Claude Code 凭什么领先要理解 Claude Code 的领先得先承认一件事Anthropic 这家公司从基因层面就赌错过很多次但赌对了一次最关键的——它把 Coding Agent 当成主线而不是产品线。2024 年下半年当 OpenAI 还在为 GPT-4o 的语音 Demo 砸广告、Google 还在 Gemini App 里堆图片生成功能时Anthropic 悄悄做了三件几乎不性感的事第一件是把模型的训练目标从对话好调成了工具调用准长程任务稳。Claude 3.5 Sonnet 那一版发布时市场一度认为它在 benchmark 上不算最强但开发者很快发现让它连续调 30 次工具、跨 10 个文件改一个 bug它几乎不会迷路。这背后是 Anthropic 在 RLHF 之外押注了大规模agentic RL智能体强化学习——用代码任务做 self-play用真实 PR 做 reward。第二件是把交互界面从聊天框搬到了终端。2024 年 Q4 上线的 Claude Code 命令行版是行业里第一个以 CLI 为一等公民的 AI 产品。这看起来是个极客玩具实际是一次姿态宣示Agent 的工位不在浏览器而在开发者真实工作流的最深处——文件系统、Git、shell、CI/CD。第三件是开放上下文协议MCP。Anthropic 把 Claude Code 调用外部工具的方式标准化让任何一个数据库、IDE、SaaS 都能在一晚上接进来。这一手既是技术规范也是生态杠杆——它让 Claude 在事实上变成了开发者世界的 USB-C 口。到 2025 年下半年Claude Code 已经形成了一个外人很难追上的飞轮能力层模型对长上下文200K的注意力分布、工具调用的鲁棒性、对 diff 的 patch-level 编辑能力都建立了肉眼可见的代差。产品层CLI IDE 插件 Web Workbench 三件套互相喂数据Anthropic 内部用 Claude Code 写 Claude Code迭代速度直接挂上了二档。生态层MCP 已经成了开发者社区的事实标准连竞品都不得不被动兼容。数据层Anthropic 通过企业版拿到了海量真实软件工程任务的执行轨迹这是花钱也买不到的强化学习语料。更关键的是文化层面Anthropic 全公司都在 dogfood 自己的 Coding Agent。创始人 Dario Amodei 在多次公开访谈里说过同一句话——我们公司内部已经有相当比例的代码不是人类写的第一稿。这句话听起来像营销话术但任何一个用过 Claude Code 写过中等规模项目的人都会承认它至少不是夸张。当一家公司把自己用、自己改、自己卖做成一条闭环时它的进化速率是线性追赶者难以想象的。四、ChatGPT 的分心当一切都是优先级就没有优先级我们再来看 OpenAI 这边。坦白说OpenAI 不是没有意识到 Coding Agent 的重要性——他们在 2025 年初就推出了 Codex Agent年中又把 GPT-5 和 Codex 深度绑定。但意识到不等于做到。OpenAI 在 Coding Agent 这条赛道上落后的根本原因不是技术而是战略熵增。打开 OpenAI 的产品列表你会看到ChatGPT、GPTs、Sora、Voice Mode、Operator、SearchGPT、Codex、企业版、教育版、医疗版……每一个都很重要每一个都在抢有限的算力、数据和顶级工程师的脑容量。Sam Altman 是天才的融资者和叙事大师但也正因此OpenAI 必须不断讲新故事——而新故事就意味着新方向、新产品线、新分心。这种全民产品公司的姿态导致 Codex 长期处于重要但不紧急的位置模型层GPT-5 在通用对话和多模态上肯定更强但在长程工具调用的稳定性上开发者社区的实测口碑长期落后于 Claude。产品层Codex Agent 的 Web 形态先于 CLI意味着 OpenAI 在战略上把它当作另一个 ChatGPT 功能而不是开发者工作流的中枢。生态层OpenAI 在 MCP 出来一年后才宣布兼容这一年里整个开发者社区的工具生态已经默认围着 Anthropic 转。更深一层的问题是用户画像的反向锁死。ChatGPT 7 亿周活的用户里绝大多数是普通消费者OpenAI 的产品设计、内容策略、安全策略全部要服务于这群人。当一个产品同时要为初中生写作文、为律师查判例、为医生看片子又要为高级工程师做 Coding Agent它的内核就一定会被磨成平均值——而 Coding Agent 恰恰是一个不能取平均值的活儿。OpenAI 的广最终成了它在 Coding Agent 上的窄。五、Gemini 的工程师困境好牌打得拘谨Google 的处境更让人惋惜。论资源、论顶级研究员密度、论手里捏着的工程数据毕竟全公司每天产生的 CL 都是天量的训练语料DeepMind 本该是 Coding Agent 这一仗里条件最好的玩家。但 Gemini 的问题是一个典型的大公司困境——好牌被拘谨地打了出来。第一是组织结构的撕裂。Gemini 模型组、Google Cloud Vertex AI、Android Studio、IDX、Project IDX/Jules——同一家公司里至少有四五个团队都在做AI 代码。每个团队都很优秀但没有一个团队能拿到我就是公司 Coding Agent 的主战场这个授权。第二是合规与品牌的反向掣肘。Google 太大了大到任何一个 Agent 都要先过法务、品牌、隐私、监管的层层审查。Claude Code 可以放手让 Agent 直接改用户磁盘上的文件而 Gemini 的同类产品在很长时间里只能建议你这样改然后让你点确认。在 Agent 这个领域一次额外的人类点击就是一次能力的腰斩。第三是模型即一切的路径依赖。DeepMind 是研究院基因的公司长期相信只要把模型做得足够强应用层自然水到渠成。这套逻辑在 AlphaGo 时代成立在 LLM 早期也成立但在 Agent 时代——模型只是引擎工程化的车身和路面同等重要。Anthropic 用产品和协议补齐了这两块而 Google 直到 2026 年才开始真正认真做。Gemini 2.5 Pro 的代码能力其实并不弱单点 benchmark 上甚至能与 Claude 互有胜负。但当一个开发者真正坐下来要把它接进自己的项目、Git、CI、内部 RPC他会发现Claude 给的是一把插上就能用的电钻Gemini 给的是一台性能强劲但要自己接线的电机。六、回头看我们究竟看到了什么如果把 2023–2026 这三年画成一张大模型公司的主线任务地图你会看到一个很反直觉的景象那些把对话当作主线的公司最后做出来的是更好的搜索引擎那些把多模态当作主线的公司做出来的是更好的素材生成工具只有把代码 Agent当作主线的公司做出来的东西最像一个会自己长大的智能体。这背后藏着一个对 AGI 极其重要的认知升级AGI 不会从更像人的方向涌现而会从能持续在世界中产生因果的方向涌现。代码是人类发明的、对数字世界产生因果的唯一通用接口。一个能熟练写代码、调工具、改基础设施的 Agent本质上就是一个可以在数字世界自由行动的智能体。它今天能改一个前端按钮明天就能改一段后端业务逻辑后天就能写一个调用机器人手臂的 SDK再后天就能为自己写一个新的训练 pipeline。Coding Agent 是 AGI 的复利支点——它是少数几个能让 AI 自己提升自己生产力的杠杆点之一。谁在这个支点上跑得快谁就在 AGI 的复利曲线上提前抢到了位置。Anthropic 这一仗不是赢在某个具体的产品而是赢在它最早一批人看懂了这件事并且把全公司压上去。七、给从业者的三个朴素判断聊到最后作为一档面向产品和技术人的播客我想留下三个不那么宏大、但更可执行的判断判断一未来 18 个月工程师 Coding Agent的人效差会拉到 5–10 倍。这意味着团队结构会被重写——不是砍人而是同样规模的团队能做以前三倍的事不会用 Agent 的工程师竞争力会以肉眼可见的速度衰减。这不是危言耸听是 Claude Code 用户群里正在每天发生的事实。判断二Coding Agent 的护城河会从模型能力迁移到环境接入。谁拥有最完整的 MCP/工具生态、谁拥有最真实的企业工程语料、谁能让 Agent 在真实生产环境里被信任谁就赢得下一阶段。这给了 Anthropic 之外的玩家——尤其是有完整云生态的 Google、有完整办公生态的 Microsoft、以及国内的阿里云/字节——真正反击的机会窗口。判断三通用 Agent 框架不会从天而降它会从 Coding Agent 长出来。今天我们看 Claude Code 在终端里跑 shell、读文件、调 API、写测试、提交 PR——这套范式抽象一层就是任何Operator 类通用 Agent 的最小骨架。未来的 Operator、未来的个人 AI 同事、未来的具身机器人 OS本质上都是 Coding Agent 范式的换皮版本。这意味着 Anthropic 今天在 Coding Agent 上积累的工程范式优势会在三年后兑现为整个 Agent 时代的入场券。结尾窄门里走出来的往往是大路科技史上有一个反复出现的母题——最重要的革命常常诞生在一个看起来过于具体的角落里。蒸汽机最早只是为了从矿井里抽水互联网最早只是为了给几所大学的物理实验室共享论文移动支付最早只是为了在地铁里方便买票。Coding Agent 今天看起来只是给工程师用的工具但它很可能就是 AGI 真正落地的那扇窄门。Anthropic 提前几年看到了这扇门弯下腰走了进去。ChatGPT 和 Gemini 现在终于也意识到要走进来但门内已经有人点起了灯、铺好了路、写好了脚本——还在用脚本不断自动生成新的脚本。回头看这场比赛的胜负可能在 2024 年那个不起眼的秋天就已经分出了大半。而前方那条窄门后面的路有多宽我们大概要再过两三年才会真正看清。但有一点已经非常清楚了——那条路的尽头写着 AGI 三个字母。