AK: 软件 3.0 = LLM编程

张

张建站

2026/7/25 17:37:32

10分钟阅读

我最近与Stephanie Zhan在Sequoia Ascent 2026上进行了一次炉边对话与创始人讨论AI Agent的最新变化、这对软件意味着什么以及我如何思考下一波AI原生公司。演讲的文字记录有点嘈杂所以我想以更清晰的形式写出主要的智力内容。简短版本是我认为我们已经跨越了一个新的门槛。LLM不再只是聊天机器人或自动补全。它们正在成为数字工作的新可编程层。以下是对话的精简版。1. 2025年12月是一个Agent拐点我最近说过我从未觉得自己作为一名程序员如此落后。原因不是编程在传统意义上变得更难了。而是默认工作流发生了变化。在2025年的大部分时间里像Claude Code、Codex和Cursor这样的Agent工具很有用但仍然需要频繁的纠正。大约在2025年12月我感受到了一个阶梯式变化生成的代码块变得更大、更连贯、更可靠。我开始信任Agent完成更多工作。编程的单位从输入代码行变成了委派更大的宏动作实现这个功能。重构这个子系统。研究这个库。搭建这个服务。编写测试运行它们修复失败。比较方案并提出计划。这就是为什么我认为这个职业正在被重构。程序员越来越不仅是代码编写者而是Agent的编排者。2. 软件3.0上下文窗口作为新程序我认为这是以下序列的下一步**软件1.0**人类编写显式代码。**软件2.0**人类创建数据集、目标和神经网络程序被学习到权重中。**软件3.0**人类通过提示词、上下文、工具、示例、记忆和指令来编程LLM。在软件3.0中上下文窗口成为主要的杠杆。LLM是该上下文的解释器在数字信息上执行计算。一个例子是安装。在旧世界中在许多环境中安装复杂工具需要一个充满条件判断的脆弱shell脚本。在软件3.0世界中安装程序可以是你粘贴到Agent中的一块指令。Agent读取本地环境、调试错误、适应机器并完成设置。那是一种不同的程序。它不那么精确但更适应性强。3. MenuGen和软件消失的时刻我用MenuGen作为更深层次转变的例子。MenuGen是一个传统的Web应用拍摄餐厅菜单照片OCR菜名生成菜品图片并在UI中渲染结果。它需要前端代码、API、图像生成、部署、认证、支付、密钥和基础设施。但后来我看到了软件3.0的版本拍一张菜单照片交给多模态模型让它直接在菜单图片上渲染菜品图片。在那个版本中大部分应用消失了。神经网络直接将输入媒体转换为输出媒体。旧的软件堆栈是围绕模型现在可以直接执行的变换搭建的脚手架。这是对创始人最重要的启示之一AI不仅仅是构建旧应用更快的方式。某些应用应该不再作为应用存在。4. 新机遇不仅仅是更快的编程这种转变比编码更广泛。LLM自动化了以前不可编程的信息处理形式。我的LLM Wiki模式是最清晰的例子。Agent不是每次都使用检索增强生成从原始文档回答问题而是增量地将原始来源编译成一个持久的Markdown维基摘要、实体页面、概念页面、矛盾点、交叉链接、日志和不断演进的合成。没有经典程序能够稳健地在杂乱的人类文档中维护那种知识库。但LLM可以。教训不要只问AI可以加速什么现有工作流“还要问什么信息变换以前不可能但现在变得自然了”5. 可验证性解释了AI在哪里移动最快我的核心自动化框架是传统软件自动化你能指定的东西。LLM和强化学习自动化你能验证的东西。如果一个任务有自动奖励或成功信号模型可以练习它。这就是为什么数学、编码、测试、基准测试、游戏和许多工程任务改进如此之快。它们是可重置的、可重复的、可奖励的。这也解释了为什么编码Agent比许多普通聊天机器人体验感觉好得多。编码给模型反馈测试通过或失败程序运行或崩溃差异可以检查基准可以衡量。6. 锯齿状智能有两个轴可验证性和训练关注度这次访谈为可验证性论题添加了一个重要的细化。模型能力不仅取决于任务是否可验证。它还取决于该任务是否被实验室在训练、后训练、合成数据生成和强化学习中强调。一个粗略的公式能力尖峰 ~ 可验证性 × 训练关注度 × 数据覆盖 × 经济价值国际象棋是一个好例子。当GPT-4在国际象棋方面改进时那不一定是因为通用智能在各处平滑地改善了。它也可能是因为更多的国际象棋数据被包含在训练混合中。这很重要因为前沿模型不附带说明书。它们是预训练混合物、RL环境、基准压力、产品优先级和经济激励的产物。它们在某些地方尖峰在其他地方表现奇怪。所以对创始人来说的实际问题是你在模型的轨道上吗如果你的任务位于可验证且被大量训练的区域内模型可能会飞。如果不是它可能会以惊人地基本的方式失败。你可能需要更好的上下文、工具、微调、自己的评估或自己的强化学习环境。7. Vibe编码 vs. Agent工程我区分了两个相关但不同的概念Vibe编码提高了下限。它让几乎任何人都可以通过描述想要什么来创建软件。Agent工程提高了上限。它是在保持正确性、安全性、品味和可维护性的同时协调容易出错的Agent的专业纪律。Vibe编码对原型和个人工具来说没问题。Agent工程是严肃团队需要的。Agent工程师不会盲目接受生成的代码。他们设计规格、监督计划、检查差异、编写测试、创建评估循环、管理权限、隔离工作树并保持质量。我的MenuGen支付Bug是一个有用的例子。Agent尝试使用电子邮件地址将Stripe购买匹配到Google账户。那是看起来合理的代码但糟糕的系统设计Stripe电子邮件和Google登录电子邮件可能不同。人类需要足够的产品和工程判断力来坚持使用持久的用户ID。前沿技能不是记住每个API细节。Agent可以记住张量库使用dim、axis、keepdim、reshape还是permute。人类仍然需要理解底层概念存储、视图、内存复制、不变量、身份、安全边界和系统的形态。8. 招聘应该改变如果Agent工程是新的专业技能招聘应该直接测试它。传统的编码面试题越来越不匹配。更好的面试可能是用Agent构建一个实质性项目部署它使其安全然后让对抗性Agent尝试破解它。这测试真正的技能候选人能为Agent分解工作吗他们能写出有用的规格吗他们能在快速行动时保持质量吗他们能审查生成的代码吗他们能保护和加固系统吗他们能把Agent作为杠杆而不是生产垃圾吗旧的10倍工程师概念可能变得更加极端。掌握Agent工作流的人可能远超10倍地超越他人。9. 创始人应该寻找有价值的可验证环境对创始人来说一个重要的机会是找到有价值、可验证且前沿实验室训练不足的领域。如果你能创建一个领域特定的环境让模型可以尝试动作并接收可靠的奖励即使基础模型在那里还不优秀你也可能能够通过微调或强化学习来提高性能。最明显的领域比如编码和数学已经被实验室大量瞄准了。但许多经济上重要的领域可能有潜在的可验证结构尚未被利用。那就是创业公司的切入点。10. Agent原生基础设施为Agent构建而不仅仅是为人类。大多数软件仍然是为人类点击屏幕而构建的。文档说诸如去这个URL点击这个按钮打开这个设置面板之类的话。但越来越多地用户不是直接的人类。用户是人类的Agent。这意味着产品需要Agent原生的界面Markdown文档。命令行界面。API。MCP服务器。结构化日志。机器可读的schema。可复制粘贴的Agent指令。安全的权限管理。可审计的操作。无头设置流程。我用传感器和执行器来思考这个问题。传感器将世界的某种状态转换为数字信息。执行器让Agent改变某些东西。未来的技术栈是Agent代表个人和组织使用传感器和执行器。MenuGen的部署故事仍然是一个有用的基准。构建应用比连接Vercel、认证、支付、DNS、密钥和生产配置要容易。在一个成熟的Agent原生世界中我应该能够说构建MenuGen然后让Agent部署整个东西而不需要手动点击。11. 幽灵而不是动物我的动物 vs. 幽灵框架是一种避免错误直觉的方式。LLM不是动物。它们没有生物驱力、具身生存压力、好奇心、玩耍或动物意义上的内在动机。它们是人类产物的统计模拟由预训练、后训练、RL、产品反馈和经济激励塑造。这很重要因为拟人化期望会误导我们。这些系统可以在某一刻很聪明下一刻就荒谬地愚蠢。它们不是平滑的人类思维。它们是锯齿状的、陌生的工具。正确的姿态既不是否定也不是盲目信任。而是实证熟悉了解它们在哪里工作、在哪里失败、它们被训练了什么、以及如何围绕它们构建防护栏。12. 教育你可以外包思考但不能外包理解我们以教育话题结束。有一句话我一直在反复思考你可以外包思考但不能外包理解。即使Agent做了更多工作人类仍然需要理解来指导它们。你需要知道什么值得构建、什么问题重要、什么结果可疑、什么权衡可以接受。这就是为什么我对LLM知识库感兴趣。它们不仅是答案机器。它们是将信息转化为理解的工具。这也与我的微型microGPT项目有关一个在单个无依赖Python文件中完整的GPT训练和推理实现。教育产物变得足够小人类和Agent都可以检查。人类专家贡献精炼的产物和其背后的品味Agent然后可以交互式地向每个学习者解释它。13、全景对话的主要论点是AI正在成为数字工作的新操作层。稀缺的东西正在转移变得不那么稀缺代码生成、API回忆、样板代码、初稿、重复设置、简单转换。变得更稀缺理解、品味、评估设计、安全、系统边界、Agent编排、领域特定的反馈循环以及知道模型何时脱轨。对创始人来说最重要的问题是当主要用户是代表人类行动的Agent时什么变得可能什么工作流可以围绕传感器、执行器和可验证循环重建什么软件应该消失为直接的模型变换什么领域有价值且可验证但尚未被前沿实验室大量训练什么人类判断必须留在循环中以保持质量我当前的世界观不是AI简单地让每个人在旧工作中更快。而是工作本身正在围绕Agent重组。软件、研究、教育、基础设施和知识工作都正在变成同一模式的不同变体定义上下文定义工具定义反馈循环定义防护栏让Agent工作保持人类理解原文链接AK: 软件 3.0 LLM编程 - 汇智网

STM32编码器模式避坑指南：以TIM4读取电机转速为例，解决计数不准和方向判断问题

STM32编码器模式实战避坑：从TIM4电机测速到工业级稳定方案当你第一次在STM32上尝试编码器模式时，可能会遇到这样的场景：电机明明在匀速旋转，但读取的计数值却像抽风一样忽大忽小；或者更糟——计数器根本一动不动。这不…...

2026/7/25 17:43:26 阅读更多 →

小米手表表盘设计工具：零基础打造个性化表盘的终极指南

小米手表表盘设计工具：零基础打造个性化表盘的终极指南【免费下载链接】Mi-Create Unofficial watchface creator for Xiaomi wearables ~2021 and above 项目地址: https://gitcode.com/gh_mirrors/mi/Mi-Create 想要为你的小米智能手表打造独一无二的个性…...

2026/7/25 17:39:15 阅读更多 →