Gartner预警：超40%的Agentic AI项目将废弃！系统可靠性成关键命脉

张

张建站

2026/5/29 5:13:58

10分钟阅读

Gartner预警：超40%的Agentic AI项目将废弃！系统可靠性成关键命脉

文章指出尽管Agentic AI模型能力强大但超过40%的项目因系统不可靠而废弃。核心内容围绕多Agent协作模式、Agent失败原因及提升可靠性方法展开。文章分析了Anthropic的五种Workflow模式、OpenAI的Handoff机制及Google的A2A协议等多Agent协作方案总结了六种常见的Agent失败模式包括上下文退化、规格漂移、工具调用失败等提出了纵深防御的三层防护策略即确定性护栏、LLM评估和人类监督并强调高风险操作必须有人类审批。最后文章探讨了多Agent框架的竞争格局及行业在可靠性工程方面的不足指出当前阶段多Agent系统面临能力过剩、可靠性不足的挑战。Gartner 预测到 2027 年超过 40% 的 Agentic AI 项目会被废弃。不是因为模型不够强而是因为系统不够可靠。你可能觉得上一期讲完了 Agent 的核心架构Loop 推理记忆工具Agent 的故事就差不多了。但现实比这残酷得多——一个 Agent 能跑通 demo和它能在生产环境稳定服务中间隔着一道巨大的鸿沟。这一期我们聊三件事多个 Agent 怎么协作、Agent 为什么会失败、以及怎么让它变得可靠。一、多 Agent什么时候需要什么时候不需要先泼一盆冷水多 Agent 协作听起来很酷——几个 AI 像团队一样分工合作各司其职。但 Anthropic 在 2024 年 12 月的Building Effective Agents博客里给了一个非常清醒的建议不要一上来就搞多 Agent。大多数任务一个 Agent 配合好的 prompt 和工具就够了。多 Agent 引入的不只是能力还有复杂度、延迟和失败点。 Anthropic 的 5 种 Workflow 模式在真正需要多步骤协作时Anthropic 梳理了 5 种从简到繁的模式模式一Prompt Chaining链式把任务拆成固定的几步前一步的输出喂给下一步。适合流程已知、步骤清晰的场景。模式二Routing路由一个分发器根据输入类型把请求路由到不同的专家 Agent。适合输入多样、处理方式差异大的场景。模式三Parallelization并行多个独立子任务同时执行最后汇总结果。适合子任务之间没有依赖的场景。模式四Orchestrator-Workers编排-工人一个编排者 Agent 动态拆解任务分派给多个 Worker Agent。和并行的区别拆解方式是 LLM 动态决定的。模式五Evaluator-Optimizer评估-优化一个 Agent 生成输出另一个评估质量不合格就反馈修改意见重做。本质是引入了一个审稿人角色。⚡ OpenAI 的 Handoff 模式2025 年 3 月OpenAI 发布了 Agents SDKSwarm 的生产继任者。它的核心抽象非常精炼Agent Handoff。Handoff 是什么就是一个 Agent 在发现当前任务超出自己能力范围时把控制权移交给另一个更合适的 Agent。整个过程对用户透明——用户只和一个入口交互背后的路由是自动的。这比所有 Agent 开个会讨论高效得多。在 OpenAI 的设计哲学里多 Agent 不是平等合作而是专家分诊——像医院的分诊台你不需要知道背后有多少科室只需要描述症状。 A2A跨平台的 Agent 通信2025 年 4 月 9 日Google 发布了 Agent2AgentA2A协议——让不同框架、不同厂商构建的 Agent 之间能互相通信。2025 年 6 月捐赠给 Linux Foundation到 2026 年 4 月已有超过 150 个组织加入支持包括 AWS、Microsoft、Salesforce、Cisco。A2A 要解决的问题是你的客服 Agent 用 LangGraph 搭的财务 Agent 用 CrewAI 搭的怎么让它们协作A2A 提供了标准的Agent 名片Agent Card和任务交换格式让异构 Agent 也能握手。但说实话截至 2026 年中A2A 在生产环境的真实采用率还不高。大多数企业内部的多 Agent 系统更倾向于用同一个框架搞定跨平台互操作更多还是愿景阶段。二、Agent 为什么会失败六种死法上一期我们说 Agent 的本质是一个 while 循环。但循环也意味着——如果没有良好的终止条件它可能永远转下去或者往错误的方向越跑越远。综合 2026 年 3 月的论文Agent Lifecycle ToolkitarXiv 2603.15473和多个生产团队的复盘报告Agent 在生产环境中有六种最常见的失败模式失败一Context Degradation上下文退化随着循环次数增加上下文窗口被中间步骤填满。关键信息被挤到边缘或丢失模型开始遗忘最初的目标。类比你开了一个四小时的会到最后已经记不清最初要解决什么问题了。失败二Specification Drift规格漂移Agent 在执行过程中逐渐偏离用户的原始意图。每一步看起来都合理但累积起来方向已经跑偏了。类比你让实习生写报告他每一步都在合理推断但最后交出来的完全不是你想要的。失败三Sycophantic Confirmation谄媚确认Agent 倾向于讨好用户——确认用户的假设而不是挑战它即使用户的假设是错的。类比你问是不是 bug 在第 42 行“它不去检查就说对就是第 42 行的问题”。⚡ 失败四Tool Call Failures工具调用失败外部工具不总是可用或返回预期结果。一个工具调用失败如果 Agent 没有容错机制就会卡死或产生垃圾结果。失败五Cascading Failure级联失败在多 Agent 系统中尤其致命一个 Agent 的错误输出成为下一个 Agent 的输入错误被放大。三个 Agent 串联每个 90% 正确率整体就只剩 73%。Agent 越多系统可靠性越低。失败六Infinite Loops死循环Agent 卡在无法满足的条件上反复尝试相同策略消耗 token。或两个 Agent 互相 handoff形成踢皮球循环。三、可靠性工程怎么让 Agent 不翻车知道了失败模式怎么防2026 年的生产实践已经形成了一套比较成熟的方法论Defence in Depth纵深防御——三层防护叠加。层一确定性护栏Deterministic Guardrails不需要 LLM 参与的硬性约束——用代码写死的规则最大循环次数— Agent 最多执行 N 步就强制终止Token 预算— 单次任务消耗不超过 X token工具白名单— Agent 只能调用预先批准的工具输出格式校验— JSON Schema 验证、正则匹配敏感操作拦截— 删除数据、发送邮件等操作必须触发审批这一层的哲学不管 LLM 多聪明某些红线它不能碰。层二LLM-based 评估AI 审查 AI用另一个 LLM 审查 Agent 的行为意图一致性检查— Agent 的行动是否还在朝着用户的原始目标前进输出质量评估— 结果是否合理、完整、无幻觉推理链审计— Agent 的 thought 过程是否逻辑自洽这就是 Evaluator-Optimizer 模式在可靠性层面的应用。代价是额外的 token 消耗和延迟但对高风险任务来说完全值得。️ 层三人类监督Human-in-the-Loop对于高风险、不可逆的操作人类必须在场审批门控— 关键节点需要人类确认才能继续实时观察— 人类可以随时查看 Agent 的执行状态和推理过程中断与接管— 人类可以随时暂停 Agent 并接管控制2026 年 2 月发布的第二版《国际 AI 安全报告》明确指出对于可能产生重大后果的 AI Agent 行为人类监督不是可选的而是必须的。⚠️ 实践原则“信任但验证”结合三层防护2026 年生产 Agent 的共识设计原则是——按风险分级低风险高频信任 Agent事后抽检回答问题 · 搜索信息中风险中频AI 审查日志记录代码修改 · 文件编辑高风险低频必须人类审批删除数据 · 发布上线四、前沿视角2026 年更新框架混战谁会赢2026 年的多 Agent 框架格局可以用战国七雄来形容框架特点适用场景LangGraph图结构编排灵活度最高复杂有状态工作流CrewAI角色扮演式上手最快原型验证、快速迭代AutoGen/AG2微软出品对话式多 Agent研究探索、学术实验OpenAI Agents SDKhandoff 原语极简OpenAI 生态深度绑定Claude Agent SDKagentic loop tool_useAnthropic 生态首选Google ADK原生集成 A2A/MCPGCP 生态闭环但最有趣的趋势是越来越多的团队选择不用框架。Anthropic 的博客原文就说得很直白很多情况下直接用 LLM API 自己写循环比引入一个重框架更可控。我的判断多 Agent 系统在 2026 年还处于能力过剩、可靠性不足的阶段。模型本身已经足够聪明但工程侧的成熟度跟不上可观测性— 大多数团队还不知道 Agent 在生产中到底在做什么评估体系— 缺乏统一的Agent 质量度量标准成本控制— 多 Agent 的 token 消耗是单 Agent 的 3-10 倍Debug 难度— 分布式系统的调试复杂度乘以 LLM 的不确定性Future of Life Institute 的 2025 AI Safety Index 给出了一个触目惊心的结果所有主流 AI 公司在存在性安全维度的评分都没有超过 D 级。这不是在说 Agent 会毁灭世界而是在说——这个行业对自己产品的安全保障还远远不够。说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

AI伦理新视角：语法结构如何系统性消除伦理判断

1. 项目概述：当语法结构本身成为伦理的“橡皮擦”最近在梳理一些关于人工智能伦理的文献时，一个相当激进的理论构想引起了我的注意。它没有讨论我们耳熟能详的数据偏见、算法公平或价值对齐，而是将矛头指向了一个更底层、更隐蔽的层面&#x…...

2026/5/29 5:13:34 阅读更多 →

h2o-danube-1.8b-sft 社区贡献指南：如何参与模型改进与开源协作

h2o-danube-1.8b-sft 社区贡献指南：如何参与模型改进与开源协作【免费下载链接】h2o-danube-1.8b-sft 项目地址: https://ai.gitcode.com/hf_mirrors/SY_AICC/h2o-danube-1.8b-sft h2o-danube-1.8b-sft 是一个基于 HuggingFace 生态的开源大语言模型项目&a…...

2026/5/29 5:12:04 阅读更多 →

Veo 2 API接入性能瓶颈诊断（实测QPS骤降83%的根源曝光）

更多请点击： https://intelliparadigm.com 第一章：Veo 2 API接入性能瓶颈诊断（实测QPS骤降83%的根源曝光） 在高并发视频理解场景中，某客户将Veo 2 API集成至实时内容审核流水线后，监控系统显示平均QPS从1…...

2026/5/29 5:12:04 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/28 12:21:09 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/28 13:47:19 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/28 13:32:26 阅读更多 →