Agent1. 任务规划与拆解 (Reasoning Decomposition)递归深度失控任务拆得太细导致逻辑迷失或拆得太粗无法执行。目标漂移 (Goal Drift)长流程中 Agent 忘记了最初的最终目标。不可逆决策风险在缺乏“回滚”机制的现实环境中误操作如误删数据。动态重规划环境变化如 API 报错时Agent 无法实时修正后续步骤。2. 状态管理与上下文 (State Context)Token 损耗陷阱为了保持记忆频繁携带大量历史记录导致成本飙升。信息检索噪声 (RAG Noise)从向量库中搜到了无关信息干扰了 Agent 判断。写时冲突 (Write-Write Conflict)多个 Agent 同时修改同一文件或数据库。长期偏好对齐Agent 无法准确区分用户的“临时指令”与“长期习惯”。3. 环境感知与执行 (Perception Actuation)DOM 结构爆炸网页节点过多导致模型无法定位点击按钮。低频极端情况 (Edge Cases)如弹窗遮挡、网络波动、登录失效等异常处理。工具描述失真API 文档写得不清楚模型猜不到参数的具体含义。视觉空间误判在 Computer Use 任务中模型分不清坐标和实际像素位置。4. 评价与可靠性 (Evaluation Reliability)非确定性测试代码完全没变但 Agent 两次运行的结果天差地别。黑盒排查难难以追踪 Agent 在几十步操作中哪一步开始产生了逻辑偏差。安全沙箱逃逸防止 Agent 通过生成的脚本攻击底层宿主机。幻觉注入执行模型“一本正经”地生成了一个不存在的 API 参数并成功调用。5. 多体通信与协议 (Communication Protocols)消息格式碎裂不同模型、不同 Agent 之间 JSON/XML 协议不统一。死锁与循环调用Agent A 等 Agent BB 也在等 A导致系统卡死。信息衰减指令在多层 Agent 传递过程中关键信息逐层丢失。协同资源竞争多个 Agent 争抢有限的任务配额或计算资源。6. 工程效率 (Efficiency)端到端延迟 (E2E Latency)思考 调工具 二次思考过程太慢用户无法等待。冷启动成本每个新任务都需要人工编写冗长的提示词Prompt Engineering。版本碎片化底层大模型升级后原有的 Agent 提示词和逻辑全部失效。7. 工具调用8.权限隔离管理9.并发执行10. 浏览器操作search11. 错误回馈机制RAG1. 数据清洗与分块 (Data Processing Chunking)语义断裂分块Chunking时截断了关键上下文导致检索片段无意义。非结构化解析PDF 中的复杂表格、多栏排版、图片嵌套识别失败。噪声干扰页眉页脚、广告内容进入索引稀释了关键信息的权重。多格式统一Word, Markdown, HTML 等不同格式转换为标准向量时的特征损失。2. 索引与检索优化 (Indexing Retrieval)检索漂移 (Retrieval Drift)Query 与文档语义匹配但事实内容完全无关。向量维度灾难大规模数据下向量检索的精度下降与查询延迟增加。多路召回失衡向量检索语义与传统 BM25关键词权重分配不当。元数据缺失缺乏时间、类别等属性标签无法进行精确的预过滤Pre-filtering。3. 精排与重排序 (Re-ranking)窗口挤占Top-K 召回片段过多超过模型上下文长度或导致关键点被覆盖。精排模型成本使用 Cross-Encoder 进行重排序时计算开销过大导致响应慢。多样性缺失召回的内容高度重复Semantic Redundancy缺乏互补信息。4. 生成与增强 (Generation Augmentation)中间失落 (Lost in the Middle)模型只关注上下文开头和结尾忽略了中间的检索证据。归因幻觉模型回答了问题但引用的参考文献编号与实际内容对不上。指令冲突检索内容与模型预训练知识库冲突时模型产生“认知失调”。引用粒度模糊无法精确指明答案具体出自文档的哪一行或哪一页。5. 动态交互与演进 (Dynamic Advanced RAG)查询改写失效 (Query Transformation)用户意图模糊重写后的 Query 反而偏离原意。多跳推理失败 (Multi-hop Reasoning)答案散落在多个文档中无法通过一次检索完成。知识更新延迟向量数据库更新频率跟不上源数据变化产生时效性偏差。反馈闭环缺失用户点击或纠错行为无法直接反馈并优化检索模型。6. 评测与可观测性 (Evaluation Observability)缺乏标准答案 (Gold Dataset)私有领域缺乏高质量的测试集来衡量准确率。三元评价难题难以界定是“检索没搜到”、“搜到了但没写对”还是“本身就没答案”。端到端归因在复杂的 RAG 工作流中难以定位性能瓶颈究竟在哪一个环节。