无需技术背景!一文读懂生产环境中智能体系统的构建要素
1. 提示基础所有生产级人工智能系统都始于一个精心编写的提示。若用过ChatGPT或Claude就知道提示是输入内容后模型做出回应。不过日常随意输入的提示与生产环境中精心设计、能可靠运行数千次的提示存在巨大差距。一个结构良好的提示包含五个组成部分对各部分定义越精确输出结果越可预测。而提示的使用策略主要有三种每种都在简洁性和准确性之间权衡。零样本学习法最简单给人工智能无示例任务期望其自行完成在任务定义明确且模型掌握模式时效果好少样本训练法需提供输入输出对示例让模型理解确切模式或格式在确保格式和语气一致性方面有效思维链要求人工智能逐步推理问题以速度换准确性是处理复杂分析任务的理想选择。2. 从随意使用到生产系统使用ChatGPT或Claude时人们常摸索出一套手动引导对话的方法但在生产系统中软件需每天可靠、自动执行数千次操作承担不起重试风险。解决方案是不要让一个模型一次性完成所有任务而是先弄清楚人工操作的工作流程将其分解成更小、更独立的部分分配给专门的AI代理。这就是智能体人工智能系统的核心理念它将问题分解使系统运行更快、可预测性更高且更易调试。3. 子代理和模型参数子代理是被分配到大型工作流程中特定、狭窄任务的AI模型每个子代理专注一项任务可使用更小、更快、更经济的模型。除选择合适模型还需调整模型运行方式其中重要参数是“温度”。“温度”控制模型输出的“创造性”或“随机性”低值时模型保守适用于确定性任务高值时模型更具探索性适用于创造性任务。经验法则是任务需一致性就降低“温度”需创造性就提高“温度”。4. 智能体工作流范式连接子代理主要有两种范式。基于链式的工作流是最简单模式代理输出依次传递线性、可预测、易调试LangChain是构建此类工作流的流行框架其优势在于抽象性切换模型提供商代码更改少还提供常见任务的现成组件。基于编排的工作流更强大设置单一编排器代理编排器根据任务信息制定执行计划决定调用子代理的顺序和处理输出可循环操作。LangGraph框架为此设计与LangChain区别在于可动态分支、循环和路由。若任务按固定顺序执行用链式流程若需根据情况调整用协调器。5. 能动模式单个智能体执行任务的推理和行动模式主要有“反馈”ReAct和“计划与执行”Plan and Execute。ReAct是循环模式智能体接到任务后循环执行推理、行动、观察步骤具适应性适合事先不知答案路径的任务。计划与执行模式先构建完整计划再执行优势是可预测性和效率但执行僵化若出现意外情况可能需修改计划。选择哪种模式取决于任务性质探索性或不可预测性任务用ReAct定义明确任务用Plan and Execute。6. 情境工程上下文工程研究如何高效将信息注入提示。简单做法是将所有用户数据塞进提示框但会使提示框庞大、运行慢且成本高。明智做法是动态获取相关信息根据数据存储位置有两种技术。数据存于结构化数据库可使用工具调用SQL查询提取相关行数据以非结构化形式存在需用RAG将文档分割成小块转换为数值向量查询时找到最相关小块数据。上下文工程重点在于精准性提示中无关信息越少智能体表现越好。7. 能力工程能力工程关注智能体具备的能力和行为常用工具是“技能”Skills。“技能”是Markdown文件描述智能体在特定情况下的行动方式是嵌入智能体系统的行为指南。例如电子邮件回复代理有相关技能文件规定回复规则代理程序读取并遵循这些规则使行为更可预测且易更新。上下文工程确保智能体有正确信息能力工程确保其利用信息做出正确决策。8. RAG与微调RAG增强检索改变模型获取的信息成本相对低可随时更新数据应首先尝试。微调改变模型内部权重即思维方式耗费资源改变永久融入模型。经验法则是先尝试RAG当确认模型瓶颈在于行为或思维模式而非信息掌握时再进行微调。若智能体弄错事实用RAG若掌握事实但表达方式或推理模式错误考虑微调。9. 工具调用和MCPAI代理有时需实时外部数据可通过工具获取。定义工具时提供简单规范智能体只需知道工具存在及用途执行任务时生成API调用获取数据。MCP模型上下文协议是开放标准允许外部服务以标准化格式发布工具代理程序连接MCP服务器可自动发现并使用可用工具像Apify、Slack和Google等公司都发布了MCP服务器。10. 生产环境中的可靠性判断代理在生产环境保证智能体系统数千次正常运行是难点可靠性包括确保输出结果良好和系统持续稳定运行。评判代理是独立AI模型审查系统输出并判断是否正确回答用户问题。部署评判器有顺序和并行两种方式顺序部署保证质量但增加延迟适用于对准确性要求高的场合并行架构不增加用户延迟能帮助团队发现错误。评判模型要与系统使用的模型不同且启用“扩展思考模式”提高评判准确性。LLM网关位于模型调用之前负责速率限制管理和故障转移保证系统持续运行用户无异常感知。11. 智能体系统中的记忆对话简短时内存不是问题但对话变长或代理工作流崩溃需恢复时内存管理至关重要。ChatGPT的蛮力式方法无法扩展更好的做法是添加摘要代理每处理一批消息生成精简的内存对象。在多步骤代理工作流中检查点机制可解决系统崩溃后重新开始的问题每个子代理完成任务后输出保存到持久存储失败时从上个成功检查点继续执行既保证可靠性又节约成本。12. 可观察性了解实际发生了什么可观测性指记录和检查智能体执行的每一步决定能否确切知道问题所在。最常用工具是Langfuse每次代理系统运行记录跟踪信息用于调试和评估。调试时可通过跟踪日志排查错误评估时可根据跟踪数据判断系统改进或退步情况。可观测性就像系统的黑匣子记录仪出问题时首先查看。13. 人机交互HITL并非所有决策都由人工智能代理做出HITL是让人工审核、批准或调整的设计模式。简单形式是聊天界面但用户体验并非最佳。更明智的方法是使用专门设计的界面如生成网页的AI系统提供直接编辑界面让用户微调。HITL还起到安全阀作用判断代理不确定输出结果时将其路由给人工审核员尤其适用于不可逆操作。好的HITL设计是解决如何让用户在合适时机纠正或引导系统的UX问题。14. 结构化输出LLM默认生成自由格式文本在生产环境中智能体系统里智能体输出需作为下一个智能体输入若格式不符会导致流程崩溃。结构化输出可解决此问题定义精确模式验证代理输出及早发现错误便于修复和记录。大多数LLM提供商和框架支持结构化输出或JSON模式。15. 综合运用生产环境中智能体系统各组件组合在一起每一层解决特定问题。提示层确保智能体获清晰指令子智能体分解工作上下文工程提供正确信息工具工程保证行为一致工具调用和MCP连接外部世界结构化输出保持管道稳定判断智能体保障质量内存保持上下文有效可观测性便于调试HITL确保人为控制。这些层级协同工作上下文工程为协调器提供信息协调器分配任务给子代理代理与外部交互结构化输出确保数据流动判断代理捕获错误内存保持上下文可观测性记录信息HITL让人参与关键环节。虽然新的AI工具或框架不断发布但基本原理变化不快理解这些概念可评估新事物。