**摘要**构建能够真正为客户创造价值的 AI 产品仅有优秀的模型是不够的——还需要基础设施、文化转变和持续的迭代优化。视频描述了 Ramp 开发策略智能体Policy Agent和 Ramp Inspector 系统的经验。引言Ramp 是现代企业的领先金融平台拥有超过 50,000 家客户为客户节省时间和金钱。一笔咖啡费用通常需要 15 分钟的手工处理——刷卡、写备注、分类入账、查找并附加收据、标准化商户信息。这些工作在整个组织中不断累积。Ramp 用智能体实现了整个交易流程的自动化。三年前从一次性 AI 任务商户标准化、备注撰写起步逐步演进为能自主处理复杂财务工作流的智能体架构。关键要点架构演进从许多专业化智能体转向一个拥有多项技能的智能体。这不仅降低了复杂性还提高了可维护性并实现了更好的编排。从简单开始快速迭代AI 产品无法一蹴而就。从受限问题开始使用实时生产数据学习上下文要求然后增加复杂性。从第一天起就具备可审计性即使你了解你的系统也要为输入/输出验证而设计。你需要独立于用户行为来定义正确性。投资评估基础设施真实标注数据集、易于运行的评估和在线指标能够实现自信的迭代和模型升级。构建内部工具对于关键工作流如数据标注简单的内部工具往往优于复杂的第三方解决方案。文化转变至关重要成功需要改变团队的工作方式——而不仅仅是添加 AI 能力。多参与方优先设计和跨职能协作至关重要。自然语言即编程语言政策Policy文档可以成为可执行的规则。这使非技术用户能够在没有代码更改的情况下控制 AI 行为。未来的工程团队以影响力为中心的团队团队 A将会蓬勃发展而以流程为中心的团队团队 B将会举步维艰。技术判断力、上下文和用户理解比原始编码速度更重要。基础设施杠杆构建共享服务LLM网关、工具目录、评估框架加速所有团队而不仅仅是一个产品。通过透明度建立信任首先将 AI 定位为建议构建反馈循环然后随着用户获得信心逐渐启用自主权。问题每个角色都充满手工工作组织中的每个角色都在手工工作上浪费时间——从应付账款文员到财务团队从采购部门到数据团队。在 Ramp曾经有一个数据求助频道员工会请求 CSV 文件然后由一个可怜人编写 SQL 查询。Ramp 替换了这个流程。不同工作流的复杂性不断增加。对于管理员、员工和财务团队凡是不直接涉及收入生成的重复性工作Ramp 都为其构建了相应的智能体。目标是让公司能够专注于客户和赚钱而不是结账。范式转变从多个智能体到一个拥有多项技能的智能体经验质量胜于数量**关键洞察**与其要一千个智能体不如要一个拥有千项技能的智能体。这个决策深刻影响系统设计、维护和可扩展性。传统软件 vs 新 AI 范式现代 AI 栈中的每个流程都需要五个组件组件说明事件触发器例如收到待付款发票提示指令如何处理该事件护栏政策费用政策、应付政策上下文智能体需要考虑的数据工具可用的 API 和操作传统上软件开发只关注第四和第五项上下文和工具。在新范式中软件需要处理所有五个组件。目标是构建一个自主行动系统能够在尽可能少的人工监督下进行反应、推理和行动。构建统一智能体框架OmniChatRamp 将与智能体的口头交互整合到一个对话式 UX 中。以前有五个不同的对话界面后来整合为OmniChatomni 意为无处不在现在部署在每个产品表面上。示例工作流新员工入职。OmniChat将解析员工 ID通过HR工具查找其公司结构找到新员工入职手册工作流然后智能体询问“您想让我使用这个手册为该员工办理入职吗”技术赋能者Ramp 构建了一个内部轻量级智能体框架提供编排和工具集成。工程师可以快速构建工具——最近一位产品经理无需工程师参与就开发了 20 个工具。系统将自然语言描述转化为可执行的确定性工作流。例如员工入职有四个步骤发放 Ramp 卡确保每笔交易都有收据在 Slack 上发送祝贺两周后安排跟进系统将此编译为智能体执行的工作流。手册使用工具Tool将所有内容连接在一起。案例研究策略智能体实时策略执行当刷卡时软件中会进行实时策略审查。策略智能体执行公司支出要求使向每位员工发放 Ramp 卡变得安全。会计编码智能体对交易进行分类并应用后台团队和财务团队的规则。企业管理者通常不清楚交易应该如何映射到总账而传统产品会将这种复杂性直接暴露给用户。该智能体优于手动分类因为它拥有完整的会计科目表上下文它理解ERP企业资源计划结构它可以自动批准或路由给人工进行重要性审查或超出政策范围的例外策略智能体如何工作财务团队每天审查数百份收据。手动批准会引入错误和不一致性。策略智能体分析收据图像和交易数据检测到收据上有八位客人人工难以辨认验证低于每人 80 美元的内部上限识别为团队欢迎晚宴验证金额批准交易对于用于测试聊天机器人功能的OpenAI费用策略智能体将其识别为有效的业务费用并予以批准。而 3 美元的面包店费用被拒绝因为它不是加班购买也没有发生在周末。架构洞察自然语言成为新的编程语言一家财富 500 强客户要求 Ramp 批准某些费用类型并拒绝其他类型提供了一份规则列表。Ramp 没有添加增量确定性规则而是应用了 Andrej Karpathy 的洞察——“自然语言成为新的编程语言”——直接将费用政策转化为可执行规则。政策文档即政策引擎。对文档的更改会立即影响智能体行为无需代码部署。开发方法从简单开始快速迭代Ramp 像早期初创公司一样运营寻找设计合作伙伴包括那家财富 500 强公司快速迭代每周会面以了解反馈。**关键经验**AI 产品无法一蹴而就。应从简单开始。确保团队达成共识初版不完美。Ramp 先在内部试用从一个受限问题开始判断与同事喝咖啡这类交易是否应该被批准。这些是低风险、几美元的交易。从生产环境中获得的早期经验策略智能体的错误更多不是关于模型质量而是关于提供给LLM的上下文。Ramp 本可以预先确定所有上下文但意识到最好的方法是从实时内部数据中学习。实时发现的上下文要求员工角色和职位对于费用政策评估至关重要某些级别有更高的限额某些航班的一等舱从收据中提取更多信息拉取 Ramp 中已有的HR字段工具和迭代经验教训从小处着手即使是简单问题当 Ramp 开始在内部构建策略智能体时最初的目标远大自动化所有财务审查。但团队必须从小处开始——咖啡费用。这个问题听起来很简单“这是否在政策范围内”但在实际实施中会变得相当复杂。**原则**系统越简单迭代越容易。一旦开始迭代你就知道什么有效、什么无效然后在此基础上增加复杂性。在构建LLM或智能体时这至关重要。演进从简单到复杂Ramp 采用经典流程从简单开始费用进入系统检索相关上下文通过明确定义的LLM调用进行分析“这是否在政策范围内”“为什么这在政策范围内”“我们如何向用户展示这在政策范围内”生成对用户有意义的输出Ramp 团队发现每笔费用需要不同的处理方式对费用进行分类差旅、餐费、娱乐条件提示基于分类检索上下文传递LLM调用为自主决策提供工具“我需要航班信息或我需要该员工的级别”几次迭代后具有复杂工具的完整智能体工作流跨平台读取。这些工具在所有智能体之间共享。Ramp 有一个公司范围的内部工具箱所有智能体都可以访问。添加了写入能力编写决策编写推理代表用户自动批准费用自主循环权衡能力 vs 可解释性当系统从简单到复杂时收益能力增加自主性增加— 智能体做更多事情AI 看起来更聪明损失可追溯性和可解释性降低Ramp 可以检查LLM的推理 Token但无法控制其输出。智能体会执行它认为正确的操作进行工具调用并报告决策结果。**原则**系统越复杂黑盒越大。从第一天开始就具备可审计性构建这样的系统时从一开始你就需要强大的可审计性。即使你了解内部机制也应该假设只能看到输入和输出。如果它是一个黑盒你只能看到输入/输出那么你能验证其正确性吗即使黑盒发生变化你也应该能够判断输出是否正确。对于 Ramp 构建的产品他们最初假设用户是正确的。如果用户说批准智能体应该批准。如果拒绝智能体应该拒绝。**现实**用户经常是错误的。用户不知道费用政策。他们信任员工。他们优先考虑便利性。财务团队后来拒绝这些费用“这是错误的。这不应该在公司卡上。”Ramp 必须定义自己的正确性标准。构建真实标注Ramp 每周举行跨职能标注会议产品相关的所有团队都参与其中。两个结果真实标注数据集用于测试知道它是正确的团队对齐— 如果智能体出错或缺少上下文每个人都知道构建内部工具每周让人们聚集在一起标注 100 个数据点是昂贵的。每个人都很忙作业并不总是完成。它会变得乏味。Ramp 想要简化。第三方数据标注工具存在以下问题用例太特定或者太通用需要数周时间评估工具决策构建内部工具。Ramp 使用AI编码工具和 Streamlit一次性开发完成。好处低维护低风险在代码库区域破坏可以快速修复即时部署非工程师可以个性化他们可以使用AI编码工具进行修改对于一次性工作这种方法更快、更便宜。使用评估进行快速迭代利用真实标注数据集Ramp 进行了快速迭代例如“我们需要添加员工级别信息添加后对数据集进行测试看是否能有效捕获相关问题。”快速迭代是开发的关键。Ramp 通过早期验证确信系统可以工作从而获得认可并让客户作为设计合作伙伴参与进来。**原则**评估至关重要。每次迭代不需要一千个数据点。Ramp 从五个不会失败的数据点开始。他们不断添加。**原则**让评估易于运行。任何人运行命令结果都是可理解的。他们看到即时输出“这就是模型在做的。这里很好那里很坏。”如果你将评估作为CI持续集成的一部分运行每个人都可以安全地合并代码。当为LLM或智能体改进事物时——更多上下文、更多工具——经常会有意想不到的不良后果。上下文腐化Context rot——使得工具指令是错误的文档字符串令人困惑。在线评估也很有价值。离线评估使用历史数据集。在线评估更难衡量但如果你能在用户交互时衡量任何东西将其设置为领先指标。对于 Ramp我们的’不确定’决策率是多少这意味着智能体缺少信息。Ramp 在线衡量了这一点。这是一个更简单的评估但在系统运行时提供了良好的健康检查。自信的模型变更评估使自信的模型变更成为可能。当新模型推出时——Claude4.6、GPT5.3——你想要利用它们。有时这意味着你的系统在一个部分正确而不是错误。有时相反——如果没有问题或系统更改模型并不更好。设置评估和基准测试有助于做出自信的模型变更。推广和建立信任策略智能体现在对 Ramp 平台上的每个人都可用。最初团队犹豫不决——政策文档是正式的不会轻易修改。但当他们体验到反馈循环——“更改它你会立即看到它”——他们参与其中信任随着时间的推移而建立。早期客户包括财富 500 强公司。Ramp 从拥有最大价值的大型企业客户开始进来的费用最多审查咖啡费用花费的时间最多向他们推广建立信任。Ramp 最初没有进行自主行动。他们将其定位为建议。最终客户说“我想从建议转变为自动批准。20 美元以下的任何东西你大部分都是对的。我不在乎。让我自动批准它。”Ramp 给他们提供了一个自主滑块来自己启用。产品内反馈循环像LLM一样用户在产品反馈循环中茁壮成长。在构建LLM测试和迭代的AI产品时用户也是类似的。Ramp 为他们提供了产品内的方式来改进费用政策文档改进智能体及其运作方式用户参与接手、改进和个性化。基础设施和文化Ramp 为在其财务基础设施上运营的财务团队提供了杠杆。并行的问题是我们如何为 Ramp 本身获得杠杆——工程师、跨职能组织、每个人应用 AI 表面服务Ramp 的大部分应用型 AI 功能通过应用 AI 接口服务提供。从高层次来看它类似于LLM网关或LiteLLM但具有三个主要扩展跨模型提供商的结构化输出和一致的 API 和 SDK在快速变化的 API 中很棘手下游产品团队不应该考虑这个问题通过配置更改从GPT4.3 切换到Opus或尝试Gemini2 Pro迭代语义相似性、代码沙箱、结构化输出调用批处理和工作流处理对于进行批量文档或数据分析的评估很有用团队不应该在此上花费时间处理带有速率限制的批处理使用 Anthropic 在离线或在线作业上运行处理这个问题以便下游消费者专注于价值跨团队和产品的成本追踪识别帕累托曲线以成本获得最佳模型性能跟踪随时间的演变识别构建可持续解决方案的团队从内部团队中删除这项工作结果Ramp 客户经常使用他们还不知道存在的最前沿模型。Ramp 保持在前沿——当新模型推出时一行配置更改会影响下游的每个SDK。团队不需要学习新的SDK或访问数十个调用站点。他们在一个地方更改它并获得 Ramp 已经过验证和集成的最新模型的好处。工具目录、沙箱和规模化可靠性Ramp 的产品涉及敏感数据和工作流的处理。工程师经常询问关于幻觉和安全性的问题——如何才能为财务团队的生产环境提供这些保障**原则**这归结为团队每天构建和集成的工具目录。Ramp 的内部工具库包括获取政策片段获取ERP费率获取最近的交易Ramp 与产品团队一起构建这些工具以了解数据和使用案例的细微差别。好处查看产品中的差距在内部仓库和核心产品中使用在AI编码表面区域原型新产品而无需从头学习或自己构建工具Ramp 今天有数百个工具随着时间的推移可能有数千个。上下文集成和 Ramp Inspector关于上下文你如何集成财务栈并使客户更高效Ramp 在其工程团队上注意到类似的问题。即使使用像AI编码工具或Codex这样的工具日常工作也存在碎片化Datadog 日志生产数据库活动告警系统Incident.ioSlack 消息Notion 文档产品团队关于如何完成工作的知识Ramp 决定解决一个问题如何集成所有这些上下文并构建内部后台编码智能体他们称之为Ramp Inspector。Ramp 开源了蓝图——链接在文末。当前进展已集成到后台智能体中能够在会议期间自主运行并在出现错误修复需求时及时响应。指标Ramp Inspector 目前处理超过 50% 合并到生产的 PR拉取请求。Ramp 有一个仪表板可以创建健康的竞争并激励采用。采用范围包括工程在会话中带头产品、设计、风险、法律、企业财务、营销、CX客户体验团队用例文案更改、逻辑修复、事件响应、错误修复多玩家优先设计随着 Ramp Inspector 的发展Ramp 将采用性作为强大的核心原则进行设计。Ramp Inspector 在后台启动一个快速的 Modal 代码沙箱允许团队在与开发环境匹配的隔离环境中恢复、启动和关闭容器。一系列任务使其保持正轨创建 GitHub 分支并集成上下文文档Datadog用于编写查询的读取副本产品团队上下文文档**关键设计选择**多玩家优先。当你与设计师或产品经理集成或配对时帮助他们提升提示技能他们提供反馈“点击此链接。它意外失败”跨职能协作会话通过以下方式启动看板 UIAPISlack 线程——启动时获取完整的线程上下文避免用对话历史重新提示全栈能力Ramp 拥有完整的VS Code环境。他们在 Modal 沙箱内运行VNC虚拟网络计算使得能够Chrome Dev Tools 和MCP模型上下文协议全栈工作访问 150,000 测试知道何时破坏响应 GitHub 中的 CI在通知 PR 完成之前修补修复AI 世界中工程的未来Ramp Inspector 产生了重大影响——在每周合并到生产的 PR 中超过 50% 是通过系统完成的。通过将工程师从低级别的救火工作、小修复和微调中解放出来并在全公司范围内推广这些能力Ramp 正在重新思考工程团队的运作方式以及如何在 AI 原生时代发挥影响力。团队原型影响力 vs 流程考虑两种团队原型。大多数工程师都与两者共事过。特征团队 A以影响力为中心团队 B以流程为中心关注点关心影响力争论库的选择问题处理处理模糊问题当事情感觉混乱时增加流程团队规模-抱怨团队规模细节关注痴迷于用户体验过分纠结细节而非用户体验工具采用采用新工具质疑应该使用函数式编程吗解决方案找到创造性解决方案关注表演性代码质量或吹毛求疵产品理解理解产品、业务、数据在理解问题之前就构建**预测**将会出现分歧具体取决于哪种原型占主导地位。这不仅仅是经验年限的问题团队 A 与团队 B 的品质差异使得一个事实变得明显编码从来不是许多工作中最难的部分。其他工程原则比原始编码速度更重要。Staff 和 Staff-plus 工程师因以下原因获得更多报酬判断力上下文预见未来问题的能力学习失败经验像 Claude 4.6 这样的 AI 模型拥有知识来识别方法是否不起作用或是坏主意。媒体关于编码智能体的误解关于编码智能体的媒体报道忽略了一个事实你仍然可以更快地构建错误的东西造成更大的混乱。团队 A 的技能以及专注于上下文和推理随着 AI 变得更加重要。未来真正重要的东西未来会是什么样子确定要构建什么和理解用户向持怀疑态度的利益相关者推销想法— 构建后台编码智能体并非显而易见的价值投资在信息不完整的情况下做出良好的设计决策在项目的长期和中期阶段保持势头每个人都了解 SaaS软件即服务和股市对话。但诚然使用 AI 生成代码很容易但中间过程恰恰说明了为什么你仍然需要优秀的工程师来部署具有产品市场契合度且令人兴奋的产品。01什么是AI大模型应用开发工程师如果说AI大模型是蕴藏着巨大能量的“后台超级能力”那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。AI大模型应用开发工程师是基于AI大模型设计开发落地业务的应用工程师。这个职业的核心价值在于打破技术与用户之间的壁垒把普通人难以理解的算法逻辑、模型参数转化为人人都能轻松操作的产品形态。无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能还是办公场景中的自动记账工具、会议记录用的语音转文字APP这些看似简单的应用背后都是应用开发工程师在默默搭建技术与需求之间的桥梁。他们不追求创造全新的大模型而是专注于让已有的大模型“听懂”业务需求“学会”解决具体问题最终形成可落地、可使用的产品。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】02AI大模型应用开发工程师的核心职责需求分析与拆解是工作的起点也是确保开发不偏离方向的关键。应用开发工程师需要直接对接业务方深入理解其核心诉求——不仅要明确“要做什么”更要厘清“为什么要做”以及“做到什么程度算合格”。在此基础上他们会将模糊的业务需求拆解为具体的技术任务明确每个环节的执行标准并评估技术实现的可行性同时定义清晰的核心指标为后续开发、测试提供依据。这一步就像建筑前的图纸设计若出现偏差后续所有工作都可能白费。技术选型与适配是衔接需求与开发的核心环节。工程师需要根据业务场景的特点选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同选型的合理性直接影响最终产品的表现。同时他们还要对行业相关数据进行预处理通过提示词工程优化模型输出或在必要时进行轻量化微调让基础模型更好地适配具体业务。此外设计合理的上下文管理规则确保模型理解连贯需求建立敏感信息过滤机制保障数据安全也是这一环节的重要内容。应用开发与对接则是将方案转化为产品的实操阶段。工程师会利用选定的开发框架构建应用的核心功能同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通确保数据流转顺畅。在这一过程中他们还需要配合设计团队打磨前端交互界面让技术功能以简洁易懂的方式呈现给用户实现从技术方案到产品形态的转化。测试与优化是保障产品质量的关键步骤。工程师会开展全面的功能测试找出并修复开发过程中出现的漏洞同时针对模型的响应速度、稳定性等性能指标进行优化。安全合规性也是测试的重点需要确保应用符合数据保护、隐私安全等相关规定。此外他们还会收集用户反馈通过调整模型参数、优化提示词等方式持续提升产品体验让应用更贴合用户实际使用需求。部署运维与迭代则贯穿产品的整个生命周期。工程师会通过云服务器或私有服务器将应用部署上线并实时监控运行状态及时处理突发故障确保应用稳定运行。随着业务需求的变化他们还需要对应用功能进行迭代更新同时编写完善的开发文档和使用手册为后续的维护和交接提供支持。03薪资情况与职业价值市场对这一职业的高度认可直接体现在薪资待遇上。据猎聘最新在招岗位数据显示AI大模型应用开发工程师的月薪最高可达60k。在AI技术加速落地的当下这种“技术业务”的复合型能力尤为稀缺让该职业成为当下极具吸引力的就业选择。AI大模型应用开发工程师是AI技术落地的关键桥梁。他们用专业能力将抽象的技术转化为具体的产品让大模型的价值真正渗透到各行各业。随着AI场景化应用的不断深化这一职业的重要性将更加凸显也必将吸引更多人才投身其中推动AI技术更好地服务于社会发展。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】