先把结论甩前面别一根筋全用大模型。把请求按难度分流——闲聊、改错别字、抽个字段这种走小模型要写代码、长文推理、多步骤分析的才放给大模型。我自己的客服场景跑下来token 账单砍掉差不多六成体感几乎没退步。下面是我踩出来的对比和那套判定规则。我为什么开始折腾这个去年底接了个内部工单助手的活儿一开始图省事全量怼最大那档模型。第一个月账单出来财务那边的同事直接在群里 我问是不是接错计费了。我去翻日志才发现绝大多数请求其实是你们几点下班帮我查下工单号 38291 状态这种杀鸡用牛刀贵得离谱还慢。那会儿才想明白问题难度差着量级模型却一档到底钱全烧在简单问题上了。几档模型摆一起对比我把手头能调的几档拉了个表按我实际场景的体感填的响应时间是同一批 200 条样本压测的中位数仅供参考你那边网络不一样会有出入模型档位单价(相对)中位延迟擅长短板小模型1x~0.8s闲聊、分类、抽字段、改错别字多步推理一塌糊涂容易瞎编中模型4x~1.5s普通问答、短摘要、简单改写复杂代码会翻车大模型15x~3.2s写代码、长链推理、跨文档分析贵慢杀简单问题浪费价格那栏我用相对值免得过期。重点看比例大模型贵的不是一星半点是十几倍。一条简单问题走错档亏的就是十几倍。路由判定规则我现在线上跑的判定这步我没上花哨的分类模型就一套粗暴规则先用小模型做个一句话打分再叠几条硬规则兜底。顺序很重要从上往下匹配命中即停命中模板/FAQ→ 直接走小模型甚至不调模型查知识库返回。比如工单状态营业时间这种。输入 50 字且无代码块、无分析/对比/为什么/帮我写等关键词→ 小模型。带代码块或出现重构/报错/为什么会/推导/方案对比→ 大模型别犹豫。输入超过 800 字长文档、长上下文→ 大模型小模型记不住前文。以上都不命中灰色地带→ 中模型先接置信度低再升档重试。第 5 条的升档重试是后加的。早期我只有两档结果中间那批不上不下的请求体验很飘加了个 fallback 才稳。代价是这部分请求偶尔会跑两遍稍微费点钱但比硬扛着出错强。我具体是怎么搭起来的说个实在的。路由逻辑本身不难难的是把判定→挂不同模型→接知识库→对外发布这一坨串起来还能维护。我一开始全手写Python 拿 if-else 堆路由、自己拼 RAG 检索、再手搓个 webhook 往飞书推写了三天改个判定阈值要动四处代码烦得很。后来同事甩给我一个零代码就能搭智能体的那种平台拖拽配节点的。我抱着试试的心态把这套路由搬上去判定节点配关键词和长度规则下面挂三个分支分别绑小/中/大模型知识库直接把工单 FAQ 文档传进去做 RAG最后发布成一个 API。我对着配置面板说想要短问题走便宜模型把规则填进去它真就按分支跑通了没让我写一行胶水代码。说实话当时有点惊到——之前手写三天的东西配了大概一个下午。当然也不是没缺点第一版我配得太干灰色地带全漏到大模型去了省钱效果打折回头补了第 5 条规则才正常而且这玩意儿干的是编排和杂活真正的判定阈值好不好用还得你自己拿真实流量去调平台不会替你想业务。学习曲线倒是平但调优这事躲不掉。结论全量大模型是最贵也最偷懒的方案先按难度分流能省一大半。判定别上来就搞复杂模型关键词长度的硬规则能覆盖大多数灰色地带再用小模型打分兜底。留个升档 fallback比赌单档判定准要稳。路由这层逻辑能不手写胶水就别手写省下的时间拿去调阈值更值。我现在那个工单助手就这么三档跑着账单舒服多了。你们做路由是按难度分还是按用户等级/业务线分评论区聊聊我挺想看看别的分法。顺嘴底层那几档现成大模型 API我走的是讯飞星辰 MaaS直接调没自己部署算力省了一堆运维心思。