非结构化上下文演化下基于上下文老虎机的在线多LLM选择

张

张建站

2026/5/23 23:36:07

10分钟阅读

大语言模型（LLMs）的响应行为、调用成本与优势特点各不相同，- 有的员工（比如GPT-4o）能力强、什么都懂，但贵得离谱，还慢；-有的员工（比如本地小模型）便宜又快，但只会干简单活，复杂问题就翻车；• 还有的员工（比如 Claude）特别擅长处理长文本，但对代码问题反应就一般。这使得为特定用户查询选择最合适的LLM变得极具挑战性。本文研究在线场景下的自适应多LLM选择问题：在该场景中，学习器需通过多轮查询优化与用户交互，且无法访问离线数据集或模型内部参数，只能依次选择LLM。该问题的核心挑战源于非结构化上下文演化：-对话的提示词（上下文）会“乱变”，而且你根本没法提前预测它会怎么变。第二轮的提示词，完全是由第一轮的回答和用户的反馈共同决定的- 提示词会通过一个黑盒流程，根据上一轮模型的输出动态变化，这一过程无法被模拟、建模或预先学习。为解决这一问题，本文首次提出了适用于非结构化提示动态场景下的序列LLM选择上下文老虎机框架。会“边做边学”的智能决策系统：- 它不用提前知道用户接下来会问什么，也不用提前模拟所有可能的上下文；- 它只需要根据当前这一轮的上下文（比如用户的当前提问），动态选择最合适的LLM；- 选完之后，根据模型的回答效果（比如用户是否满意、回答是否正确），它会慢慢学习“什么样的上下文，该选什么样的模型”，越选越准。我们定义了“短视后悔”（myopic regret）概念，并基于LinUCB算法开发了一种新算法，该算法无需依赖未来上下文预测，即可证明能实现次线性后悔。