非结构化上下文演化下基于上下文老虎机的在线多LLM选择
大语言模型(LLMs)的响应行为、调用成本与优势特点各不相同,- 有的员工(比如GPT-4o)能力强、什么都懂,但贵得离谱,还慢;-有的员工(比如本地小模型)便宜又快,但只会干简单活,复杂问题就翻车;• 还有的员工(比如 Claude)特别擅长处理长文本,但对代码问题反应就一般。这使得为特定用户查询选择最合适的LLM变得极具挑战性。本文研究在线场景下的自适应多LLM选择问题:在该场景中,学习器需通过多轮查询优化与用户交互,且无法访问离线数据集或模型内部参数,只能依次选择LLM。该问题的核心挑战源于非结构化上下文演化:-对话的提示词(上下文)会“乱变”,而且你根本没法提前预测它会怎么变。第二轮的提示词,完全是由第一轮的回答和用户的反馈共同决定的- 提示词会通过一个黑盒流程,根据上一轮模型的输出动态变化,这一过程无法被模拟、建模或预先学习。为解决这一问题,本文首次提出了适用于非结构化提示动态场景下的序列LLM选择上下文老虎机框架。会“边做边学”的智能决策系统:- 它不用提前知道用户接下来会问什么,也不用提前模拟所有可能的上下文;- 它只需要根据当前这一轮的上下文(比如用户的当前提问),动态选择最合适的LLM;- 选完之后,根据模型的回答效果(比如用户是否满意、回答是否正确),它会慢慢学习“什么样的上下文,该选什么样的模型”,越选越准。我们定义了“短视后悔”(myopic regret)概念,并基于LinUCB算法开发了一种新算法,该算法无需依赖未来上下文预测,即可证明能实现次线性后悔。