TL;DR本研究提出首个面向角色扮演模型泛化能力的信息论理解框架通过 R-EMID 度量分布偏移下的性能退化并形式化揭示用户、角色与对话组合偏移的影响机制。论文标题Understanding Generalization in Role-Playing Models via Information Theory论文作者李永奇、郎皓、黄非、钱铁云、李永彬收录会议ACL 2026 Findings论文链接https://arxiv.org/abs/2512.17270代码开源https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/RPM-GeneralizationHighlights首次提出角色扮演模型Role-Playing ModelsRPMs中三类分布偏移现象包括用户偏移、角色偏移以及对话组合偏移并提出对应三种分布偏移的 BenchmarkRPGBench。提出首个基于信息论的用于刻画 RPM 在各类分布偏移下性能下降情况的框架R-EMID此外我们提出一套用于估算 R-EMID 的方法CoRL并在所提出的 RPGBench 上验证其有效性。我们利用 R-EMID 对多种训练方式得到的 RPMs 的泛化性能进行了系统性评估。背景随着大语言模型LLMs能力不断提升角色扮演模型Role-Playing ModelsRPMs的发展已成为推动人机交互进步的关键方向在娱乐、个性化教育以及情感陪伴等领域展现出重要价值 [1]。在实际应用中RPMs 的泛化能力对于用户体验至关重要。例如面向全球用户的平台如Character.AI 需服务来自各种未见过的语言与文化背景的用户同时用户也可能要求 RPMs 模拟此前在训练中未曾见过的角色 [2]。然而近期研究表明 RPMs 在这些应用中出现各种失败案例例如生成文化上不恰当的回复或表现出角色设定前后不一致的问题这些均引发了对其可靠性的担忧。这些失败案例表明当前的角色扮演模型在真实开放环境中部署时表现欠佳其主要原因可能在于训练数据与测试数据之间存在分布偏移distribution shifts。我们将 RPMs 中的分布偏移划分为三类用户偏移user shift例如用户背景为训练中未见的语言或文化背景角色偏移character shift例如模型被要求模拟训练中未覆盖的角色类型对话组合偏移dialogue compositional shift例如在测试中出现更长、更复杂的多轮交互场景。深入理解这些偏移如何导致 RPMs 性能下降对于构建在真实世界应用中具备可靠泛化能力的系统至关重要。现有基于 LLM-as-a-judge 的评估方法 [3] 尽管可以度量分布偏移下模型的性能下降程度但它们难以对不同偏移因素各自对性能下降的贡献进行细粒度诊断。更重要的是若缺乏一个将 RPMs 性能下降与分布偏移以形式化的方式关联起来的理论框架便难以系统性地理解 RPM 的泛化机制。这一空白促使我们提出本研究的核心问题“我们能否构建一个理论框架形式化刻画用户偏移、角色偏移与对话组合偏移对 RPM 泛化能力的影响”为此following EMID [4]我们提出一种基于信息论的度量指标基于推理的有效互信息差异Reasoning-based Effective Mutual Information DifferenceR-EMID用于衡量分布偏移下的 RPM 性能下降。此外我们推导出 R-EMID 的一个上界upper bound该上界可预测 RPM 泛化性能的最坏情形并从理论上揭示不同分布偏移对性能下降的具体贡献机制。最后基于 R-EMID我们评估了多种方式构建的 RPMs 的泛化性能及泛化风险得到若干发现。基于信息论理解角色扮演模型的泛化2.1 Pilot Study我们首先构造一个用于评估模型在三种分布偏移下表现的 benchmarkRPGBench包含 17k 个样本。在 RPGBench我们进行了如图所示的前置实验。该前置实验揭示了随着分布偏移的严重程度增加性能下降的幅度也随之增大。这表明RPMs 中性能下降与分布偏移之间可能存在某种根本性规律从而促使我们进一步开展理论探究以揭示其背后的机制原理。2.2 Reasoning-based Effective Mutual Information DifferenceR-EMIDR-EMID 的形式化表示其中表示模型在 ID 分布记为 P的表现。其中互信息项表示X,RR 表示用于捕获输入 X 与回复 Y 之间关系的推理过程 R和回复 Y 的互信息。R-EMID 整体上可以被解释为模型在 ID 分布P 分布上的表现减去模型在 OOD 分布Q 分布上的表现。基于此我们可以进一步推导出 R-EMID 的 upper bound该 upper bound 可以从理论上揭示不同分布偏移对于泛化表现的贡献程度详细的理论部分请参见原论文。2.3 R-EMID 估计方法为计算 R-EMID我们需要两个组件模块1生成推理过程 R 的 Reasoning Generator2估计条件概率分布 p(y | x, r) 的 Policy Model。为优化这两个模块以准确计算 R-EMID我们提出了一个协同进化强化学习Co-evolving Reinforcement LearningCoRL框架见下图。在协同进化过程中Policy Model 为 Reasoning Generator 提供奖励信号引导其优化并维持在分布内in-distribution。而 Reasoning Generator 则生成推理过程以辅助当前 Policy Model 从输入 x 中筛选关键信息从而更准确地估计条件回复生成概率。2.4 R-EMID相关实验验证2.4.1 Effectiveness of R-EMID我们首先验证了 R-EMID 在实证层面的有效性即其是否能够有效度量模型的性能下降。为此following [1]我们计算了其与多个 LLM-as-a-judge ensemble 打分结果的相关性。如下图所示我们发现如上图c和d所示我们的 R-EMID 呈现出与 LLM-as-a-judge ensemble 打分高相关度。这表明我们所提出的 R-EMID 在确保具备理论基础的同时也兼具在真实世界数据集的实证有效性。2.4.2 Analysis on R-EMID Upper Bound我们还对所推导的 R-EMID Upper Bound 的 empirical tightness 进行了验证结果如下从结果中我们可以看出随着样本量的增加所估计的 R-EMID 上界呈现出明显的收敛趋势逐渐逼近经验性 R-EMID 值。这种收敛表明该上界在真实中与 R-EMID 高度相关为其 empirical tightness 提供了有力实证。基于 R-EMID 评估角色扮演模型的泛化最后我们基于 R-EMID 及其估计方法对各种训练方式得到的角色扮演模型的泛化表现进行了评估。如上图所示我们主要有三个发现。第一用户偏移对 RPM 泛化构成最高风险第二强化学习RL是目前唯一在各类分布偏移下均能持续提升泛化性能的方法而数据增强DA因缺乏对未知测试分布的先验知识效果不稳定第三简单引入外部蒸馏的推理数据如 ThinkingSFT/ThinkingRL 方法反而损害性能表明 RPM 的泛化提升可能需依赖与角色一致性、用户适配等任务特性深度耦合的推理机制而非对推理数据的直接蒸馏。总结本文聚焦于理解角色扮演模型RPMs在分布偏移下的泛化表现。首先我们定义了 RPMs 中三类典型的分布偏移用户偏移、角色偏移与对话组合偏移其次我们提出一种基于信息论的度量指标基于推理的有效互信息差异R-EMID用于量化 RPM 的泛化性能并推导其上界从理论上揭示各类分布偏移对 RPM 性能下降的具体贡献机制进一步我们提出协同进化强化学习CoRL框架以实现 R-EMID 的有效估计并通过实验验证了其有效性最后基于 R-EMID 对采用不同训练方法的 RPMs 进行泛化性能评估得出若干重要发现为未来构建高鲁棒性、高可靠性 RPM 系统提供了理论依据与实践指导。参考文献[1] The oscars of ai theater: A survey on role-playing with language models[2] Opencharacter: Training customizable role-playing llms with large-scale synthetic personas[3] Charactereval: A chinese benchmark for role-playing conversational agent evaluation. ACL 2024.[4] Understanding multimodal llms under distribution shifts: An information-theoretic approach. ICML 2024.如果对我们的工作感兴趣的话欢迎加入我们招聘岗位Research Intern工作地点北京团队介绍大模型为世界建模Character Model 进一步为人建模。阿里巴巴通义实验室-对话智能团队以 Character Model 训练和应用为核心 建设 “有趣有用” 的多语言、多模态类人智能体打造了通义星尘角色扮演 IP 复刻 类人智能体、通义晓蜜智能客服等大模型时代的核心产品。欢迎对大模型感兴趣的你加入我们一起开拓大模型时代的人机对话的未来。团队 Google scholarhttps://scholar.google.com/citations?user5QkHNpkAAAAJ岗位职责Character Model、Reinforcement Learning 相关算法研究岗位要求在国际顶会/顶刊一作发表过论文者优先博士优先有 Large language models and Reinforcement learning 算法相关研究经验者优先实习时间至少 6 个月以上稳定长时间实习者优先。简历投递hao.langalibaba-inc.com更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·