2025_NIPS_Transfer Q-star : Principled Decoding for LLM Alignment
文章核心总结与翻译一、主要内容文章提出一种轻量级LLM对齐方法Transfer Q⋆(TQ⋆),通过解码阶段优化而非模型参数更新,解决传统微调(如RLHF)计算成本高、依赖模型全权限访问的问题。该方法利用已对齐的基线模型,间接估计目标奖励对应的最优Q函数(Q⋆),支持直接转移(基线奖励与目标奖励一致)和间接转移(基线与目标奖励存在差异)两种场景,在连贯性、多样性和质量等指标上优于现有解码对齐方法。二、创新点提出转移解码概念:首次利用公开可用的对齐基线模型(如DPO微调模型)估计Q⋆,无需直接获取目标奖励的最优Q函数,缩小了现有方法的次优差距。完整理论表征:推导了次优差距的上界,明确了控制与预训练模型偏差的超参数,兼顾奖励最大化与模型稳定性(KL效率)。双转移模式设计:支持直接转移(基线与目标奖励一致)和间接转移(奖励存在差异),适配更多实际场景,且在奖励分布偏移时仍保持性能优势。实证优势显著:在6个数据集、多种模型架构上验证,平均奖励提升最高1.45倍,GPT-4评估的赢平率达67.34%,同时在连贯性和多样性上表现更优。三、核心部分翻译(Markdown格式)Abstract(摘要)基础模型对齐对于其安全可信的部署至关重要。然而,传统微调方法计算成本高昂,需要更新数十亿