文章核心总结与翻译一、主要内容文章针对大型语言模型(LLMs)易生成有毒内容的问题,提出一种测试时 detoxification 框架 ARGRE(Autoregressive Reward Guided Representation Editing)。该框架通过在潜在表示空间中建模毒性转换,将稀疏毒性标注转化为密集训练信号,训练自回归奖励模型,再通过自适应两步编辑策略(方向引导+轻量级梯度优化)实现高效 detoxification。实验表明,ARGRE 在8个主流LLM上毒性降低最高达62.21%,推理时间减少47.58%,同时最小化模型核心能力损耗,还可扩展至刻板印象识别和越狱缓解任务。二、创新点首次在表示空间中显式建模毒性转换轨迹,通过线性插值将稀疏标注转化为密集监督信号,解决现有方法干预不精准的问题。设计自回归奖励模型,在token级别提供细粒度指导,替代传统轨迹级奖励模型,提升编辑精准度。提出自适应两步编辑策略,先沿非毒性方向快速引导表示,再通过少量梯度迭代优化,平衡 detoxification 效果与推理效率。具有高数据效率和泛化性,仅需少量标注即可生效,且能适配不同规模、不同类型的LLM(包括指令微调模型)。三、核心部分翻译(Markdown格式)Abstract大型语言模型(LLMs)在各类任务中展现出令人印象深刻的性