2025_NIPS_Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing

张

张建站

2026/4/10 12:00:15

10分钟阅读

2025_NIPS_Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing

文章核心总结与翻译一、主要内容文章针对大型语言模型（LLMs）易生成有毒内容的问题，提出一种测试时 detoxification 框架 ARGRE（Autoregressive Reward Guided Representation Editing）。该框架通过在潜在表示空间中建模毒性转换，将稀疏毒性标注转化为密集训练信号，训练自回归奖励模型，再通过自适应两步编辑策略（方向引导+轻量级梯度优化）实现高效 detoxification。实验表明，ARGRE 在8个主流LLM上毒性降低最高达62.21%，推理时间减少47.58%，同时最小化模型核心能力损耗，还可扩展至刻板印象识别和越狱缓解任务。二、创新点首次在表示空间中显式建模毒性转换轨迹，通过线性插值将稀疏标注转化为密集监督信号，解决现有方法干预不精准的问题。设计自回归奖励模型，在token级别提供细粒度指导，替代传统轨迹级奖励模型，提升编辑精准度。提出自适应两步编辑策略，先沿非毒性方向快速引导表示，再通过少量梯度迭代优化，平衡 detoxification 效果与推理效率。具有高数据效率和泛化性，仅需少量标注即可生效，且能适配不同规模、不同类型的LLM（包括指令微调模型）。三、核心部分翻译（Markdown格式）Abstract大型语言模型（LLMs）在各类任务中展现出令人印象深刻的性

手机deepseek怎么导出文档

手机DeepSeek对话导不出来？2026移动端大模型“导出难”全景调研与实测解决方案在2026年的AI开发者与博主圈，DeepSeek-V3及其后续迭代模型凭借其极致的推理能力与高性价比，已成为继ChatGPT、Claude之后最活跃的国产AI工具。然而，随…...

2026/4/10 12:00:06 阅读更多 →

手把手教你C语言之——数组

文章目录1.数组的概念2.一维数组的创建和初始化2.1数组的创建2.2数组的初始化2.3 数组的类型3.一维数组的使用3.1数组的下标3.2数组元素的打印3.3数组的输入4.一维数组在内存中的储存5.sizeof计算元素的个数6.二维数组的使用6.1 二维数组的概念6.2 二维数组的创建7.二维数组的初…...

2026/4/10 11:58:44 阅读更多 →

艾尔登法环存档管理终极指南：告别存档丢失的完整解决方案

艾尔登法环存档管理终极指南：告别存档丢失的完整解决方案【免费下载链接】EldenRingSaveCopier 项目地址: https://gitcode.com/gh_mirrors/el/EldenRingSaveCopier 你是否曾经因为系统重装、游戏崩溃或意外删除而丢失了数百小时的艾尔登法环游戏进度&…...

2026/4/10 11:56:49 阅读更多 →

Flutter Riverpod：状态管理的新纪元

Flutter Riverpod：状态管理的新纪元告别 Provider 的繁琐，拥抱 Riverpod 的简洁与强大。一、为什么选择 Riverpod？ 作为一名追求代码如散文般优雅的 UI 匠人，我对状态管理工具有着近乎偏执的要求。Riverpod 不仅解决了 Provider 的…...

2026/4/9 13:12:17 阅读更多 →

【Scala深度学习】PyTorch On Scala3 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch Scala3 硕士研一课程]

章节 1: PyTorch ON Scala3入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环…...

2026/4/9 14:42:05 阅读更多 →

STM32开发必备的C语言核心技巧与实战解析

1. STM32开发中的C语言核心知识点解析作为一名嵌入式开发者，我经常遇到初学者询问如何快速掌握STM32开发所需的C语言知识。今天我就结合自己多年的实战经验，整理出一份STM32开发中最关键的C语言知识点指南。这些内容不仅适合初学者系统学习，也…...

2026/4/9 9:16:06 阅读更多 →

Linux命令-nano（字符终端文本编辑器）

nano 是 Linux 系统中一个简单易用的命令行文本编辑器，以其直观的界面和易用性而闻名，特别适合初学者和快速编辑任务。它是 GNU 项目的一部分，替代了早期的 pico 编辑器。 📖 基本语法 nano [选项] [文件名]重要特性： …...

2026/4/10 2:15:03 阅读更多 →

更多精彩文章