GPT3论文深度解读
论文名称《Language Models are Few-Shot Learners》论文作者Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah 等 (OpenAI, 2020)在 GPT-2 证明了生成式模型具备 Zero-Shot零样本潜力的一年后OpenAI 发布了参数量高达 1750 亿的“庞然大物” GPT-3。GPT-3 的出现不仅是单纯的工程壮举更是 NLP 领域一次根本性的范式转移从“预训练微调” (Pre-training Fine-tuning) 全面转向了“预训练提示” (Pre-training Prompting)。1. 论文提出背景自 GPT-1 和 BERT 以来“无监督预训练 有监督特定任务微调”成为了 NLP 领域的黄金法则。然而OpenAI 指出了微调Fine-tuning模式在实际应用中存在的几个核心痛点获取大规模高质量的标注数据极其困难即便是微调很多任务要达到理想效果依然需要数万到数十万条标注数据。缺乏真正的泛化能力微调得到的模型往往在训练分布上极度过拟合。当评测数据分布发生微小改变时模型性能会大幅下降。与人类学习机制不符人类不需要成千上万个例子才能学会一个新任务。大部分情况下人类只需听取一段简单的指令Zero-shot或看到一两个示例Few-shot就能快速掌握规律。GPT-3 的核心假说如果不断提升语言模型的规模包括参数量、数据集规模和算力模型将自动通过阅读文本学习到通用的模式识别与任务解决能力最终在不需要更新任何梯度的情况下仅凭上下文提示In-context Learning完成下游任务。2. 核心方法In-Context Learning (上下文学习)与 GPT-2 相同GPT-3 的底层结构依然是基于 Transformer 的 Decoder-only 模型唯一的微小改动是在自注意力层中交替使用局部和全局注意力以适应超长序列。真正让 GPT-3 与众不同的是其在测试阶段如何应对下游任务。GPT-3 在执行任务时永远固定模型权重不进行任何梯度更新。根据输入提示Prompt中包含示例数量的不同GPT-3 的评估方式分为三种Zero-Shot零样本学习只给模型一段自然语言的任务描述。输入翻译英语到法语“cheese” -One-Shot单样本学习给模型任务描述外加一个正确的输入输出示例。输入翻译英语到法语“sea otter” - “loutre de mer”“cheese” -Few-Shot少样本学习给模型任务描述外加**少量例如10到100个**输入输出示例示例数量取决于上下文窗口2048 Tokens能容纳多少。输入给出一系列各种词汇与其对应的法语翻译例子后再让模型翻译 “cheese”。3. 惊人的规模1750 亿参数与海量数据为了验证规模定律Scaling LawsOpenAI 足足训练了 8 个不同大小的模型从 1.25 亿参数到 1750 亿参数并且发现模型性能确实随着算力平滑地成正比增长。为了喂饱这个千亿巨兽OpenAI 针对性清洗了 Common Crawl 数据集。由于爬虫数据质量参差不齐他们采取了以下策略使用高质量的参考语料库如维基百科、WebText、Books来过滤和清洗 Common Crawl舍弃低质量文档。在文档级别进行了去重防止记忆现象与评估污染。增加高质量语料在训练中的采样比例。最终得到的训练数据集包含高达约3000亿个 Token。4. 核心实验与结果GPT-3 在几乎所有的 NLP 任务——从问答系统、生成新闻文章、翻译、常识推理甚至简单的算术运算中都展现出了惊人的“小样本学习”能力。出色的生成逼真度GPT-3 生成的 500 字新闻文章人类评估者平均只有 52% 的概率能分辨出这是 AI 写的接近瞎猜的 50%。知识与推理的显现在 TriviaQA闭卷问答这种需要模型内部存储大量世界知识的任务中GPT-3 甚至超越了经过特殊微调的 SOTA 模型。实时计算能力初现在做简单的两位数、三位数加减算术题时这些题极大概率未在训练集中见过GPT-3 表现出了相当的准确率证明其学到了加法的规则模式而不仅是简单记忆。Few-Shot 碾压 Zero-Shot实验证明提供 10~100 个 Example 的 Few-Shot 设定带来的提升极为显著进一步证明了模型通过 Context 学会新模式的强大能力In-context Learning 生效。5. 局限性与深远意义局限性长文本生成时仍会偏题、重复或产生矛盾幻觉。依然难以处理一些涉及复杂逻辑推理、物理常识的任务。因为模型采用单向结构在某些需要反复对比前后文的任务如填空、阅读理解上表现略逊于双向结构的 BERT。模型体量过大推理成本极高并且存在不可忽视的偏见和毒性内容风险。深远意义GPT-3 宣告了**“提示工程”Prompt Engineering时代的到来。它证明了一个足够大的语言模型可以作为一个强大的元学习器Meta-learner**使用者只需用自然语言“指挥”模型就能使原本冰冷的数学权重适配千万变幻的应用场景。正是 GPT-3 所指明的方向让后来建立在人类反馈强化学习RLHF基础上的 ChatGPT 成为了顺理成章的工业界爆炸。