3.3.1 GPT模型结构堆叠多层 Decoder Block只有带掩码的自注意力模块和前馈网络无编码器无交叉注意力。预训练任务CLM因果语言模型给定上文预测下文逐词生成。不需要标注数据任意文本都能用。发展关键点GPT-10.12B→ GPT-21.5B→ GPT-3175B参数和数据量变引发质变。GPT-3 展现出 few-shot learning上下文学习 能力给出几个示例就能完成新任务。3.3.2 LLaMA结构优化在 GPT 基础上引入 RMSNorm、SwiGLU、RoPE 位置编码、GQA 分组查询注意力。发展历程LLaMA-11T token2K 上下文LLaMA-22T token4K 上下文GQALLaMA-315T token8K 上下文128K 词表证明 Decoder-Only 的优越性和可扩展性。3.3.3 GLMGLM 预训练任务在 Decoder-Only 框架下融合 MLM 和 CLM自回归空白填充遮蔽连续片段按序还原。结果模型规模越大纯 CLM 优势越明显。总结选择Decoder-Only的原因1.训练与推理一致CLM 的“上文→下文”与人机交互方式完全一致不需要像 MLM 那样处理预训练和微调不匹配的问题。2.扩展性极强任意文本都能直接训练数据量几乎无上限。3.规模阈值后理解能力反超参数量足够大时单向生成模型在理解任务上也超越双向模型。简单的范式比精巧的设计更好。