happyllm：task8(3.3Decoder-Only PLM)

张

张建站

2026/4/27 4:13:21

10分钟阅读

3.3.1 GPT模型结构堆叠多层 Decoder Block只有带掩码的自注意力模块和前馈网络无编码器无交叉注意力。预训练任务CLM因果语言模型给定上文预测下文逐词生成。不需要标注数据任意文本都能用。发展关键点GPT-10.12B→ GPT-21.5B→ GPT-3175B参数和数据量变引发质变。GPT-3 展现出 few-shot learning上下文学习能力给出几个示例就能完成新任务。3.3.2 LLaMA结构优化在 GPT 基础上引入 RMSNorm、SwiGLU、RoPE 位置编码、GQA 分组查询注意力。发展历程LLaMA-11T token2K 上下文LLaMA-22T token4K 上下文GQALLaMA-315T token8K 上下文128K 词表证明 Decoder-Only 的优越性和可扩展性。3.3.3 GLMGLM 预训练任务在 Decoder-Only 框架下融合 MLM 和 CLM自回归空白填充遮蔽连续片段按序还原。结果模型规模越大纯 CLM 优势越明显。总结选择Decoder-Only的原因1.训练与推理一致CLM 的“上文→下文”与人机交互方式完全一致不需要像 MLM 那样处理预训练和微调不匹配的问题。2.扩展性极强任意文本都能直接训练数据量几乎无上限。3.规模阈值后理解能力反超参数量足够大时单向生成模型在理解任务上也超越双向模型。简单的范式比精巧的设计更好。

OpenClaw Embodiment SDK：事件驱动的硬件抽象层与多模态情境感知

1. 项目概述：从“命令执行”到“情境感知”的范式转变如果你和我一样，在机器人或具身智能领域摸爬滚打多年，肯定对“代理（Agent）发送指令，硬件（Hardware）执行动作”这套经典模式再熟…...

2026/4/27 4:05:19 阅读更多 →

避坑指南：Ubuntu 20.04编译protobuf时，那些你可能遇到的‘坑’及一键解决脚本

Ubuntu 20.04编译protobuf避坑实战：从报错诊断到一键化解决方案在Linux环境下手动编译protobuf看似简单，实则暗藏玄机。许多开发者按照教程一步步操作，却在某个环节突然遭遇configure失败、make报错或动态库链接问题，最终陷入反复…...

2026/4/27 4:03:53 阅读更多 →

超越基础配色：用ArcGIS玩转3D场景与栅格数据渲染，让你的科研图表脱颖而出

超越基础配色：用ArcGIS玩转3D场景与栅格数据渲染，让你的科研图表脱颖而出在学术研究的视觉战场上，一张地图的成败往往在于细节的质感。当同行评审快速翻阅论文时，当学术委员会评估报告时，那些仅用默认色带生成的平面地…...

2026/4/27 4:01:50 阅读更多 →

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案【免费下载链接】baidu-wenku fetch the document for free 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wenku 在信息获取过程中，百度文库的付费门槛、广告干扰和内容加载限…...

2026/4/26 0:06:28 阅读更多 →

zmq源码分析之DEALER/ROUTER 路由机制的应用场景

文章目录 1. 服务集群与负载均衡 2. 消息代理与路由器 3. 异步 RPC 系统 4. 聊天服务器 5. 游戏服务器 6. 金融交易系统 7. 物联网系统 8. 微服务架构代码示例：服务集群负载均衡器 (ROUTER) 服务实例 (DEALER) 客户端总结 DEALER/ROUTER 模式凭借其强大的路由能力和异步特性…...

2026/4/26 0:10:52 阅读更多 →

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案【免费下载链接】Windows11DragAndDropToTaskbarFix "Windows 11 Drag & Drop to the Taskbar (Fix)" fixes the missing "Drag & Drop to the Taskbar" support in Windows…...

2026/4/27 3:27:18 阅读更多 →