哈工大神经网络与深度学习课程总结（三）

张

张建站

2026/5/30 1:18:55

10分钟阅读

从 RNN 到 Transformer序列模型与注意力机制学习总结最近系统学习了序列模型与 Transformer 相关知识对RNNSeq2SeqAttentionSelf-AttentionMulti-Head AttentionEncoder-DecoderTransformer进行了较完整的学习。这里整理成一篇适合发布到 CSDN / GitHub 的学习总结希望帮助初学者快速理解 Transformer 的核心思想。一、为什么需要序列模型传统神经网络有一个明显问题无法处理“顺序信息”。例如机器翻译文本生成语音识别时间序列预测这些任务都具有前后相关性比如I love deep learning其中“learning” 的含义与前面的单词密切相关。因此深度学习开始引入序列模型Sequence Model二、RNN循环神经网络最经典的序列模型是Recurrent Neural NetworkRNN其核心思想当前输出依赖过去状态。RNN 的核心结构RNN 会维护一个隐藏状态 h用于记录历史信息。其更新过程输出RNN 的优点1. 能处理序列例如文本时间序列语音RNN 的问题课程中重点提到梯度消失序列太长时早期信息难以保留。无法并行计算因为当前时刻依赖上一时刻训练速度慢。三、LSTM 与 GRU为了解决 RNN 的长期依赖问题出现了LSTMGRULSTM 的核心思想LSTM 引入输入门遗忘门输出门实现“记住重要信息忘记无用信息”遗忘门公式输入门输出门GRUGRU 是 LSTM 的简化版本。特点参数更少训练更快效果接近 LSTM四、Seq2Seq序列到序列模型在机器翻译中输入与输出长度往往不同。例如中文 → 英文因此提出Seq2Seq五、Encoder-Decoder 架构Seq2Seq 的核心输入序列 ↓ Encoder ↓ 上下文向量 ↓ Decoder ↓ 输出序列《动手学深度学习》第七章重点介绍了该结构。Encoder负责“理解输入”Decoder负责“生成输出”六、Attention注意力机制Seq2Seq 有一个巨大问题所有信息被压缩到一个固定长度向量。长句子容易丢失信息。于是Attention 出现。七、Attention 的核心思想Attention 本质“让模型动态关注重要信息。”例如翻译I love China翻译 “China” 时模型会重点关注China而不是前面的 “I”。八、Q、K、V注意力机制核心Transformer 课件中重点介绍QueryQKeyKValueVAttention 公式如何理解可以类比元素类比Q我想找什么K我有哪些信息V真正内容Attention 会计算“Q 与 K 的相似度”再对 V 加权求和。九、Self-AttentionTransformer 的核心Self-Attention自己和自己做 Attention。即句子中的每个词都能看到整个句子Self-Attention 的意义相比 RNNRNN只能逐步传播信息。Self-Attention任意两个词可以直接建立联系。优势1. 长距离依赖更强2. 可并行训练3. GPU 利用率高Transformer 课件中也提到其非常适合 GPU 并行计算。十、多头注意力Multi-Head Attention单个 Attention只能学习一种关系。于是提出Multi-Head Attention核心思想多个注意力头并行学习不同关系多头注意力公式不同 Head 学习不同信息例如一个 head 学语法一个 head 学语义一个 head 学位置关系十一、位置编码Positional EncodingTransformer 最大特点没有循环结构。但没有 RNN模型怎么知道单词顺序位置编码解决顺序问题Transformer 引入Positional Encoding。课件给出了经典公式为什么用 sin/cos因为能表达相对位置不同长度可泛化不增加额外参数十二、Transformer 整体结构Transformer 核心结构Input ↓ Embedding ↓ Positional Encoding ↓ Encoder × N ↓ Decoder × N ↓ Linear ↓ Softmax十三、Encoder 结构每个 Encoder 包含1. Multi-Head Attention负责信息交互2. Feed Forward Network负责非线性特征变换3. Add Norm课件中专门介绍了Add Norm其作用残差连接Layer Normalization稳定训练十四、Decoder 结构Decoder 与 Encoder 类似。但多了Masked Attention作用防止看到未来信息。例如生成第3个词时不能偷看第4个词。十五、为什么 Transformer 能取代 RNN这是整个学习中最核心的问题。Transformer 的优势1. 并行训练RNN串行。Transformer全并行。2. 长距离依赖能力强Self-Attention任意位置直接通信。3. 更适合大规模训练Transformer 非常适合GPUTPU分布式训练RNN vs Transformer模型特点RNN顺序处理LSTM长期记忆Transformer全局注意力十六、BERT 与 GPT 的基础现代大模型几乎都基于 Transformer。十七、BERTBERT基于 Encoder。特点双向理解擅长 NLP 理解任务例如分类阅读理解情感分析十八、GPTGPT基于 Decoder。特点自回归生成擅长文本生成例如对话写作代码生成十九、Transformer 的历史意义Transformer 的出现不仅改变 NLP。还推动了计算机视觉ViT多模态大语言模型LLMAI Agent的发展。二十、学习中的核心理解我认为整个 Transformer 最重要的思想1. Attention 本质是信息检索模型会自动寻找最相关的信息。2. Self-Attention 实现全局建模每个词都能看到整个上下文。3. Transformer 本质是“可并行的大规模信息交互系统”这是它能够扩展到百亿参数千亿参数的重要原因。二十一、PyTorch 中的 Transformer在 PyTorch 中Transformer 已高度封装。示例import torch import torch.nn as nn transformer nn.Transformer( d_model512, nhead8, num_encoder_layers6, num_decoder_layers6 ) src torch.rand((10, 32, 512)) tgt torch.rand((20, 32, 512)) out transformer(src, tgt) print(out.shape)二十二、学习路线建议如果想系统学习 NLP 与大模型我建议第一阶段序列模型基础学习RNNLSTMGRU第二阶段Attention理解QKVSelf-AttentionMulti-Head Attention第三阶段Transformer重点EncoderDecoderPosition Encoding第四阶段大模型进一步BERTGPTLLaMA多模态模型二十三、结语Transformer 的出现本质上解决了“如何高效建模长距离依赖关系”的问题。它让深度学习从“顺序处理”进入“全局并行建模”时代。今天的大语言模型、本地 AI Agent、生成式 AI本质上都建立在 Transformer 之上。而理解AttentionSelf-AttentionEncoder-Decoder这些基础思想依然是进入大模型时代最重要的一步。

喜报：Marktext恢复更新！！

如果你经常使用Markdown语言，那么你一定这款Markdown编辑器：Marktext Marktext截至2026-5已经在github上斩获56.6k stars的高分！作为一款2022年左右的主流Markdown编辑器，Marktext虽然是英文的，但相较于Typora等付费编…...

2026/5/30 1:18:54 阅读更多 →

比特币和以太坊的底层正是使用了 ECC（椭圆曲线加密）算法来生成钱包地址（公钥衍生）和签署交易（私钥签名）解释说明

比特币和以太坊等主流区块链，确实都采用了 ECC（椭圆曲线密码学） 及其衍生的 ECDSA（椭圆曲线数字签名算法） 作为其底层密码学核心。为了让你能清晰地理解并向他人解释，我们可以把这个过程拆解为“钱包地址生…...

2026/5/30 1:18:31 阅读更多 →

Python生成器与迭代器：高效数据处理的利器

Python生成器与迭代器：高效数据处理的利器引言生成器和迭代器是Python中处理大量数据的核心工具，它们允许我们按需生成数据，而不是一次性加载到内存中。作为一名从Python转向Rust的后端开发者，我在实践中总结了生成器和迭代器的…...

2026/5/30 1:18:30 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/29 20:04:58 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/28 13:47:19 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/30 1:22:49 阅读更多 →