掌握 RNN 与 LSTM 模型结构

张

张建站

2026/6/6 12:43:14

10分钟阅读

目录一、前言二、为什么传统神经网络无法处理序列数据三、什么是 RNN四、RNN 的展开结构五、RNN 的数学原理六、RNN 的工作流程七、RNN 的优势八、RNN 的致命缺陷九、什么是 LSTM十、LSTM 模型结构十一、遗忘门Forget Gate十二、输入门Input Gate十三、输出门Output Gate十四、LSTM 工作流程十五、RNN 与 LSTM 对比十六、使用 PyTorch 实现 RNN十七、使用 PyTorch 实现 LSTM十八、LSTM 文本分类实战十九、RNN/LSTM 在 NLP 中的应用二十、为什么 Transformer 取代了 LSTM二十一、面试高频问题什么是RNNRNN为什么能够记忆历史信息RNN最大问题是什么LSTM如何解决长期依赖LSTM有几个门为什么Transformer取代LSTM二十二、总结在前面的文章中我们学习了感知器多层神经网络梯度下降反向传播这些模型都有一个共同特点输入之间彼此独立例如图片分类房价预测用户画像样本之间通常没有时间顺序关系。但现实世界中存在大量时序数据例如自然语言股票价格天气变化语音信号这些数据都有一个特点当前数据依赖历史数据例如一句话今天天气非常____看到这里大脑已经猜到后面可能是好热冷因为前面的内容提供了上下文信息。传统神经网络无法处理这种依赖关系。于是RNN 循环神经网络诞生了。随后又发展出LSTM 长短期记忆网络成为 NLP 领域的重要基础模型。本文将系统讲解什么是RNN RNN结构原理 RNN存在的问题什么是LSTM LSTM门控机制 LSTM与RNN区别 Python实战二、为什么传统神经网络无法处理序列数据假设输入我爱人工智能传统神经网络处理方式我爱人工智能彼此独立。模型无法知道爱是在我之后出现更无法知道人工智能其实是一个整体词语因此传统神经网络缺乏记忆能力三、什么是 RNNRNNRecurrent Neural Network 循环神经网络核心思想当前输出不仅依赖当前输入还依赖历史状态结构如下可以理解为神经网络拥有了记忆四、RNN 的展开结构RNN通常画成一个循环结构flowchart LR H -- H但真正计算时会展开。例如一句话我爱深度学习展开后可以看到历史信息不断向后传递五、RNN 的数学原理每个时间步输入 Xt上一时刻状态Ht-1计算当前状态Ht tanh(WxXt WhHt-1 b)当前输出Yt WyHt其中Wx 输入权重 Wh 历史状态权重 Wy 输出权重这也是 RNN 能够记忆历史信息的原因。六、RNN 的工作流程假设输入今天天气很好流程工作过程读取今天保存状态 ↓ 读取天气结合历史状态 ↓ 读取很好得到最终语义七、RNN 的优势相比传统神经网络RNN能够记忆历史信息处理变长输入理解上下文关系适用于机器翻译文本生成语音识别时间序列预测例如输入今天天气很好预测适合出去玩八、RNN 的致命缺陷随着序列越来越长梯度越来越小称为梯度消失例如0.1 × 0.1 × 0.1 × 0.1 × 0.1结果0.00001导致前面信息无法传递到后面例如我出生在北京...... (中间100个词) ...... 我来自哪里RNN可能已经忘记北京这个信息。九、什么是 LSTM为了解决长期依赖问题。1997年Hochreiter Schmidhuber提出LSTM Long Short-Term Memory即长短期记忆网络核心思想增加记忆单元控制信息保留与遗忘十、LSTM 模型结构LSTM比RNN复杂得多。结构如下其核心三个门一个记忆单元十一、遗忘门Forget Gate作用决定忘记哪些信息例如我昨天吃了苹果今天下雨了预测天气时苹果信息没有价值可以丢弃。遗忘门输出0 表示忘记或者输出1 表示保留十二、输入门Input Gate作用决定记录哪些新信息例如今天北京下雪模型认为下雪非常重要则写入记忆单元。十三、输出门Output Gate作用决定哪些信息参与输出例如历史天气当前天气未来天气预测输出门负责选择有价值信息十四、LSTM 工作流程完整过程本质上忘记旧信息记录新信息输出关键内容十五、RNN 与 LSTM 对比对比项RNNLSTM结构复杂度简单较复杂参数量少多训练速度快较慢长期记忆差强梯度消失容易发生大幅缓解NLP效果一般更好总结RNN适合短序列 LSTM适合长序列十六、使用 PyTorch 实现 RNN创建RNN层import torch import torch.nn as nn rnn nn.RNN( input_size10, hidden_size20, num_layers1 )输入数据x torch.randn( 5, 3, 10 ) output, hidden rnn(x) print(output.shape)输出(5,3,20)十七、使用 PyTorch 实现 LSTM创建LSTMimport torch import torch.nn as nn lstm nn.LSTM( input_size10, hidden_size20, num_layers2 )输入x torch.randn( 5, 3, 10 ) output,(hn,cn)lstm(x) print(output.shape)输出(5,3,20)其中hn 隐藏状态 cn 记忆状态十八、LSTM 文本分类实战构建情感分类模型class SentimentModel(nn.Module): def __init__(self): super().__init__() self.lstm nn.LSTM( input_size100, hidden_size128, batch_firstTrue ) self.fc nn.Linear( 128, 2 ) def forward(self,x): out,(h,c)self.lstm(x) outself.fc(h[-1]) return out用途正面评论负面评论情感分析十九、RNN/LSTM 在 NLP 中的应用经典应用机器翻译聊天机器人文本生成语音识别命名实体识别例如Google Translate 早期Siri 早期聊天机器人都大量使用LSTM。二十、为什么 Transformer 取代了 LSTM虽然LSTM很强。但仍然存在无法并行计算训练速度慢长文本效果有限因此2017年Attention Is All You Need提出Transformer逐渐取代RNN LSTM如今GPT BERT Claude DeepSeek全部基于Transformer。但理解Transformer 必须先理解RNN和LSTM因为它们代表了神经网络处理序列数据的演进过程二十一、面试高频问题什么是RNN能够处理序列数据具有记忆能力的神经网络RNN为什么能够记忆历史信息隐藏状态不断向后传递RNN最大问题是什么梯度消失长期依赖问题LSTM如何解决长期依赖增加门控机制控制信息流动LSTM有几个门遗忘门输入门输出门为什么Transformer取代LSTM支持并行计算训练速度更快长距离依赖能力更强二十二、总结RNN第一次让神经网络拥有了记忆能力而LSTM进一步解决了长期依赖梯度消失问题。整个技术演进路线前馈神经网络 ↓ RNN ↓ LSTM ↓ GRU ↓ Transformer ↓ GPT可以说RNN开启了序列建模时代LSTM让神经网络真正具备长期记忆能力而Transformer则站在它们的肩膀上推动了大语言模型时代的到来。掌握RNN与LSTM是深入理解现代AI架构演进的重要一步。

重磅汇总！2026AI写作辅助软件大盘点（覆盖 99% 论文写作需求）

本文精选13 款2026 年实测 AI 论文工具，按全流程全能型、垂直领域专精型、润色降重专家、文献管理助手四大类别排序，覆盖从选题到定稿全链路，适配本科 / 硕博 / 期刊全场景，附选型速查表与避坑指南，帮你快速找到最佳拍…...

2026/6/6 12:43:10 阅读更多 →

FPGA嵌入式系统存储架构实战：从SDRAM与Flash配置到程序固化

1. 从“跑得动”到“能固化”：嵌入式存储系统的核心价值上一章我们点亮了NIOS II软核，让程序在FPGA的片内RAM里跑了起来，那种“Hello World”打印出来的兴奋感，估计很多朋友都体验过。但紧接着，一个现实问题就摆在了面…...

2026/6/6 12:43:02 阅读更多 →

VisualCppRedist AIO：企业级运行时依赖管理系统的5大技术创新

VisualCppRedist AIO：企业级运行时依赖管理系统的5大技术创新【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist VisualCppRedist AIO 是一款面向Window…...

2026/6/6 12:42:12 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/6/5 11:46:58 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/6/5 8:19:29 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/6/5 11:12:04 阅读更多 →