NLP-AHU-101一、RNN:RNN中文名为“循环神经网络”在1980年代被初步提出它是一种用于处理序列数据的神经网络能够捕捉序列数据中的时间动态或前后依赖关系。RNN 主要通过循环结构来实现这一点即在每个循环中网络都会将当前输入与前一时刻的隐藏状态结合起来生成新的隐藏状态。这种结构使得 RNN 能够有效处理如时间序列分析、语言模型、语音识别等任务。RNN模型结构示意图其中x是一个向量它表示输入层的值s是一个向量它表示隐藏层的值从图中不难看出循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x还取决于上一次隐藏层的值sU是输入层到隐藏层的权重矩阵o也是一个向量它表示输出层的值V是隐藏层到输出层的权重矩阵而权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重。数学表达式如果我们将2式代入一式那么我们就可以得到以下式子由上式可以看出循环神经网络的输出值是受前面的输入值影响的这就是为什么循环神经网络可以往前看任意多个输入值的原因。二、LSTM上文中的RNN存有梯度消失/爆炸以及长期依赖等问题其中为了解决长期依赖这些问题研究者们提出了LSTM这一结构。长短期记忆网络论文首次发表于1997年。由于独特的设计结构LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM模型结构示意图数学原理LSTM的核心在于三个门控机制遗忘门、输入门和输出门。每个门都通过特定的数学公式来控制信息流动。以下是各门控单元的数学公式1.遗忘门控制记忆单元中哪些信息需要保留或遗忘。它的计算公式为2. 输入门决定当前输入信息写入记忆单元的程度分为两步计算1首先使用sigmoid函数生成写入比例2然后生成候选记忆值用tanh函数激活3. 更新记忆单元状态结合遗忘门和输入门的结果完成记忆单元的状态更新是 LSTM 的核心信息流计算公式为4. 输出门决定当前时刻记忆单元状态的输出它的计算公式为然后将记忆单元状态通过tanh激活函数处理再与输出门的值相乘得到最终的隐藏状态输出三、BiLSTM由于LSTM是一种单向的结构为了解决在处理序列数据时存在的上下文信息利用不足的问题通过引入双向结构提出了BiLSTM这一模型。BiLSTM模型结构示意图其中最下方节点x代表输入层倒数第二层节点h代表正向隐藏状态第二层节点h代表反向隐藏状态第一层节点O则代表最终输出由前向隐藏状态 反向隐藏状态融合得到。核心计算逻辑正向计算前向 LSTM 从序列起点到终点利用t时刻及之前的信息计算每个时间步的正向隐藏状态 h​​反向计算反向 LSTM 从序列终点到起点利用t时刻及之后的信息计算每个时间步的反向隐藏状态 h​​状态融合将同一时间步的正向、反向隐藏状态拼接得到同时包含过去和未来上下文的完整特征输出计算融合后的隐藏状态通过输出层权重 W​生成最终输出 O​.四、总结RNN 是时序循环网络的基础框架LSTM 是解决 RNN 长序列缺陷的核心升级可以理解为RNN proBiLSTM 是 LSTM 在全序列场景下的双向增强(RNN pro max)三者共同构成了从基础到进阶的时序建模技术体系。