NLP —— Transformer底层源码剖析（编码器部分）

张

张建站

2026/5/31 9:50:52

10分钟阅读

Transformer 编码器部分组成代码部分1.单层编码器编码器层由两部分组成 ① 多头自注意力层层归一化残差连接 ② 前馈网络层归一化残差连接 class EncoderLayer(nn.Module): def __init__(self, d_model, multi_head_self_attention, feed_forward_obj, dropout_p): super().__init__() 维度、多头自注意力、前馈网络、随机失活 self.d_model d_model self.multi_head_self_attention multi_head_self_attention self.feed_forward_obj feed_forward_obj self.dropout_p dropout_p 第①部分第②部分 self.multi_layer SubLayerConnection(self.d_model, self.dropout_p) self.feed_forward_layer SubLayerConnection(self.d_model, self.dropout_p) def forward(self, data): # 1- 数据经过第一个层的处理多头自注意力子层这里data 输入数据自注意力dataQKV # 2- 数据经过第二个层的处理前馈网络子层第一个模块处理后的数据带入前馈网络相关的第二模块 multi_output self.multi_layer( data, lambda x: self.multi_head_self_attention(queryx, keyx, valuex, maskNone) ) encoder_output self.feed_forward_layer( multi_output, lambda y: self.feed_forward_obj(y) ) return encoder_output2.N层编码器层 N层编码器层 class Encoder(nn.Module): def __init__(self, encoder_layer, N6): super().__init__() 复制N分深拷贝 self.encoder_layer_list clones(encoder_layer,N) 【可选】最后输出做一次归一化层处理保证数据更加平稳。 self.layer_norm LayerNorm(encoder_layer.d_model) def forward(self, data): 输入数据进行 N层的编码处理最终输出 for layer in self.encoder_layer_list: data layer(data) return self.layer_norm(data)3.测试使用 N层编码器使用 N层编码器 - 得到编码器输出 def use_encoder(): position_data use_positional_encoding() d_model 512 dropout_p 0.1 num_heads 8 #多头数 512/8 64 子维度多头自注意力对象前馈网络对象单层编码器对象 multi_head_self_attention MultiHeadAttention(d_model, num_heads, dropout_p) feed_forward_obj FeedForward(d_modeld_model, output_dim1024, dropoutdropout_p) encoder_layer EncoderLayer( d_modeld_model, multi_head_self_attentionmulti_head_self_attention, feed_forward_objfeed_forward_obj, dropout_pdropout_p ) encder Encoder(encoder_layer,6) output encder(position_data) print(f编码器最终的输出结果是{output.shape}) if __name__ __main__: test_encoder()

别再只用Game视图看效果了！手把手教你用Maximize On Play和Mute Audio提升开发效率

别再只用Game视图看效果了！手把手教你用Maximize On Play和Mute Audio提升开发效率在Unity开发过程中，Game视图是我们最常使用的工具之一。但很多开发者仅仅把它当作一个简单的预览窗口，却忽略了其中隐藏的高效开发利器。本文将带你深入探索G…...

2026/5/31 1:25:35 阅读更多 →

终极指南：如何让浏览器完美显示Markdown文档

终极指南：如何让浏览器完美显示Markdown文档【免费下载链接】markdown-viewer Markdown Viewer / Browser Extension 项目地址: https://gitcode.com/gh_mirrors/ma/markdown-viewer 还在为浏览器中无法正常显示Markdown文档而烦恼吗？Markdown V…...

2026/5/31 7:13:19 阅读更多 →

【Lindy客户服务自动化终极指南】：20年IT专家亲授5大落地陷阱与避坑清单

更多请点击： https://kaifayun.com 第一章：Lindy客户服务自动化的核心价值与演进逻辑 Lindy客户服务自动化并非简单地用机器人替代人工，而是以客户旅程为中心，构建具备语义理解、上下文记忆与跨渠道协同能力的服务智能体。其核心…...

2026/5/30 17:32:08 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/5/31 0:03:06 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/5/31 0:07:22 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/5/31 0:13:35 阅读更多 →