Transformer模型中的自注意力机制：从零开始手把手实现（附Python代码）

张

张建站

2026/7/3 3:48:19

10分钟阅读

Transformer模型中的自注意力机制从零开始手把手实现附Python代码在深度学习领域Transformer架构已经成为处理序列数据的黄金标准。而这一架构的核心创新——自注意力机制Self-Attention正是其强大性能的关键所在。不同于传统的循环神经网络RNN需要逐步处理序列自注意力机制允许模型同时关注输入序列的所有部分并动态计算它们之间的相关性权重。这种机制特别适合处理自然语言这类具有复杂依赖关系的序列数据。本文将带您从零开始一步步实现自注意力机制的完整流程。我们会从最基本的向量运算开始逐步构建查询Query、键Key、值Value的计算过程最终实现完整的注意力机制。所有代码示例都将使用Python和PyTorch框架确保您可以轻松复现并在自己的项目中应用这些技术。1. 自注意力机制的基础概念自注意力机制的核心思想是让序列中的每个元素都能够关注序列中的其他元素包括自身并根据相关性程度动态调整关注权重。这种机制解决了传统序列模型在处理长距离依赖时的局限性。1.1 基本组件与计算流程自注意力机制主要包含以下几个关键步骤输入表示将输入序列中的每个元素如单词转换为向量表示线性变换通过可学习的权重矩阵生成查询(Q)、键(K)、值(V)向量注意力分数计算计算查询与所有键的点积得到原始注意力分数权重归一化使用softmax函数将原始分数转换为概率分布加权求和用归一化的权重对值向量进行加权求和得到最终输出注意自注意力机制的一个关键特性是它不考虑序列中元素的位置信息这也是为什么Transformer需要额外加入位置编码。1.2 数学表达自注意力机制的数学表达可以用以下公式表示$$ \text{Attention}(Q, K, V) \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$其中$Q$ 是查询矩阵$K$ 是键矩阵$V$ 是值矩阵$d_k$ 是键向量的维度$\sqrt{d_k}$ 是缩放因子用于防止点积结果过大导致softmax梯度消失2. 实现基础自注意力机制现在让我们用Python代码一步步实现这个机制。我们将使用PyTorch框架它提供了高效的张量运算和自动微分功能。2.1 环境准备与数据模拟首先我们需要设置开发环境并创建一些模拟数据import torch import torch.nn as nn import torch.nn.functional as F import math # 设置随机种子保证结果可复现 torch.manual_seed(42) # 模拟输入数据batch_size2, seq_len4, embedding_dim8 x torch.rand(2, 4, 8) # 2个样本每个样本4个token每个token8维 print(输入数据形状:, x.shape)2.2 实现线性变换层接下来我们实现生成Q、K、V的线性变换层class SelfAttention(nn.Module): def __init__(self, embed_size): super(SelfAttention, self).__init__() self.embed_size embed_size # 定义Q、K、V的线性变换层 self.query nn.Linear(embed_size, embed_size) self.key nn.Linear(embed_size, embed_size) self.value nn.Linear(embed_size, embed_size) def forward(self, x): # 应用线性变换 Q self.query(x) # (batch_size, seq_len, embed_size) K self.key(x) # (batch_size, seq_len, embed_size) V self.value(x) # (batch_size, seq_len, embed_size) return Q, K, V # 测试线性变换 attention SelfAttention(8) Q, K, V attention(x) print(Q形状:, Q.shape) print(K形状:, K.shape) print(V形状:, V.shape)2.3 计算注意力分数现在我们实现注意力分数的计算和归一化def scaled_dot_product_attention(Q, K, V): d_k K.size(-1) # 获取键向量的维度 # 计算Q和K的点积并缩放 scores torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k) # 应用softmax得到注意力权重 attention_weights F.softmax(scores, dim-1) # 对V进行加权求和 output torch.matmul(attention_weights, V) return output, attention_weights # 测试注意力计算 output, weights scaled_dot_product_attention(Q, K, V) print(输出形状:, output.shape) print(注意力权重形状:, weights.shape)3. 完整自注意力层实现现在我们将前面的部分组合起来实现一个完整的自注意力层class SelfAttentionLayer(nn.Module): def __init__(self, embed_size): super(SelfAttentionLayer, self).__init__() self.embed_size embed_size # 定义线性变换层 self.query nn.Linear(embed_size, embed_size) self.key nn.Linear(embed_size, embed_size) self.value nn.Linear(embed_size, embed_size) def forward(self, x): # 获取batch大小和序列长度 batch_size, seq_len, _ x.size() # 线性变换得到Q, K, V Q self.query(x) K self.key(x) V self.value(x) # 计算缩放点积注意力 d_k K.size(-1) scores torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k) # 应用softmax得到注意力权重 attention_weights F.softmax(scores, dim-1) # 对V进行加权求和 output torch.matmul(attention_weights, V) return output, attention_weights # 测试完整自注意力层 attention_layer SelfAttentionLayer(8) output, weights attention_layer(x) print(完整自注意力层输出形状:, output.shape)4. 多头注意力机制实现单一的自注意力机制有一个局限性它只能学习一种类型的注意力模式。为了克服这个问题Transformer引入了多头注意力Multi-Head Attention机制它允许模型同时关注来自不同表示子空间的信息。4.1 多头注意力原理多头注意力的核心思想是将Q、K、V通过不同的线性变换投影到多个子空间在每个子空间中独立计算注意力将所有头的输出拼接起来再通过一个线性变换得到最终输出数学表达式为$$ \text{MultiHead}(Q, K, V) \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O $$其中每个头的计算为$$ \text{head}_i \text{Attention}(QW_i^Q, KW_i^K, VW_i^V) $$4.2 代码实现class MultiHeadAttention(nn.Module): def __init__(self, embed_size, num_heads): super(MultiHeadAttention, self).__init__() self.embed_size embed_size self.num_heads num_heads self.head_dim embed_size // num_heads assert ( self.head_dim * num_heads embed_size ), Embedding size needs to be divisible by number of heads # 定义线性变换层 self.query nn.Linear(embed_size, embed_size) self.key nn.Linear(embed_size, embed_size) self.value nn.Linear(embed_size, embed_size) self.fc_out nn.Linear(embed_size, embed_size) def forward(self, x): batch_size x.shape[0] # 线性变换并分割为多个头 Q self.query(x).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2) K self.key(x).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2) V self.value(x).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2) # 计算缩放点积注意力 scores torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.head_dim) attention_weights F.softmax(scores, dim-1) # 应用注意力权重到V上 output torch.matmul(attention_weights, V) # 拼接所有头的输出 output output.transpose(1, 2).contiguous().view(batch_size, -1, self.embed_size) # 最终线性变换 output self.fc_out(output) return output, attention_weights # 测试多头注意力 multi_head_attention MultiHeadAttention(embed_size8, num_heads2) output, weights multi_head_attention(x) print(多头注意力输出形状:, output.shape) print(注意力权重形状:, weights.shape)5. 实际应用与优化技巧在实际项目中应用自注意力机制时有几个关键点需要注意5.1 掩码注意力在处理变长序列或生成任务时我们需要使用掩码来防止模型关注不应该关注的位置。常见的掩码类型包括填充掩码Padding Mask忽略填充token的位置前瞻掩码Look-ahead Mask防止解码器看到未来的tokendef create_padding_mask(seq, pad_token0): # seq形状: (batch_size, seq_len) mask (seq pad_token).unsqueeze(1).unsqueeze(2) # (batch_size, 1, 1, seq_len) return mask # 示例 seq torch.tensor([[1, 2, 0, 0], [1, 2, 3, 0]]) # 0表示填充 padding_mask create_padding_mask(seq) print(填充掩码:, padding_mask)5.2 位置编码由于自注意力机制本身不考虑序列顺序我们需要额外添加位置信息。Transformer使用正弦和余弦函数来生成位置编码class PositionalEncoding(nn.Module): def __init__(self, d_model, max_len5000): super(PositionalEncoding, self).__init__() position torch.arange(max_len).unsqueeze(1) div_term torch.exp(torch.arange(0, d_model, 2) * (-math.log(10000.0) / d_model)) pe torch.zeros(max_len, d_model) pe[:, 0::2] torch.sin(position * div_term) pe[:, 1::2] torch.cos(position * div_term) pe pe.unsqueeze(0) # (1, max_len, d_model) self.register_buffer(pe, pe) def forward(self, x): # x形状: (batch_size, seq_len, d_model) return x self.pe[:, :x.size(1)] # 测试位置编码 pos_encoder PositionalEncoding(d_model8) x_with_pos pos_encoder(x) print(添加位置编码后的输入形状:, x_with_pos.shape)5.3 性能优化技巧在实际应用中我们可以采用以下策略优化自注意力机制的性能内存高效注意力对于长序列使用内存优化的注意力实现稀疏注意力只计算部分位置的注意力分数线性注意力使用核技巧将复杂度从O(n²)降低到O(n)# 内存高效注意力示例使用PyTorch的einsum def memory_efficient_attention(Q, K, V): # Q, K, V形状: (batch_size, num_heads, seq_len, head_dim) scale 1.0 / math.sqrt(Q.size(-1)) scores torch.einsum(bnqd,bnkd-bnqk, Q, K) * scale attention_weights F.softmax(scores, dim-1) output torch.einsum(bnqk,bnkd-bnqd, attention_weights, V) return output, attention_weights

真心不骗你!碾压级的降AI率网站 —— 千笔·降AIGC助手

在AI技术席卷学术写作的今天，越来越多的学生、研究人员和职场人士选择借助AI辅助完成论文、报告和学术材料。然而，随之而来的“AI率超标”问题却成为横亘在学术道路上的隐形障碍——知网、维普、万方等主流查重系统纷纷升级算法，严打AI生成内…...

2026/6/26 7:28:40 阅读更多 →

Pycharm代码复制到Word乱码？3种快速修复方法（附图文步骤）

Pycharm代码复制到Word乱码？3种快速修复方法（附图文步骤） 在开发文档编写或技术分享时，我们经常需要将Pycharm中的代码片段插入到Word文档中。但不少开发者都遇到过这样的困扰：直接从Pycharm复制的代码粘贴到Word后&am…...

2026/7/3 2:43:06 阅读更多 →

原型与原型链：JavaScript 的“家族关系”大揭秘

有人说JavaScript里“万物皆对象”，但对象和对象之间怎么攀亲戚？今天我们就来扒一扒JS的“家族关系”——原型和原型链。看懂了它，你就理解了JS面向对象的核心，也能明白为什么一个数组能调用那么多方法。前言如果你第一次接触原型…...

2026/7/2 15:35:25 阅读更多 →

2026四级英语考试备考|英语四六级考试材料|英语四六级备考资料

2026四级英语考试备考|英语四六级考试材料|英语四六级备考资料资料全科都有英语四六级备考资料 PDFhttps://tool.nineya.com/s/1jpf2t49o 【英语真题】1. "Comprehension" most probably means（ ） A. 理解 B. 表达 C. 翻译 D. 写作答案&#…...

2026/7/1 12:39:34 阅读更多 →

2026年英语四级|2026年大学四级英语备考资料|2026四级备考

2026年英语四级|2026年大学四级英语备考资料|2026四级备考资料全科都有2026四级备考 PDFhttps://tool.nineya.com/s/1jpf2t49o 【英语真题】1. "Vocabulary" most probably means（ ） A. 词汇 B. 语法 C. 阅读 D. 听力答案：A 解析&…...

2026/7/2 16:29:59 阅读更多 →