多头注意力机制

张

张建站

2026/4/4 11:57:05

10分钟阅读

多头注意力机制Multi-Head Attention一、整体结构该实现是一个带掩码Mask的多头自注意力Masked Multi-Head Self-Attention常用于 GPT 类自回归模型。输入x∈RB×T×C x \in \mathbb{R}^{B \times T \times C}x∈RB×T×C其中BBBbatch sizeTTT序列长度 block_sizeCCCembedding 维度n_embd二、核心流程1. Q / K / V 线性映射qself.q_proj(x)kself.k_proj(x)vself.v_proj(x)对应公式QXWQ,KXWK,VXWV Q XW^Q,\quad K XW^K,\quad V XW^VQXWQ,KXWK,VXWV2. 多头拆分qq.view(B,T,n_heads,C//n_heads).transpose(1,2)得到(B,nheads,T,dk) (B, n_heads, T, d_k)(B,nheads,T,dk)其中dkCnheads d_k \frac{C}{n_heads}dknheadsC3. 注意力分数计算attn(q k.transpose(-2,-1))*(1/sqrt(d_k))公式scoreQKTdk \text{score} \frac{QK^T}{\sqrt{d_k}}scoredkQKTshape(B,nheads,T,T) (B, n_heads, T, T)(B,nheads,T,T)4. Mask关键点self.masktorch.tril(torch.ones(T,T))attnattn.masked_fill(mask0,-inf)作用保证当前位置只能看到自己及之前的信息防止“信息泄露”自回归矩阵形式[100110111] \begin{bmatrix} 1 0 0 \\ 1 1 0 \\ 1 1 1 \end{bmatrix}1110110015. Softmax 得到注意力权重attnsoftmax(attn,dim-1)αsoftmax(score) \alpha \text{softmax}(\text{score})αsoftmax(score)6. Dropout防过拟合attnself.attn_drop(attn)7. 加权求和xattn vheadαV \text{head} \alpha VheadαV8. 多头拼接xx.transpose(1,2).contiguous().view(B,T,C)9. 输出映射xself.out_proj(x)xself.out_drop(x)outputConcat(headi)WO \text{output} \text{Concat}(head_i) W^OoutputConcat(headi)WO三、Shape变化总结面试重点步骤Shape输入(B, T, C)Q/K/V(B, T, C)分头(B, n_heads, T, d_k)注意力矩阵(B, n_heads, T, T)加权输出(B, n_heads, T, d_k)拼接(B, T, C)四、关键设计点1. 为什么要除以dk\sqrt{d_k}dk防止点积过大导致 softmax 梯度消失。2. 为什么需要 Mask自回归任务如 GPT必须保证当前位置不能看到未来信息3. register_buffer 的作用self.register_buffer(mask,...)不参与训练不是参数会随模型一起保存 / 加载自动放到 GPU4. contiguous().view().transpose(...).contiguous().view(...)transpose 后内存不连续必须 contiguous 才能 view五、复杂度分析时间复杂度O(T2⋅C) O(T^2 \cdot C)O(T2⋅C)空间复杂度O(T2) O(T^2)O(T2)六、完整执行流程总结版# NOTE multi-head attentionimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFimportmathclassMultiHeadAttention(nn.Module):def__init__(self,n_embd,n_heads,block_size,biasTrue,drop_rate0.1):super().__init__()self.n_embdn_embd# 768self.n_headsn_heads# 8self.block_sizeblock_size# 10self.q_projnn.Linear(n_embd,n_embd,biasbias)# 768, 768, Trueself.k_projnn.Linear(n_embd,n_embd,biasbias)# 768, 768, Trueself.v_projnn.Linear(n_embd,n_embd,biasbias)# 768, 768, Trueself.out_projnn.Linear(n_embd,n_embd,biasbias)# 768, 768, Trueself.attn_dropnn.Dropout(drop_rate)# 0.1self.out_dropnn.Dropout(drop_rate)# 0.1self.register_buffer(mask,torch.tril(torch.ones(block_size,block_size)).view(1,1,block_size,block_size))# 1, 1, 10, 10defforward(self,x):B,T,Cx.shape qself.q_proj(x).view(B,T,self.n_heads,C//self.n_heads).transpose(1,2)# B, 8, T, 96kself.k_proj(x).view(B,T,self.n_heads,C//self.n_heads).transpose(1,2)# B, 8, T, 96vself.v_proj(x).view(B,T,self.n_heads,C//self.n_heads).transpose(1,2)# B, 8, T, 96attn(q k.transpose(-2,-1))*(1/math.sqrt(k.size(-1)))# B, 8, T, Tattnattn.masked_fill(self.mask[:,:,:T,:T]0,float(-inf))attnF.softmax(attn,dim-1)# B, 8, T, Tattnself.attn_drop(attn)# B, 8, T, Tx(attn v).transpose(1,2).contiguous().view(B,T,C)# B, T, 768xself.out_proj(x)# B, T, 768xself.out_drop(x)# B, T, 768returnxinputtorch.rand(10,10,768)attentionMultiHeadAttention(n_embd768,n_heads8,block_size10)print(attention(input).shape)

提升Adobe Illustrator开发效率的自动化脚本工具集

提升Adobe Illustrator开发效率的自动化脚本工具集【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 在设计开发流程中，重复性操作、多文件管理和格式标准化往往消耗大量时…...

2026/4/4 11:55:43 阅读更多 →

零基础AI建站工具极速上手教程：10分钟从注册到网站上线

网站建站，听起来像是很复杂的事。但对于不想学代码、不想花大钱的人来说，有没有可能像注册一个邮箱一样，简单填几个信息，网站就自动生成了？答案是肯定的。现在的AI建站工具已经把门槛降到了历史最低。只要你会上网、会…...

2026/4/4 11:55:09 阅读更多 →

微信视频号直播数据抓取终极指南：wxlivespy的完整解决方案

微信视频号直播数据抓取终极指南：wxlivespy的完整解决方案【免费下载链接】wxlivespy 微信视频号直播间弹幕信息抓取工具项目地址: https://gitcode.com/gh_mirrors/wx/wxlivespy 在当今直播电商和内容创作蓬勃发展的时代，微信视频号直播已成为…...

2026/4/4 11:54:32 阅读更多 →

在 Windows 11 家庭版安装 Docker Desktop解决虚拟化问题

目录前言环境说明架构原理第一步：启用 Windows 虚拟化功能第二步：修复 Hypervisor 启动配置第三步：安装 WSL 2 与 Ubuntu 第四步：启动 Docker Desktop 第五步：验证安装常见问题总结前言 Docker 是目…...

2026/3/31 3:31:24 阅读更多 →

实在 Agent 和通用大模型有什么不一样？深度拆解 AI Agent 的感知、决策与执行逻辑

获取系统时间这一任务，虽然看似简单，却深刻揭示了 AI Agent 与通用大模型在本质、能力、架构和应用场景上的根本性差异。通用大模型（LLM），如 GPT、Claude 或通义千问等，其核心是基于海量文本数据训练出的概…...

2026/3/29 0:02:57 阅读更多 →

pdf2docx完全指南：如何高效将PDF转换为可编辑的Word文档

pdf2docx完全指南：如何高效将PDF转换为可编辑的Word文档【免费下载链接】pdf2docx Open source Python library converting pdf to docx. 项目地址: https://gitcode.com/gh_mirrors/pd/pdf2docx pdf2docx是一个强大的开源Python库，专门用于将PD…...

2026/4/4 3:15:07 阅读更多 →