从‘词向量搬家’到‘关系运算’：动手用NumPy模拟Transformer的QKV计算全过程（附代码）

张

张建站

2026/5/1 12:16:24

10分钟阅读

从‘词向量搬家’到‘关系运算’：动手用NumPy模拟Transformer的QKV计算全过程（附代码）

从词向量到关系运算用NumPy拆解Transformer的QKV核心机制当你第一次听说自注意力机制时是否也被那些神秘的Q、K、V字母搞得一头雾水作为Transformer架构的核心QKV计算远不止是几个矩阵乘法那么简单。让我们暂时抛开那些抽象的理论推导直接动手用NumPy从零构建整个过程——你会惊讶地发现原来那些看似复杂的向量运算本质上是在进行一场精妙的词向量搬家游戏。1. 准备词向量语言的空间化表达想象一下如果每个词都能在三维空间中找到自己的位置中国可能位于(3,6,10)而熊猫在(2,5,9)附近。这就是词向量的魔力——将离散的符号转化为连续的数学对象。在实际应用中维度通常高达512或768但为了演示我们先用3维空间import numpy as np # 定义句子中国的熊猫很可爱 vocab { 中国: np.array([3, 6, 10]), 的: np.array([1, 1, 1]), 熊猫: np.array([2, 5, 9]), 很: np.array([1, 2, 1]), 可爱: np.array([0, 8, 3]) } sentence [中国, 的, 熊猫, 很, 可爱] X np.stack([vocab[word] for word in sentence]) # 形状(5,3)词向量的关键特性语义相近的词距离更近如中国与熊猫向量方向蕴含语法关系如中国→熊猫可能代表拥有关系位置编码会保留单词顺序信息此处简化为静态向量提示真实场景中词向量通过Embedding层学习得到这里我们手动定义是为了更直观地观察变化2. QKV变换为词向量赋予多重身份每个词向量现在要扮演三个不同角色查询者(Query)、被查询者(Key)和值载体(Value)。这通过三个独立的线性变换实现np.random.seed(42) d_model 3 # 原始词向量维度 d_k 2 # QK空间维度通常小于d_model # 初始化变换矩阵 WQ np.random.randn(d_model, d_k) * 0.1 WK np.random.randn(d_model, d_k) * 0.1 WV np.random.randn(d_model, d_model) * 0.1 # 计算Q,K,V Q X WQ # 查询矩阵 (5,2) K X WK # 键矩阵 (5,2) V X WV # 值矩阵 (5,3)为什么需要三个矩阵Q代表当前词的提问如中国想知道谁与我相关K代表其他词的应答如熊猫回答我与你相关度是0.8V携带实际要传递的信息如熊猫携带的语义内容3. 注意力分数词与词的社交网络计算注意力分数本质上是建立词与词之间的关联图谱。点积运算衡量Q与K的匹配程度attn_scores Q K.T / np.sqrt(d_k) # 形状(5,5) print(原始注意力分数\n, attn_scores.round(2)) # 应用Softmax归一化 def softmax(x): exp_x np.exp(x - np.max(x, axis-1, keepdimsTrue)) return exp_x / np.sum(exp_x, axis-1, keepdimsTrue) attn_weights softmax(attn_scores) print(\n注意力权重\n, attn_weights.round(2))示例输出可能显示注意力权重 [[0.45 0.12 0.3 0.08 0.05] [0.2 0.2 0.2 0.2 0.2 ] [0.25 0.1 0.4 0.15 0.1 ] [0.1 0.1 0.1 0.5 0.2 ] [0.15 0.05 0.1 0.3 0.4 ]]解读注意力模式中国最关注熊猫权重0.3可爱主要关注自身和很自我强化停用词的呈现均匀分布符合预期4. 加权合成关系向量的动态组合现在我们将注意力权重作用于V矩阵完成信息的动态重组Z attn_weights V # 形状(5,3) print(\n注意力输出\n, Z.round(2)) # 残差连接原始信息保留 Z XV矩阵的本质不是简单的词向量拷贝而是学习到的关系传递器每个V向量像是一个语义插件可以增强或修正原始词向量残差连接确保不会丢失原始信息梯度流动更顺畅5. 可视化解析追踪向量空间的变化让我们用Matplotlib观察中国一词的演变过程import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D fig plt.figure(figsize(15,5)) # 原始词向量 ax1 fig.add_subplot(131, projection3d) for i, word in enumerate(sentence): ax1.scatter(*X[i], colorr) ax1.text(*X[i], word) ax1.set_title(初始词向量) # 注意力权重 ax2 fig.add_subplot(132) im ax2.imshow(attn_weights, cmapReds) ax2.set_xticks(range(len(sentence))) ax2.set_xticklabels(sentence) ax2.set_yticks(range(len(sentence))) ax2.set_yticklabels(sentence) ax2.set_title(注意力热力图) # 输出向量 ax3 fig.add_subplot(133, projection3d) for i, word in enumerate(sentence): ax3.scatter(*Z[i], colorg) ax3.text(*Z[i], word) # 绘制从X到Z的箭头 ax3.quiver(*X[i], *(Z[i]-X[i]), colorb, arrow_length_ratio0.1) ax3.set_title(输出向量蓝色箭头表示变化) plt.tight_layout() plt.show()关键观察点中国向量向熊猫方向移动语义关联可爱向量长度增加情感强度强化的几乎保持不变功能词无需调整6. 扩展实践多头注意力与层叠真实的Transformer会使用多头注意力机制让我们实现一个简化版n_heads 2 head_dim d_model // n_heads # 分割到多个头 def split_heads(x): return x.reshape(x.shape[0], n_heads, head_dim) Q_heads split_heads(Q WQ_multi) # WQ_multi形状为(d_model, d_model) K_heads split_heads(K WK_multi) V_heads split_heads(V WV_multi) # 每个头独立计算注意力 attn_outputs [] for h in range(n_heads): attn_h softmax(Q_heads[:,h] K_heads[:,h].T / np.sqrt(head_dim)) attn_outputs.append(attn_h V_heads[:,h]) # 合并多头输出 Z_multi np.concatenate(attn_outputs, axis-1) # 形状(5,3)多头机制的优势不同头可以捕捉不同类型的关系如语法vs语义扩展了模型的表示能力并行计算效率高7. 工程实践中的关键细节在实际项目中有几个容易忽视但至关重要的实现细节缩放点积的数学原理# 错误的缩放方式会导致梯度消失 attn_scores Q K.T / d_k # 正确的缩放保持方差稳定 attn_scores Q K.T / np.sqrt(d_k)注意力掩码的实现# 解码器的自回归掩码 mask np.triu(np.ones((len(sentence), len(sentence))), k1) attn_scores attn_scores - 1e9 * mask数值稳定的Softmaxdef safe_softmax(x): x x - np.max(x, axis-1, keepdimsTrue) exp_x np.exp(x) return exp_x / np.sum(exp_x, axis-1, keepdimsTrue)在BERT等模型中QKV计算通常占整体计算量的40%以上。通过分析中间变量的内存占用我们发现张量名称形状内存占比Q/K矩阵(seq_len, d_k)25%注意力权重(seq_len, seq_len)45%V矩阵(seq_len, d_model)30%这解释了为什么许多优化工作聚焦于稀疏注意力或低秩近似——当序列长度达到1024时注意力权重的(1024,1024)矩阵会成为显存瓶颈。

如何用Python零成本获取全球金融数据？开源工具AKShare完整指南

如何用Python零成本获取全球金融数据？开源工具AKShare完整指南【免费下载链接】akshare AKShare is an elegant and simple financial data interface library for Python, built for human beings! 开源财经数据接口库项目地址: https://gitcode.com/gh_mirror…...

2026/5/1 12:14:24 阅读更多 →

【SRE认证级监控体系】：Docker 27内置telemetry全开启+6个生产环境告警阈值科学设定公式

更多请点击： https://intelliparadigm.com 第一章：Docker 27 Telemetry架构演进与SRE监控范式升级 Docker 27 引入了原生、可插拔的 Telemetry 框架，标志着容器运行时从被动日志采集迈向主动指标驱动的可观测性新阶段。该框架深度集成 OpenT…...

2026/5/1 12:08:23 阅读更多 →

【电力系统】基于粒子群算法、遗传算法、模拟退火、萤火虫优化算法的太阳能风能水力混合抽水蓄能系统研究【SA, GA, PSO, FA】（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

2026/5/1 12:05:35 阅读更多 →

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案【免费下载链接】baidu-wenku fetch the document for free 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wenku 在信息获取过程中，百度文库的付费门槛、广告干扰和内容加载限…...

2026/4/30 23:34:59 阅读更多 →

zmq源码分析之DEALER/ROUTER 路由机制的应用场景

文章目录 1. 服务集群与负载均衡 2. 消息代理与路由器 3. 异步 RPC 系统 4. 聊天服务器 5. 游戏服务器 6. 金融交易系统 7. 物联网系统 8. 微服务架构代码示例：服务集群负载均衡器 (ROUTER) 服务实例 (DEALER) 客户端总结 DEALER/ROUTER 模式凭借其强大的路由能力和异步特性…...

2026/5/1 1:09:00 阅读更多 →

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案【免费下载链接】Windows11DragAndDropToTaskbarFix "Windows 11 Drag & Drop to the Taskbar (Fix)" fixes the missing "Drag & Drop to the Taskbar" support in Windows…...

2026/4/30 19:16:10 阅读更多 →