大模型入门-大模型优化方法2

张

张建站

2026/6/19 17:50:38

10分钟阅读

5.3 RoPE 旋转位置编码 (Rotary Position Embedding)在自然语言处理中模型必须知道单词在句子里的先后顺序。早期的 RNN 模型通过一步步顺序读取词汇天然带有位置信息。然而Transformer 的核心是 Attention 机制它在计算时是将所有词汇“一锅端”地丢进去计算相关性如果不加以干预模型根本分不清“我不爱你”和“不我爱你”的区别。为了解决这个问题我们需要引入位置编码 (Position Encoding)。在 LLaMA 等现代大模型中一种名为RoPE (旋转位置编码)的技术成为了绝对的主流。1. 直观理解什么是 RoPE在探索复杂的公式之前我们先通过一个直观的交互组件来看看 RoPE 到底在做什么。在 RoPE 中每个词都被表示为一个高维向量。当我们给这个词加上位置编码时RoPE 的做法不是去改变向量的长短而是把这个向量在空间中“旋转”一个特定的角度。这个角度的大小取决于这个词在句子中的位置。当注意力机制计算两个词Query 和 Key的相似度即内积时由于它们都被旋转了它们最终的相对夹角只取决于它们之间的距离相对位置。了解了基础概念后我们来系统回顾一下位置编码的演进之路看看为什么大模型最终选择了 RoPE。2. 位置编码的演进之路2.1 绝对位置编码最初的 Transformer 采用的是绝对位置编码。它直接把表示位置的向量pkp_kpk加到输入的词向量xkx_kxk上变成xkpkx_k p_kxkpk。函数式绝对位置编码使用正弦和余弦函数来生成位置向量。这种方法的优点是相邻位置的向量很相似较远的位置差异很大而且可以直接计算不需要训练。{PEpos,2isin⁡(pos/100002i/dmodel)PEpos,2i1cos⁡(pos/100002i/dmodel)\begin{cases}PE_{pos,2i} \sin(pos/10000^{2i/d_{model}})\\ PE_{pos,2i1} \cos(pos/10000^{2i/d_{model}})\end{cases}{PEpos,2iPEpos,2i1sin(pos/100002i/dmodel)cos(pos/100002i/dmodel)训练式绝对位置编码BERT 提出了这种思想。它根据最大长度比如 512初始化一个位置矩阵让模型自己去学习每个位置的最佳表示。缺陷在于它没有“外推性”如果训练时最大只见过 512 个词测试时输入 1000 个词超出部分模型就完全成了瞎子。2.2 相对位置编码为了解决长度限制和更合理地表达词语间的关系相对位置编码应运而生。相比绝对位置编码在输入层直接“相加”相对位置编码通常是在计算 Attention 分数时做手脚直接告诉模型两个词之间隔了多远。训练式相对位置编码 (以 DeBERTa 为代表)通过限制一个最大距离和最小距离直接学习词与词之间各种距离的 Embedding。函数式相对位置编码 (RoPE 为代表)不需要训练额外的向量参数通过巧妙的数学变换把绝对位置的旋转融合成了相对位置的表达。3. RoPE 的核心数学推导复数与旋转RoPE 的神奇之处在于它通过“复数乘法”和“二维平面的旋转”构建了理论桥梁。第一步向量内积与复数的关联在二维空间中两个向量q(x1,y1)q (x_1, y_1)q(x1,y1)和k(x2,y2)k (x_2, y_2)k(x2,y2)的内积是x1x2y1y2x_1x_2 y_1y_2x1x2y1y2。如果把它们看作复数qx1y1iq x_1 y_1iqx1y1i和kx2y2ik x_2 y_2ikx2y2i我们可以发现一个奇妙的规律向量的内积正好等于复数qqq与kkk的共轭复数k∗k^*k∗乘积的实部⟨qm,kn⟩Re[qmkn∗]\langle q_m, k_n \rangle Re[q_m k_n^*]⟨qm,kn⟩Re[qmkn∗]第二步利用欧拉公式引入旋转在复数中乘以eiθe^{i\theta}eiθ就相当于在复平面上逆时针旋转θ\thetaθ角度而不改变长度。如果给位于位置mmm的词向量qqq旋转mθm\thetamθ的角度给位置nnn的词向量kkk旋转nθn\thetanθ的角度我们再来算它们的内积⟨qmeimθ0,kneinθ0⟩Re[(qmeimθ0)(kneinθ0)∗]Re[qmkn∗ei(m−n)θ0]\langle q_me^{im\theta_0}, k_ne^{in\theta_0} \rangle Re[(q_me^{im\theta_0})(k_ne^{in\theta_0})^*] Re[q_mk_n^*e^{i(m-n)\theta_0}]⟨qmeimθ0,kneinθ0⟩Re[(qmeimθ0)(kneinθ0)∗]Re[qmkn∗ei(m−n)θ0]见证奇迹的时刻我们发现最终的内积结果里仅仅包含了m−nm-nm−n(两个词的相对位置差)这就意味着我们在输入层给每个词独立分配了一个基于其绝对位置的旋转角绝对位置编码但当大模型计算 Attention 内积时自动就得到了相对位置的信息。第三步向高维扩展上述推导只适用于二维向量。对于大模型中动辄几千维的词向量怎么办做法很简单把高维向量两两分组。比如 4096 维的向量拆分成 2048 个二维向量对。每个二维向量对独立进行上述的旋转操作这就是完整的 RoPE。4. PyTorch 代码实战在实际深度学习框架如 PyTorch的工程实现中我们并不直接使用复数计算而是利用三角函数的特性通过逐位相乘element-wise multiplication来高效实现矩阵旋转。下面是剥离了复杂依赖的整合版 RoPE 计算代码importtorchdefcompute_rope(x,theta_base10000): 整合参数计算的 RoPE 实现参数: x: 输入张量形状为 (batch_size, num_heads, seq_len, head_dim) theta_base: 用于计算频率的基础值 (原论文中使用10000) batch_size,num_heads,seq_len,head_dimx.shapeasserthead_dim%20,Head dimension must be even# 1. 计算逆频率 inv_freq# 公式: 1 / (theta_base ** (2i / head_dim))inv_freq1.0/(theta_base**(torch.arange(0,head_dim,2).float()/head_dim))# 2. 生成绝对位置索引 (0 到 seq_len-1)positionstorch.arange(seq_len)# 3. 计算旋转角度 (position * inv_freq)anglespositions[:,None]*inv_freq[None,:]# 形状: (seq_len, head_dim // 2)# 4. 将角度复制扩展到匹配 head_dimanglestorch.cat([angles,angles],dim1)# 形状: (seq_len, head_dim)# 5. 计算正弦和余弦参数并调整维度以匹配输入 xcostorch.cos(angles).unsqueeze(0).unsqueeze(0)# 形状: (1, 1, seq_len, head_dim)sintorch.sin(angles).unsqueeze(0).unsqueeze(0)# 6. 构造旋转项 (-x2, x1)x1x[...,:head_dim//2]x2x[...,head_dim//2:]rotatedtorch.cat((-x2,x1),dim-1)# 7. 应用实数域旋转公式: (x * cos) (rotated_x * sin)x_rotated(x*cos)(rotated*sin)returnx_rotated.to(dtypex.dtype)这就是 RoPE 的核心奥秘通过巧妙的旋转数学设计让大模型在无需额外训练参数的情况下完美掌握了序列的相对位置关系。