旋转位置编码的几何本质：从复数到旋转矩阵

位置编码是 Transformer 架构中一个看似简单却深刻的设计问题。自注意力机制本身是位置无关的——它对输入序列的排列不变，这意味着同一个句子打乱词序后，自注意力的计算逻辑完全不变。然而语言的本质是序列性的，“猫吃鱼"和"鱼吃猫"含义截然不同。位置编码的使命，就是将序的结构注入一个天生无视顺序的机制中。

在众多位置编码方案中，Rotary Position Embedding（RoPE）独树一帜：它用绝对位置的方式编码，却在注意力分数中自动实现了相对位置的效果。这种"用绝对编码实现相对位置"的优雅性质，源自复数乘法的一个古老几何事实——乘以 $e^{i\theta}$ 就是旋转。

绝对与相对：位置编码的核心矛盾

位置编码方案大致分为两族。绝对位置编码为每个位置 $m$ 指定一个向量 $\mathbf{p}_m$ ，将其加到 token 嵌入上：

\tilde{\mathbf{x}}_m = \mathbf{x}_m + \mathbf{p}_m

原始 Transformer 的 Sinusoidal 编码和 BERT 的可学习位置编码都属于此类。绝对编码简单直接，但有一个根本缺陷：注意力分数 $\mathbf{q}_m^T \mathbf{k}_n$ 展开后为 $(\mathbf{x}_m + \mathbf{p}_m)^T(\mathbf{x}_n + \mathbf{p}_n)$ ，位置信息以 $\mathbf{p}_m^T \mathbf{x}_n + \mathbf{x}_m^T \mathbf{p}_n + \mathbf{p}_m^T \mathbf{p}_n$ 的形式混入，没有任何一项只依赖 $m - n$ 。模型必须通过学习来间接捕捉相对位置关系。

相对位置编码则直接让注意力分数依赖位置差：

\text{Attn}(m, n) = f(\mathbf{q}_m, \mathbf{k}_n, m - n)

T5 的偏置项、Transformer-XL 的缓存机制都是相对编码的代表。它们在原理上更优雅，但在工程实现上往往更复杂，尤其是需要修改注意力计算的内核。

RoPE 提供了一个出人意料的第三条路：用绝对位置的方式对 Query 和 Key 分别施加变换，使得它们的内积自然只依赖相对位置。不需要修改注意力公式，不需要额外的偏置项——只需要让向量"旋转"起来。

复数乘法即旋转

一切的起点是 Euler 公式：

e^{i\theta} = \cos\theta + i\sin\theta

在复平面上， $e^{i\theta}$ 是单位圆上的一个点。将任意复数 $z = re^{i\phi}$ 乘以 $e^{i\theta}$ ，得到：

z \cdot e^{i\theta} = re^{i(\phi + \theta)}

效果是将 $z$ 绕原点旋转角度 $\theta$ ，模长不变。这就是"复数乘法 = 旋转"的几何意义。

现在考虑二维嵌入的情况。将 token 在位置 $m$ 的 Query 向量 $\mathbf{q} = (q_1, q_2)$ 视为复数 $q = q_1 + iq_2$ ，对其施加旋转 $e^{im\theta}$ ：

q_m = (q_1 + iq_2) \cdot e^{im\theta} = (q_1 \cos m\theta - q_2 \sin m\theta) + i(q_1 \sin m\theta + q_2 \cos m\theta)

对位置 $n$ 的 Key 向量 $\mathbf{k} = (k_1, k_2)$ 施加同样的旋转：

k_n = (k_1 + ik_2) \cdot e^{in\theta}

两者的内积（在复数语境下取实部）为：

\text{Re}[q_m \cdot \overline{k_n}] = \text{Re}\left[(q_1 + iq_2)e^{im\theta} \cdot \overline{(k_1 + ik_2)e^{in\theta}}\right]

利用 $\overline{e^{in\theta}} = e^{-in\theta}$ ，上式简化为：

\text{Re}\left[(q_1 + iq_2)(k_1 - ik_2) \cdot e^{i(m-n)\theta}\right]

关键观察：内积中与位置相关的部分只剩 $e^{i(m-n)\theta}$ ，它仅依赖于相对位置 $m - n$ 。这正是 RoPE 的核心性质。

复平面旋转与相对位置内积

Loading visualization...

左：复平面上 q（蓝色）与 k（红色）随位置旋转；右：内积随相对位置 m−n 的衰减曲线

// ========================================
// RoPE 复平面旋转 + 内积衰减可视化
// ========================================

const W = container.clientWidth;
const H = container.clientHeight;

const leftW = Math.floor(W * 0.52);
const rightW = W - leftW - 20;

// 主题色
const cs = getComputedStyle(document.documentElement);
const colors = {
  accent: cs.getPropertyValue('--viz-accent').trim() || '#3b82f6',
  text: cs.getPropertyValue('--viz-text').trim() || '#1f2937',
  muted: cs.getPropertyValue('--viz-text-muted').trim() || '#6b7280',
  grid: cs.getPropertyValue('--viz-grid').trim() || '#e5e7eb',
  red: '#ef4444',
  blue: '#3b82f6',
};

// RoPE 参数
const theta = 1.0; // 第一维度对 θ_0 = 1（简化演示）
const maxPos = 128;

// --- 控制面板 ---
const controls = d3.select(container).append('div').attr('class', 'd3-viz-controls');

controls.append('label').text('位置 m (Query):');
const mSlider = controls.append('input')
  .attr('type', 'range').attr('min', 0).attr('max', maxPos).attr('value', 32).attr('step', 1);
const mValue = controls.append('span').attr('class', 'd3-viz-value').text('32');

controls.append('label').text('位置 n (Key):');
const nSlider = controls.append('input')
  .attr('type', 'range').attr('min', 0).attr('max', maxPos).attr('value', 48).attr('step', 1);
const nValue = controls.append('span').attr('class', 'd3-viz-value').text('48');

const innerProductDisplay = controls.append('span')
  .style('font-weight', '600')
  .style('color', colors.accent)
  .style('margin-left', '10px');

controls.append('div').attr('class', 'd3-viz-hint')
  .text('拖动滑块改变位置 m 和 n，观察内积仅依赖相对位置 m−n');

// --- 左侧：复平面 ---
const svgLeft = d3.select(container).append('svg')
  .attr('width', leftW).attr('height', H - 55)
  .style('display', 'inline-block');

const cx = leftW / 2;
const cy = (H - 55) / 2;
const R = Math.min(leftW, H - 55) * 0.32;

const gLeft = svgLeft.append('g').attr('transform', `translate(${cx},${cy})`);

// 坐标轴
gLeft.append('line').attr('x1', -R-20).attr('x2', R+20).attr('y1',0).attr('y2',0)
  .attr('stroke', colors.grid).attr('stroke-width', 0.8);
gLeft.append('line').attr('x1',0).attr('x2',0).attr('y1', -R-20).attr('y2', R+20)
  .attr('stroke', colors.grid).attr('stroke-width', 0.8);
gLeft.append('text').attr('x', R+25).attr('y',4).text('Re').attr('fill', colors.muted).attr('font-size','0.7em');
gLeft.append('text').attr('x',4).attr('y',-R-10).text('Im').attr('fill', colors.muted).attr('font-size','0.7em');

// 单位圆
gLeft.append('circle').attr('r', R).attr('fill','none')
  .attr('stroke', colors.grid).attr('stroke-dasharray','4,4').attr('stroke-width',1);

// q 向量（蓝色）
const qVector = gLeft.append('line').attr('stroke', colors.blue).attr('stroke-width', 2.5).attr('stroke-linecap','round');
const qDot = gLeft.append('circle').attr('r', 5).attr('fill', colors.blue);
const qArc = gLeft.append('path').attr('fill','rgba(59,130,246,0.1)').attr('stroke', colors.blue).attr('stroke-width',1.5);

// k 向量（红色）
const kVector = gLeft.append('line').attr('stroke', colors.red).attr('stroke-width', 2.5).attr('stroke-linecap','round');
const kDot = gLeft.append('circle').attr('r', 5).attr('fill', colors.red);
const kArc = gLeft.append('path').attr('fill','rgba(239,68,68,0.1)').attr('stroke', colors.red).attr('stroke-width',1.5);

// 角度标注
const mAngleLabel = gLeft.append('text').attr('text-anchor','middle').attr('fill', colors.blue).attr('font-size','0.75em').attr('font-weight','600');
const nAngleLabel = gLeft.append('text').attr('text-anchor','middle').attr('fill', colors.red).attr('font-size','0.75em').attr('font-weight','600');

// 内积角度弧（绿色）
const relArc = gLeft.append('path').attr('fill','rgba(16,185,129,0.15)').attr('stroke','#10b981').attr('stroke-width',2);

// --- 右侧：内积衰减曲线 ---
const svgRight = d3.select(container).append('svg')
  .attr('width', rightW).attr('height', H - 55)
  .style('display', 'inline-block')
  .style('position','absolute')
  .style('right','10px')
  .style('top','55px');

const xScale = d3.scaleLinear().domain([-64, 64]).range([0, rW]);
const yScale = d3.scaleLinear().domain([-1.1, 1.1]).range([rH, 0]);

// 坐标轴
gRight.append('g').attr('transform',`translate(0,${rH})`)
  .call(d3.axisBottom(xScale).ticks(6))
  .selectAll('text').attr('fill', colors.muted).attr('font-size','0.65em');
gRight.selectAll('.domain,.tick line').attr('stroke', colors.grid);

gRight.append('g')
  .call(d3.axisLeft(yScale).ticks(5, '.1f'))
  .selectAll('text').attr('fill', colors.muted).attr('font-size','0.65em');

gRight.append('text').attr('transform','rotate(-90)').attr('y',-35).attr('x',-rH/2)
  .attr('text-anchor','middle').attr('fill', colors.muted).attr('font-size','0.7em').text('内积值');
gRight.append('text').attr('x', rW/2).attr('y', rH+30)
  .attr('text-anchor','middle').attr('fill', colors.muted).attr('font-size','0.7em').text('相对位置 m−n');

// 零线
gRight.append('line').attr('x1',0).attr('x2',rW).attr('y1',yScale(0)).attr('y2',yScale(0))
  .attr('stroke', colors.grid).attr('stroke-dasharray','4,4').attr('stroke-width',0.5);

// 内积曲线（假设 q 和 k 为单位向量，内积 = cos((m-n)*theta)）
const innerProductLine = gRight.append('path').attr('fill','none')
  .attr('stroke', '#10b981').attr('stroke-width', 2);
const currentDot = gRight.append('circle').attr('r', 5).attr('fill', '#10b981');

// --- 更新函数 ---
function update(m, n) {
  const mAngle = m * theta;
  const nAngle = n * theta;
  const relAngle = (m - n) * theta;

// 归一化到 [0, 2π)
  const mNorm = ((mAngle % (2*Math.PI)) + 2*Math.PI) % (2*Math.PI);
  const nNorm = ((nAngle % (2*Math.PI)) + 2*Math.PI) % (2*Math.PI);

// q 向量
  const qx = R * Math.cos(mNorm);
  const qy = -R * Math.sin(mNorm); // SVG y 轴向下
  qVector.attr('x1',0).attr('y1',0).attr('x2',qx).attr('y2',qy);
  qDot.attr('cx',qx).attr('cy',qy);

// q 弧
  if (mNorm > 0.01) {
    const arcGen = d3.arc().innerRadius(0).outerRadius(R*0.2).startAngle(0).endAngle(-mNorm);
    qArc.attr('d', arcGen());
  } else { qArc.attr('d',''); }

mAngleLabel.attr('x', R*0.3*Math.cos(-mNorm/2)).attr('y', R*0.3*Math.sin(-mNorm/2))
    .text('mθ=' + mNorm.toFixed(1));

// k 向量
  const kx = R * Math.cos(nNorm);
  const ky = -R * Math.sin(nNorm);
  kVector.attr('x1',0).attr('y1',0).attr('x2',kx).attr('y2',ky);
  kDot.attr('cx',kx).attr('cy',ky);

// k 弧
  if (nNorm > 0.01) {
    const arcGen = d3.arc().innerRadius(0).outerRadius(R*0.18).startAngle(0).endAngle(-nNorm);
    kArc.attr('d', arcGen());
  } else { kArc.attr('d',''); }

nAngleLabel.attr('x', R*0.28*Math.cos(-nNorm/2)).attr('y', R*0.28*Math.sin(-nNorm/2))
    .text('nθ=' + nNorm.toFixed(1));

// 相对位置弧
  const relNorm = ((relAngle % (2*Math.PI)) + 2*Math.PI) % (2*Math.PI);
  if (relNorm > 0.05) {
    const arcGen = d3.arc().innerRadius(0).outerRadius(R*0.35)
      .startAngle(-mNorm).endAngle(-nNorm);
    relArc.attr('d', arcGen());
  } else { relArc.attr('d',''); }

// 内积 = cos((m-n)*theta)（假设单位向量）
  const innerProd = Math.cos(relAngle);
  innerProductDisplay.text(`内积 = ${innerProd.toFixed(3)} (m−n=${m-n})`);

// 右侧内积曲线
  const curveData = d3.range(-64, 65).map(delta => ({
    x: delta,
    y: Math.cos(delta * theta)
  }));
  const lineGen = d3.line().x(d => xScale(d.x)).y(d => yScale(d.y));
  innerProductLine.attr('d', lineGen(curveData));

// 当前点
  const dotDelta = m - n;
  if (dotDelta >= -64 && dotDelta <= 64) {
    currentDot.attr('cx', xScale(dotDelta)).attr('cy', yScale(innerProd)).attr('opacity', 1);
  } else {
    currentDot.attr('opacity', 0);
  }

mValue.text(m);
  nValue.text(n);
}

update(32, 48);

mSlider.on('input', function() { update(+this.value, +nSlider.node().value); });
nSlider.on('input', function() { update(+mSlider.node().value, +this.value); });

从可视化中可以直观看到：无论绝对位置 $m$ 和 $n$ 如何变化，只要 $m - n$ 固定，内积值就固定——这正是"用绝对编码实现相对位置"的含义。

从复数到矩阵：二维旋转的代数形式

将复数乘法 $z \cdot e^{i\theta}$ 写成矩阵-向量乘法的形式。设 $z = x + iy$ ，则：

z \cdot e^{i\theta} = (x + iy)(\cos\theta + i\sin\theta) = (x\cos\theta - y\sin\theta) + i(x\sin\theta + y\cos\theta)

对应矩阵乘法：

\begin{pmatrix} x\cos\theta - y\sin\theta \\ x\sin\theta + y\cos\theta \end{pmatrix} = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix}

这就是二维旋转矩阵 $\mathbf{R}(\theta)$ 。对位置 $m$ 的 Query 向量施加旋转角度 $m\theta$ ：

\mathbf{R}(m\theta)\mathbf{q} = \begin{pmatrix} \cos m\theta & -\sin m\theta \\ \sin m\theta & \cos m\theta \end{pmatrix} \begin{pmatrix} q_1 \\ q_2 \end{pmatrix}

旋转矩阵有一个关键性质： $\mathbf{R}(\alpha)^T \mathbf{R}(\beta) = \mathbf{R}(\beta - \alpha)$ 。这可以验证：

\mathbf{R}(m\theta)^T \mathbf{R}(n\theta) = \mathbf{R}((n-m)\theta)

因此：

(\mathbf{R}(m\theta)\mathbf{q})^T (\mathbf{R}(n\theta)\mathbf{k}) = \mathbf{q}^T \mathbf{R}(m\theta)^T \mathbf{R}(n\theta) \mathbf{k} = \mathbf{q}^T \mathbf{R}((n-m)\theta) \mathbf{k}

内积只依赖相对位置 $n - m$ 。这个二维的优美结果，自然引出一个问题：如何推广到高维？

高维推广：分块对角旋转矩阵

Transformer 的隐藏维度 $d$ 通常是 64 的倍数（如 4096），远大于 2。RoPE 的推广方式是：将 $d$ 维向量分成 $d/2$ 个二维子空间，在每个子空间上独立施加不同频率的旋转。

具体地，将 $\mathbf{q} \in \mathbb{R}^d$ 分成 $d/2$ 对：

\mathbf{q} = (q_1, q_2, q_3, q_4, \ldots, q_{d-1}, q_d)

对第 $i$ 对 $(q_{2i-1}, q_{2i})$ 施加旋转角度 $m\theta_i$ ，其中频率参数：

\theta_i = 10000^{-2i/d}, \quad i = 1, 2, \ldots, d/2

整体写成矩阵形式，得到分块对角旋转矩阵：

\mathbf{R}(\Theta, m) = \begin{pmatrix} \cos m\theta_1 & -\sin m\theta_1 & & & & \\ \sin m\theta_1 & \cos m\theta_1 & & & & \\ & & \cos m\theta_2 & -\sin m\theta_2 & & \\ & & \sin m\theta_2 & \cos m\theta_2 & & \\ & & & & \ddots & \\ & & & & & \cos m\theta_{d/2} & -\sin m\theta_{d/2} \\ & & & & & \sin m\theta_{d/2} & \cos m\theta_{d/2} \end{pmatrix}

由于分块对角结构，各个二维子空间的旋转相互独立，内积仍然是各子空间旋转内积之和：

\mathbf{q}^T \mathbf{R}(\Theta, m)^T \mathbf{R}(\Theta, n) \mathbf{k} = \mathbf{q}^T \mathbf{R}(\Theta, n-m) \mathbf{k} = \sum_{i=1}^{d/2} \left[(q_{2i-1}, q_{2i}) \mathbf{R}((n-m)\theta_i) \begin{pmatrix} k_{2i-1} \\ k_{2i} \end{pmatrix}\right]

相对位置性质在高维下依然成立。

频率 $\theta_i = 10000^{-2i/d}$ 的选择使得低维对（ $i$ 小）旋转快、高维对（ $i$ 大）旋转慢。这创造了一种多分辨率的编码：低频分量捕捉长距离的粗粒度位置关系，高频分量捕捉短距离的细粒度位置关系。

高维旋转矩阵的分块结构与频率分布

Loading visualization...

8 维旋转矩阵的分块对角结构，不同颜色表示不同频率的旋转块；滑块控制位置 m

// ========================================
// RoPE 高维旋转矩阵分块结构可视化
// ========================================

const W = container.clientWidth;
const H = container.clientHeight;

const cs = getComputedStyle(document.documentElement);
const colors = {
  accent: cs.getPropertyValue('--viz-accent').trim() || '#3b82f6',
  text: cs.getPropertyValue('--viz-text').trim() || '#1f2937',
  muted: cs.getPropertyValue('--viz-text-muted').trim() || '#6b7280',
  grid: cs.getPropertyValue('--viz-grid').trim() || '#e5e7eb',
};

// 8 维 = 4 个 2x2 块
const dimPairs = 4;
const blockColors = ['#3b82f6', '#ef4444', '#10b981', '#f59e0b'];
const base = 10000;
const d = 8; // 维度

// 计算频率
const thetas = [];
for (let i = 0; i < dimPairs; i++) {
  thetas.push(Math.pow(base, -2 * (i + 1) / d));
}

// --- 控制面板 ---
const controls = d3.select(container).append('div').attr('class', 'd3-viz-controls');
controls.append('label').text('位置 m:');
const mSlider = controls.append('input')
  .attr('type', 'range').attr('min', 0).attr('max', 256).attr('value', 0).attr('step', 1);
const mValue = controls.append('span').attr('class', 'd3-viz-value').text('0');
controls.append('div').attr('class', 'd3-viz-hint').text('拖动滑块改变位置 m，观察各块的旋转角度和矩阵值变化');

// --- 左侧：8x8 矩阵热力图 ---
const leftW = Math.floor(W * 0.42);
const rightW = W - leftW - 30;

const svgLeft = d3.select(container).append('svg')
  .attr('width', leftW).attr('height', H - 55);

const cellSize = Math.min((leftW - 60) / 8, (H - 95) / 8);
const matrixG = svgLeft.append('g')
  .attr('transform', `translate(40, 20)`);

// 矩阵单元格
const cells = [];
for (let r = 0; r < d; r++) {
  cells[r] = [];
  for (let c = 0; c < d; c++) {
    const blockIdx = Math.floor(r / 2);
    const isInBlock = (Math.floor(r / 2) === Math.floor(c / 2)) && (r % 2 === 0 ? c % 2 === 0 || c % 2 === 1 : true) &&
                      ((Math.floor(r/2) === Math.floor(c/2)));
    const isDiagBlock = Math.floor(r / 2) === Math.floor(c / 2);

cells[r][c] = matrixG.append('rect')
      .attr('x', c * cellSize).attr('y', r * cellSize)
      .attr('width', cellSize - 1).attr('height', cellSize - 1)
      .attr('rx', 2)
      .attr('fill', isDiagBlock ? 'rgba(200,200,200,0.3)' : '#f5f5f5')
      .attr('stroke', isDiagBlock ? blockColors[Math.floor(r/2)] : 'none')
      .attr('stroke-width', isDiagBlock ? 1.5 : 0);
  }
}

// 矩阵值标注
const cellTexts = [];
for (let r = 0; r < d; r++) {
  cellTexts[r] = [];
  for (let c = 0; c < d; c++) {
    cellTexts[r][c] = matrixG.append('text')
      .attr('x', c * cellSize + cellSize / 2)
      .attr('y', r * cellSize + cellSize / 2 + 4)
      .attr('text-anchor', 'middle')
      .attr('font-size', '0.55em')
      .attr('fill', colors.text)
      .attr('opacity', Math.floor(r/2) === Math.floor(c/2) ? 1 : 0.3);
  }
}

// 行/列标签
for (let i = 0; i < d; i++) {
  matrixG.append('text')
    .attr('x', -5).attr('y', i * cellSize + cellSize / 2 + 4)
    .attr('text-anchor', 'end').attr('font-size', '0.6em').attr('fill', colors.muted)
    .text(i + 1);
  matrixG.append('text')
    .attr('x', i * cellSize + cellSize / 2).attr('y', -5)
    .attr('text-anchor', 'middle').attr('font-size', '0.6em').attr('fill', colors.muted)
    .text(i + 1);
}

// --- 右侧：各块的旋转角度 ---
const svgRight = d3.select(container).append('svg')
  .attr('width', rightW).attr('height', H - 55)
  .style('display', 'inline-block')
  .style('position', 'absolute')
  .style('right', '10px')
  .style('top', '55px');

// 绘制 4 个小复平面
const miniR = Math.min(rW2 / 4, rH2 * 0.35);

for (let i = 0; i < dimPairs; i++) {
  const offsetX = rM.left + (i * rW2 / 4) + rW2 / 8;
  const offsetY = rM.top + miniR + 15;
  const g = svgRight.append('g').attr('transform', `translate(${offsetX},${offsetY})`);

// 单位圆
  g.append('circle').attr('r', miniR).attr('fill','none')
    .attr('stroke', colors.grid).attr('stroke-dasharray','3,3');

// 轴
  g.append('line').attr('x1',-miniR-5).attr('x2',miniR+5).attr('y1',0).attr('y2',0)
    .attr('stroke', colors.grid).attr('stroke-width',0.5);
  g.append('line').attr('x1',0).attr('x2',0).attr('y1',-miniR-5).attr('y2',miniR+5)
    .attr('stroke', colors.grid).attr('stroke-width',0.5);

// 向量
  const vec = g.append('line').attr('stroke', blockColors[i]).attr('stroke-width', 2.5).attr('stroke-linecap','round');
  const dot2 = g.append('circle').attr('r', 3.5).attr('fill', blockColors[i]);

// 标签
  g.append('text').attr('x', 0).attr('y', miniR + 18)
    .attr('text-anchor','middle').attr('font-size','0.65em').attr('fill', blockColors[i])
    .attr('font-weight','600')
    .text(`块 ${i+1}: θ=${thetas[i].toFixed(3)}`);

// 存储引用
  g.datum({vec, dot2, idx: i});
}

// 下方：角度条形图
const barG = svgRight.append('g')
  .attr('transform', `translate(${rM.left}, ${rM.top + miniR * 2 + 60})`);

const barH = rH2 - miniR * 2 - 70;
const barScale = d3.scaleLinear().domain([0, 2 * Math.PI]).range([0, barH]);

// 角度参考线
const refAngles = [0, Math.PI / 2, Math.PI, 3 * Math.PI / 2, 2 * Math.PI];
const refLabels = ['0', 'π/2', 'π', '3π/2', '2π'];
refAngles.forEach((a, idx) => {
  barG.append('line')
    .attr('x1', 0).attr('x2', dimPairs * 40 + 10)
    .attr('y1', barScale(a % (2*Math.PI))).attr('y2', barScale(a % (2*Math.PI)))
    .attr('stroke', colors.grid).attr('stroke-dasharray','2,3').attr('stroke-width',0.5);
  barG.append('text')
    .attr('x', dimPairs * 40 + 15).attr('y', barScale(a % (2*Math.PI)) + 3)
    .attr('font-size','0.55em').attr('fill', colors.muted).text(refLabels[idx]);
});

// --- 更新函数 ---
function update(m) {
  // 更新矩阵
  for (let r = 0; r < d; r++) {
    for (let c = 0; c < d; c++) {
      const bi = Math.floor(r / 2);
      const isDiagBlock = bi === Math.floor(c / 2);
      let val = 0;
      if (isDiagBlock) {
        const angle = m * thetas[bi];
        if (r === c && r % 2 === 0) val = Math.cos(angle); // cos
        else if (r === c && r % 2 === 1) val = Math.cos(angle); // cos (对角)
        else if (r % 2 === 0 && c % 2 === 1) val = -Math.sin(angle); // -sin
        else if (r % 2 === 1 && c % 2 === 0) val = Math.sin(angle); // sin
      }
      const opacity = isDiagBlock ? 0.15 + 0.85 * Math.abs(val) : 0.05;
      const hue = isDiagBlock ? blockColors[bi] : '#f5f5f5';
      cells[r][c].attr('fill', isDiagBlock ? hue : '#f5f5f5').attr('opacity', isDiagBlock ? opacity : 1);
      if (isDiagBlock) {
        const label = val === 0 ? '0' : (val > 0 ? '' : '') + val.toFixed(2);
        cellTexts[r][c].text(label);
      } else {
        cellTexts[r][c].text('0');
      }
    }
  }

// 更新小复平面
  svgRight.selectAll('g').each(function(d) {
    if (!d || d.idx === undefined) return;
    const angle = m * thetas[d.idx];
    const normAngle = ((angle % (2*Math.PI)) + 2*Math.PI) % (2*Math.PI);
    const ex = miniR * Math.cos(normAngle);
    const ey = -miniR * Math.sin(normAngle);
    d.vec.attr('x1',0).attr('y1',0).attr('x2',ex).attr('y2',ey);
    d.dot.attr('cx',ex).attr('cy',ey);
  });

// 更新条形图
  for (let i = 0; i < dimPairs; i++) {
    const angle = m * thetas[i];
    const normAngle = ((angle % (2*Math.PI)) + 2*Math.PI) % (2*Math.PI);
    bars[i].attr('y', 0).attr('height', Math.max(2, barScale(normAngle)));
  }

mValue.text(m);
}

update(0);
mSlider.on('input', function() { update(+this.value); });

从可视化中可以清晰看到分块对角结构的两个关键特征。第一，每个 $2 \times 2$ 旋转块独立运作，块与块之间没有耦合，这保证了内积的可分解性。第二，不同块的旋转频率差异巨大—— $\theta_1 = 10000^{-2/8} \approx 0.0316$ ，而 $\theta_4 = 10000^{-8/8} = 0.0001$ ，前者在位置 $m \approx 200$ 处就完成一个完整旋转，后者需要 $m \approx 60000$ 。这种对数间距的频率分布，使得不同尺度的位置信息都能被有效编码。

RoPE 与 Sinusoidal 的关系

原始 Transformer 的 Sinusoidal 位置编码定义为：

\text{PE}(m, 2i) = \sin(m \cdot 10000^{-2i/d}), \quad \text{PE}(m, 2i+1) = \cos(m \cdot 10000^{-2i/d})

这与 RoPE 的旋转角度 $\theta_i = 10000^{-2i/d}$ 完全一致。事实上，如果将 Sinusoidal 编码的 $(\sin m\theta_i, \cos m\theta_i)$ 视为单位圆上的一个点，那么 RoPE 的旋转操作就是在复数乘法层面利用了同一组频率。

两者的区别在于作用方式。Sinusoidal 将位置向量加到嵌入上，是一种加性编码；RoPE 将位置信息乘到嵌入上，是一种乘性编码。加性编码无法保证内积只依赖相对位置，因为加法的结构不够"刚性”。而旋转操作保持了向量长度，且旋转的复合是可交换的群运算，这使得 $\mathbf{R}(m\theta)^T \mathbf{R}(n\theta) = \mathbf{R}((n-m)\theta)$ 的性质在高维下自然成立。

从这个角度看，RoPE 是 Sinusoidal 的推广：它继承了 Sinusoidal 的频率选择，但将作用方式从加法升级为乘法（旋转），从而获得了相对位置不变性这一关键性质。

完备性分析：为什么 RoPE 只能是这个形式

前面的推导展示了分块对角旋转矩阵如何实现"内积只依赖相对位置"这一性质。一个自然的问题是：这是唯一的构造方式吗？是否存在其他形式的编码也能满足同样的性质？

苏剑林在《旋转位置编码的完备性分析》中给出了严格的回答：在一定条件下，RoPE 的分块对角旋转矩阵形式是唯一满足"内积只依赖相对位置"要求的编码方式。

这个结论的证明思路如下。设位置 $m$ 处的变换为 $\boldsymbol{\phi}(m, \mathbf{x})$ ，要求内积 $\boldsymbol{\phi}(m, \mathbf{q})^T \boldsymbol{\phi}(n, \mathbf{k})$ 只依赖 $m - n$ （和 $\mathbf{q}, \mathbf{k}$ ）。这意味着存在函数 $g$ 使得：

\boldsymbol{\phi}(m, \mathbf{q})^T \boldsymbol{\phi}(n, \mathbf{k}) = g(m - n, \mathbf{q}, \mathbf{k})

对 $\mathbf{q}$ 和 $\mathbf{k}$ 的线性性约束（变换必须是线性的，否则无法在注意力框架中高效计算）将 $\boldsymbol{\phi}(m, \cdot)$ 限定为线性变换，即 $\boldsymbol{\phi}(m, \mathbf{x}) = \mathbf{M}(m) \mathbf{x}$ 。内积条件变为：

\mathbf{q}^T \mathbf{M}(m)^T \mathbf{M}(n) \mathbf{k} = g(m - n, \mathbf{q}, \mathbf{k})

这意味着 $\mathbf{M}(m)^T \mathbf{M}(n)$ 只依赖 $m - n$ 。满足这个条件的矩阵族 $\{\mathbf{M}(m)\}$ 在适当正则性条件下只能是分块对角的正交矩阵——即 RoPE 的形式。更具体地，对 Self-Attention 而言，分块对角 RoPE 不损失一般性，因为任何更一般的编码形式都可以通过相似变换吸收到线性层参数 $W_Q, W_K$ 中，等价于分块对角 RoPE。

但这个完备性结论对 Linear Attention 并不成立。在 Linear Attention 中，注意力计算为 $\phi(\mathbf{q}_m)^T \phi(\mathbf{k}_n)$ （其中 $\phi$ 是特征映射），相似变换无法像 Self-Attention 那样自由吸收。这意味着对 Linear Attention，可能存在比 RoPE 更好的位置编码方案。反过来看，RoPE 是目前唯一一种可用于线性 Attention 的相对位置编码——T5 偏置等方案需要完整的 softmax 注意力矩阵，无法在线性 Attention 框架中使用。这是 RoPE 区别于其他相对位置编码方案的重要优势。

这个完备性分析回答了一个深层问题：RoPE 的分块对角旋转矩阵形式是"几乎唯一的解"，而非"巧妙的构造"。在"线性变换 + 内积只依赖相对位置"的双重约束下，旋转几乎是唯一的出路。

远程衰减：RoPE 的局域性

完备性分析确立了 RoPE 形式的唯一性，而 RoPE 的另一个重要性质——远程衰减——解释了它在实践中为何有效。

苏剑林通过 Abel 变换（分部求和）严格证明了：RoPE 的注意力内积随相对距离 $|m - n|$ 增大而衰减。其证明的核心步骤是：将内积 $\sum_{i=1}^{d/2} (q_{2i-1}k_{2i-1} + q_{2i}k_{2i}) \cos((m-n)\theta_i) + (q_{2i-1}k_{2i} - q_{2i}k_{2i-1}) \sin((m-n)\theta_i)$ 重写为 Abel 求和形式，利用频率 $\theta_i$ 的几何级数结构和系数的递减性质，证明当 $|m - n| \to \infty$ 时内积趋向于零。

远程衰减的直觉是清晰的：RoPE 的多个频率分量以不同速率旋转，当相对距离增大时，不同频率的旋转角度越来越不同步，正负贡献相互抵消，内积趋向零。高频分量最先失同步，低频分量最后——这与多分辨率编码的设计一致：近处信息由所有频率共同贡献，远处信息主要由低频分量决定，而低频分量本身变化缓慢，对远处位置的区分力有限。

远程衰减性质解释了 RoPE 的局域性：注意力自然集中在邻近位置，这与语言中局部依赖强于远距离依赖的经验观察一致。更重要的是，它为后续长度外推方法的动机提供了基础——正因为 RoPE 具有局域性，超出训练长度时注意力的急剧恶化才成为问题，而各种外推策略其实都是在试图恢复这种局域性。

工程实践：主流 LLM 的选择

RoPE 自 2021 年由苏剑林提出以来，已经成为主流大语言模型的事实标准位置编码方案：

LLaMA 系列（Meta）：从 LLaMA 1 到 LLaMA 3 均采用 RoPE，是 RoPE 大规模应用的开创者
Qwen 系列（阿里）：Qwen2.5 和 Qwen3 均使用 RoPE，并通过 NTK-aware 缩放支持超长上下文
Mistral 系列：Mistral 7B 和 Mixtral 8x7B 均使用 RoPE
DeepSeek 系列：DeepSeek-V2/V3 使用 RoPE，并在 MLA 架构中设计了专门的解耦 RoPE 机制

RoPE 之所以成为主流选择，核心原因在于它在三个维度上同时达到了优秀：

表达力：多分辨率频率编码使得模型能同时捕捉局部和全局的位置关系
效率：旋转操作可以在注意力计算中通过 element-wise 乘法高效实现，无需额外的矩阵乘法
外推性：虽然 RoPE 本身的外推能力有限，但基于 RoPE 的长度外推方法（如 NTK-aware 缩放、YaRN）已经成为长上下文扩展的标准工具

RoPE 的实现还有一个工程细节：标准的 RoPE 将向量按相邻元素配对（ $(q_1, q_2), (q_3, q_4), \ldots$ ），而 LLaMA 的实现采用了间隔配对（ $(q_1, q_{d/2+1}), (q_2, q_{d/2+2}), \ldots$ ）。两种配对方式在数学上等价（只需调整旋转矩阵的排列），但间隔配对在某些硬件上更友好。

小结

RoPE 的优雅在于它将位置编码问题转化为一个几何问题：复平面上的旋转。旋转的核心性质——旋转的复合等价于角度的加法——使得绝对位置的旋转在注意力内积中自然约化为相对位置。从复数到分块对角旋转矩阵的推广保持了这一性质，而对数间距的频率分布则为模型提供了多分辨率的位置感知能力。

这种"用绝对编码实现相对位置"的设计哲学，是 RoPE 区别于所有其他位置编码方案的根本特征。而完备性分析进一步揭示，这并非偶然——在"线性变换 + 内积只依赖相对位置"的约束下，旋转几乎是唯一的出路。远程衰减性质则赋予了 RoPE 天然的局域性，使注意力自然聚焦于邻近位置，这也为后续的长度外推问题埋下了伏笔。理解了这些，就能理解后续关于长度外推、解耦 RoPE 等所有技术发展的内在逻辑。

参考文献

Su, J. (2021). Transformer升级之路：博采众长的旋转式位置编码. https://kexue.fm/archives/8265
Su, J. (2023). Transformer升级之路：旋转位置编码的完备性分析. https://kexue.fm/archives/9403
Su, J., et al. (2024). RoFormer: Enhanced Transformer with Rotary Position Embedding. NeuroComputing.

绝对与相对：位置编码的核心矛盾#

复数乘法即旋转#

从复数到矩阵：二维旋转的代数形式#

高维推广：分块对角旋转矩阵#

RoPE 与 Sinusoidal 的关系#

完备性分析：为什么 RoPE 只能是这个形式#

远程衰减：RoPE 的局域性#

工程实践：主流 LLM 的选择#

小结#

相关概念#

参考文献#

相关文章