位置编码 | 摸鱼日记

纯粹的Attention模块是无法捕捉输入顺序的，因此对于Transformer模型来说，加入位置编码是非常必要的，否则模型无法区分不同位置的token。为此，大体有两个选择：

绝对位置编码
将位置信息融入到输入中
相对位置编码
调整Attention结构，使其能够分辨不同位置的token

绝对位置编码

一般来说，绝对位置编码会加到输入中：在输入的第$k$个向量$x_k$中加入位置向量$p_k$，此时输入由$x_k$变成$x_k+p_k$，其中$p_k$只依赖于位置编号$k$。

训练式

最朴素的绝对位置编码就是直接将位置编码当作可训练参数，比如最大长度为512，编码维度为768，那么就初始化一个$512 \times 768$的矩阵作为位置向量，让它随着训练过程更新。BERT和GPT等模型就是用的这种位置编码。

对于这种训练式的绝对位置编码，一般认为它的缺点是没有外推性，即如果预训练最大长度为512的话，那么最多只能处理长度为512的句子，再长就处理不了了。当然，也可以将超过512的位置向量随机初始化，然后继续微调。

三角函数式

三角函数式位置编码也即Sinusoidal位置编码，也是Attention is All You Need中提出的显式解：

$p_{k, 2i} = sin(k/10000^{2i / d}) \\ p_{k, 2i+1} = cos(k / 10000^{2i / d})$

其中$p_{k,2i}$和$p_{k,2i+1}$分别是位置$k$的编码向量的第$2i$，$2i+1$个分量，$d$是位置向量的维度。

三角函数式位置编码具有显式的生成规律，因此可以期望它具有一定的外推性。此外，由于$sin(\alpha + \beta) = sin(\alpha)cos(\beta) + cos(\alpha)sin(\beta)$和$cos(\alpha + \beta) = cos(\alpha)cos(\beta) - sin(\alpha)sin(\beta)$，这表明位置$\alpha + \beta$的向量可以表示成位置$\alpha$和位置$\beta$的向量组合，这提供了表达相对位置信息的可能性。

递归式

原则上说，RNN不需要位置编码，它在结构上自带了学习到位置信息的可能性。因此，如果在输入后面先接一层RNN，然后再接Transformer，那么理论上就不需要再加位置编码了。

我们可以用RNN模型来学习一种绝对位置编码，比如从一个向量$p_0$出发，通过递归公式$p_{k+1}=f(p_k)$来得到各个位置的编码向量。

相对位置编码

相对位置并没有完整建模每个输入的位置信息，而是在计算Attention时考虑当前位置与被Attention位置的相对距离。由于自然语言一般更依赖于相对位置，所以相对位置编码通常有着优秀的表现。

经典式

Google在论文Self-Attention with Relative Position Representations中首次提出了相对位置编码。

计算$q_ik_j^T$的方式如下：

$q_ik_j^T=(x_i+p_i)W_QW_K^T{(x_j+p_j)}^T=(x_iW_Q+p_iW_Q)(W_K^Tx_j^T+W_K^Tp_j^T)$

为了引入相对位置信息，Google把第一项位置去掉，第二项$p_jW_K$改为二元位置向量$R_{i,j}^{K}$，那么注意力分数$a_{i,j}$变成：

$a_{i,j}=softmax(x_iW_Q(x_jW_K+R_{i,j}^{K})^T)$

此外，将$o_i=\sum_ja_{i,j}v_j=\sum_ja_{i,j}(x_jW_V+p_jW_V)$中的$p_jW_V$换成$R_{i,j}^{V}$：

$o_i = \sum_ja_{i,j}(x_jW_V + R_{i,j}^{V})$

相对位置就是将原本依赖于二元坐标$(i,j)$的向量
$R_{i,j}^K$和$R_{i,j}^V$改为只依赖于相对距离$i-j$，并且通常来说会进行截断以适应不同任意的距离：

$R_{i,j}^{K} = p_K[clip(i-j, p_{min}, p_{max})] \\ R_{i,j}^{V} = p_V[clip(i-j, p_{min}, p_{max})]$

这样只需要有限的位置编码，就可以表达出任意长度的相对位置。

T5式

如果分析每一项的含义，那么可以分别理解为“输入-输入”，“输入-位置”，“位置-输入”和“位置-位置”四项注意力的组合。如果认为输入信息和位置信息是解耦的，那么它们就不应该有过多的交互，所以“输入-位置”和“位置-输入”两项Attention可以删掉。而$p_iW_QW_K^Tp_j^T$实际上只是一个依赖于$(i,j)$的标量，可以直接将它作为参数训练出来，即简化为：

$x_iW_QW_K^Tx_j^T+\beta_{i,j}$

其实它就是在Attention矩阵的基础上添加一个可训练的偏置项。

此外，XLNet和DeBERTa也对位置编码进行了改进，可参考苏剑林的博客。

融合式

苏剑林基于通过绝对位置编码的方式实现相对位置编码这个出发点提出了RoPE，即旋转位置编码，将绝对位置编码和相对位置编码融于一体。RoPE位置编码通过将一个向量旋转某个角度，为其赋予位置信息。

首先，对于两个复数$q$和$k$的内积而言，存在以下公式：

$<q,k> = Re[qk^{*}]$

其中$*$是共轭复数，右端的乘法是普通的复数乘法，$Re[]$表示取结果的实部。也就是说，两个二维向量的内积，等于把它们当成复数看待时，一个复数与另一个复数的共轭的乘积实部。

假设$q_m$和$k_n$是所在位置分别为$m$和$n$的二维行向量，如果给它们分别乘以$e^{im\theta}$和$e^{in\theta}$，那么就相当于给它们添加了绝对位置编码了（因为显式地依赖绝对位置$m$和$n$），然后放到内积中，就有：

$<q_me^{im\theta},k_ne^{in\theta}>=Re[(q_me^{im\theta})(k_ne^{in\theta})^{*}]=Re[q_mk_n^*e^{i(m-n)\theta}]$

也就是说，内积只依赖于相对位置$m-n$，这就巧妙地将绝对位置和相对位置融合在一起了。

根据欧拉公式$e^{ix}=cos(x)+i*sin(x)$，我们可以得到：

$(x+yi)e^{in\theta} = (x*cos(n\theta) - y * sin(n\theta)) + i * (x * sin(n\theta) + y * cos(n \theta))$

也就是说，通过

$\binom{x}{y} -> \binom{x * cos(n\theta) - y * sin(n\theta)}{x * sin(n\theta) + y * cos(n\theta)} = \binom{x}{y} cos(n\theta) + \binom{-y}{x} sin(n\theta)$

赋予$[x,y]$绝对位置信息，那么在Attention运算的时候也等价于相对位置编码。如果是多于二维的向量，那么可以考虑每两维为一组进行同样的运算，每一组的$\theta$可以不一样。这样一来，我们就得到一种融合了绝对位置和相对位置于一体的位置编码方案。

【参考文献】