传统的注意力机制需要对 $Q$ 和 $K$ 中的每对元素进行计算以得到注意力评分，在计算时需要得到一个注意力矩阵，这导致其空间开销的增长速度是 $O (T^{2})$ 的。AFT通过，将空间复杂度降低到了 $O (T d)$ ，其中 $d$ 为特征向量长度。并且通过忽略长距离向量间的注意力，AFT还可以将时间复杂度降低到 $O (T s d)$ ，其中 $s$ 为注意力区间的长度，在图像处理中很有用。

AFT

AFT的过程如下：对于输入向量 $X \in R^{T * d}$ ,首先和传统自注意力机制一样，通过三个线性变换得到 $Q$ , $K$ , $V$ 三个量：

$\begin{array}{r} Q = X W^{Q} \\ K = X W^{K} \\ V = X W^{V} \end{array}$

然后，通过下面的公式来生成结果：

$Y = f (X); Y_{t} = σ_{q} (Q_{t}) ⊙ \frac{\sum_{t^{'} = 1}^{T} \exp (K_{t^{'}} + w_{t, t^{'}}) ⊙ V_{t^{'}}}{\sum_{t^{'} = 1}^{T} \exp (K_{t^{'}} + w_{t, t^{'}})}$

其中， $w_{t, t^{'}}$ 是一个可以学习的参数，作用和位置编码类似。
初看这个公式可能很难理解为什么AFT要这样做，我们将其按特征向量的维度展开，使用上标 $i$ 来表示特征向量的第 $i$ 维，那么公式可以写成下面的形式：

$\begin{aligned} Y_{t}^{i} & = ⟨ a_{t}^{i}, V^{i} ⟩ \\ a_{t}^{i} & = \frac{σ_{q} (Q_{t}^{i}) ⊙ \exp (K_{t^{'}}^{i} + w_{t, t^{'}})}{\sum_{t^{'} = 1}^{T} \exp (K_{t^{'}}^{i} + w_{t, t^{'}})} \end{aligned}$

然后 $Y_{t} = Concat (Y_{t}^{1}, Y_{t}^{2}, . . ., Y_{t}^{d})$ 。可以发现上面的式子还可以进一步写成下面的形式：

$\begin{aligned} Y_{t}^{i} & = g (K^{i}, Q_{t}^{i}) V \\ Y_{t} & = Concat (Y_{t}^{1}, Y_{t}^{2}, . . ., Y_{t}^{d}) \end{aligned}$

下面是MHA的公式：

$\begin{aligned} f_{i} (X) & = Score (Q, K) V \\ f (X) & = Concat (f_{1} (X), f_{2} (X), . . ., f_{n} (X)) \end{aligned}$

可以看出AFT实际上类似一个逐特征通道进行的MHA。

AFT的计算复杂度

在公式 $Y_{t}^{i} = g (K^{i}, Q_{t}^{i}) V$ 中，计算一个 $Y_{t}^{i}$ 的时间复杂度为 $O (T^{2})$ ，这是因为计算 $a_{t}^{i}$ 的复杂度是 $O (T)$ ，与 $V^{i}$ 相乘后就是 $O (T^{2})$ 。因此总的时间复杂度就是 $O (T^{2} d)$ 。所以上面的原始AFT相当于Transformer在时间复杂度上没有改进。