发布于 7 天前
AI 摘要
本研究提出了AFT(Attention-free Transformer),通过简化注意力机制的设计,有效降低了空间复杂度至O(Td),同时保持模型性能。分析表明AFT可视为逐通道多头注意力的变体,并结合局部注意力机制衍