今日 Attention 论文：局部注意力的表达力

2026-05-05 · 论文解读 · 用形式语言视角解释局部注意力的价值

论文信息

标题：Characterizing the Expressivity of Local Attention in Transformers
作者：Jiaoda Li、Ryan Cotterell
arXiv：2605.00768v1
提交日期：2026-05-01
分类：cs.CL
链接：https://arxiv.org/abs/2605.00768

为什么选这篇

今天选择这篇，是因为它没有把局部注意力只当作一种工程加速技巧，而是把问题推进到“表达能力”层面。

大模型社区谈 local attention、sliding window attention 时，常见动机是降低长序列推理的显存和计算压力：全局注意力让每个 token 看见所有前文，代价随长度呈二次增长；

局部注意力只看固定窗口，代价更接近线性。

但这篇论文摘要提出一个更有意思的观察：局部限制有时不只是省资源，反而可能改善模型质量，而这种现象此前缺少足够清晰的解释。

本文基于 arXiv metadata 与摘要，不等同于完整复现评审。

它仍是一篇新的 arXiv 预印本，更适合作为 attention 机制演进中的前沿动态来读，而不是当作已经稳定落地的结论。

它试图解决的问题

论文试图回答的问题可以概括为：为什么“看得少”的局部注意力，可能在某些语言建模或序列识别场景中比纯全局注意力更有用？

直觉上，全局注意力似乎更强，因为它允许当前位置直接聚合全部前文信息；

局部注意力则主动丢掉远距离 token，只保留一个有界邻域。

若只从信息可达性看，局部窗口像是削弱模型。

作者选择从识别器表达力的角度重新表述这个问题。

摘要称，固定精度的 Transformer 采用全局注意力时，可以对应到线性时序逻辑中只含单一过去算子的一个片段。

论文进一步讨论：当模型加入局部注意力，相当于引入第二种时序算子，从而扩大可识别正则语言的类别。

也就是说，局部注意力并非简单地从全局注意力中删边，它可能给模型提供另一种时间结构归纳偏置。

方法拆解

从摘要看，论文的核心方法是把 attention 结构和形式语言识别联系起来。

全局注意力负责“任意历史位置可访问”的聚合，局部注意力负责“有限邻域内的相邻历史”聚合。

两者看起来都在处理过去信息，但它们诱导出的逻辑操作不同：前者偏向对全局历史的选择与汇总，后者强调局部时间邻接和窗口内模式。

这带来一个关键结论：全局注意力和局部注意力在表达力上是互补的，论文摘要明确说 neither subsumes the other，也就是二者并非谁完全包含谁。

纯全局模型能表示某些局部模型难以表示的模式；

纯局部模型也能表达某些全局模型不自然的正则语言片段。

把两者组合起来，才得到更丰富的逻辑片段。

这对理解混合注意力结构很有启发。

许多长上下文模型会把少量全局 token、稀疏全局边与滑动窗口结合起来，过去我们常把它解释为资源折中：保留一点长程通信，同时控制窗口开销。

本文则提示另一种解释：混合结构可能不是“弱化版全局注意力”，而是在表达结构上加入了不同类型的时间算子。

实验和证据

摘要提到两类证据。

第一类是形式语言识别实验，用来检验理论上关于可识别正则语言的判断。

形式语言任务的好处是规则明确，能更直接暴露模型是否捕捉到特定序列结构；

缺点是它与真实语料的复杂性仍有距离。

第二类是自然语言建模实验，摘要称 hybrid global--local transformers 相比 global-only counterparts 表现更好，用来支持理论并非只停留在玩具设定中。

需要注意的是，摘要没有给出完整实验配置、模型规模、窗口大小、训练数据、评价指标和显著性细节。

因此目前能稳妥写出的判断是：作者提供了理论论证与实验佐证，方向上支持“局部注意力有独立价值”这一主张；

但具体收益在不同规模、不同上下文长度、不同训练配方下是否稳定，还要看正文和后续复现。

局限和疑点

最大的局限来自信息来源：这里主要依据 metadata 与摘要，无法确认论文正文中定理假设、证明边界和实验细节。

尤其是“固定精度 Transformer”的理论设定，与实际大模型中的浮点精度、层数、归一化、位置编码、KV cache、训练数据规模之间还有距离。

形式语言表达力的增强，也不必然等价于开放域语言建模能力的全面提升。

另一个疑点是局部窗口的选择。

窗口太小可能损失跨段依赖，窗口太大又削弱效率优势；

不同任务对局部与全局信息的比例需求也不同。

论文摘要说二者互补，但工程上如何分配全局层、局部层、全局 token 或稀疏边，仍是单独的问题。

最后，若自然语言实验只覆盖有限规模模型，那么结论迁移到超长上下文 LLM 时还需要谨慎。

和大模型注意力演进的关系

这篇论文适合放在长上下文 attention 设计的背景下看。

过去几年，研究者围绕全局注意力的二次复杂度提出了很多替代方案：滑动窗口、稀疏注意力、线性注意力、分块注意力、检索式注意力以及 KV cache 压缩。

它们往往先从效率出发，再讨论效果是否可接受。

本文的价值在于反向提醒我们：某些“受限注意力”可能不仅是为了省算力，也可能改变模型能自然表达的序列规律。

如果这一视角成立，未来的大模型 attention 设计就不只是把全局注意力近似得更便宜，而是要更系统地组合不同注意力归纳偏置。

全局路径负责长程依赖和稀有远距信息，局部路径负责邻近模式和顺序结构，二者共同构成更细的时间建模能力。

这也解释了为什么许多实用模型会保留局部窗口，即便硬件条件允许更大的上下文。

一句话判断

这篇预印本的亮点在于把局部注意力从“效率技巧”提升为“表达力互补机制”来讨论；

结论有启发性，但仍需结合正文细节和更多大规模复现来判断其工程普适性。

今日 Attention 论文：局部注意力的表达力 ​

论文信息 ​

为什么选这篇 ​

它试图解决的问题 ​

方法拆解 ​

实验和证据 ​

局限和疑点 ​

和大模型注意力演进的关系 ​

一句话判断 ​