Skip to content

今日 Attention 论文:SpikingBrain2.0 的稀疏注意力路线

2026-04-27 · 论文解读 · 用稀疏注意力支撑千万级上下文

论文信息

  • 标题:SpikingBrain2.0: Brain-Inspired Foundation Models for Efficient Long-Context and Cross-Platform Inference

  • 作者:Yuqi Pan, Jinghao Zhuang, Yupeng Feng, Fangzhi Zhong, Siyu Ding, Xuerui Qiu, Shaowei Gu, Bohan Sun, Zhiyong Qin, Yibo Zhong, Lingtao Ouyang, Kun Yang, Zehao Liu, Yuhong Chou, Shurong Wang, Anjie Hu, Han Xu, Bo Xu, Guoqi Li

  • arXiv:2604.22575

  • 提交日期:2026-04-24

  • 分类:cs.LG

  • 链接:https://arxiv.org/abs/2604.22575

本文基于 arXiv metadata 与摘要生成,只作为前沿动态,不等同于完整复现评审。

下面所有实验数字都来自论文摘要,未额外推断全文未披露的信息。

为什么选这篇

这篇论文值得放进每日 Attention 论文,是因为它没有把 attention 当作一个泛化组件,而是直接瞄准 full-attention Transformer 在长序列下的计算和推理瓶颈。

摘要开头就把问题说得很清楚:上下文长度正在重塑大模型开发,但全注意力在长序列上会遇到高计算量和推理瓶颈。

论文提出的 SpikingBrain2.0 不是单纯扩大窗口,而是试图用 Dual-Space Sparse Attention 改写长上下文模型里的注意力计算形态。

更具体地说,它同时触及三个当下大模型系统里很现实的问题:第一,长上下文能不能真正跑到百万级甚至千万级;

第二,注意力机制的稀疏化是否会显著损失基础模型能力;

第三,新结构能不能进入现有推理硬件和框架,而不是只停留在理论复杂度优化。

摘要里出现了 4M context、10M tokens、vLLM、A100、FP8、INT8-Spiking 这些关键词,说明它关心的是系统可运行性,而不只是模型结构的局部改造。

它试图解决的问题

SpikingBrain2.0 试图解决的核心问题是:当上下文长度持续扩张时,标准 full-attention Transformer 的代价增长太快,而纯粹依赖更大显存或更强硬件并不是可持续路径。

摘要明确说 full-attention Transformers 在长序列下有 prohibitive computation 和 inference bottlenecks;

这意味着瓶颈不只是训练阶段,也包括实际服务中的首 token 延迟、显存占用和上下文长度上限。

论文选择的切入点不是“把信息检索到外部系统里”,也不是“只在 prompt 层面减少上下文”,而是设计一种 foundation model 架构,使模型在最小训练开销下维持能力和长上下文效率。

这一点很关键:如果一个长上下文架构必须完全从零训练,迁移成本会非常高;

如果转换后能力掉得太多,又很难替代成熟 Transformer。

因此,摘要反复强调的是 performance-efficiency trade-off 和 minimal training overhead。

方法拆解

从摘要看,方法由两部分组成。

第一部分是架构创新:Dual-Space Sparse Attention,简称 DSSA。

它是 Sparse Softmax Attention,也就是 MoBA,和 Sparse Linear Attention,也就是 SSE 的层间混合。

这个设计的含义是,作者没有在 softmax attention 和 linear attention 之间二选一,而是希望让不同层承担不同的计算结构。

Softmax 路线通常更接近标准 Transformer 的表达方式,linear 路线则更强调长序列效率;

二者混合,目标是换取更好的性能与效率折中。

第二部分是训练和转换流程:optimized Transformer-to-Hybrid pipeline,简称 T2H。

摘要说它提供了面向 LLM 和 VLM 的双转换路径,并使用 curated open-source data。

这说明 SpikingBrain2.0 并不是只训练一个全新稀疏模型,而是把已有 Transformer 基座转成 hybrid 架构。

它以 Qwen3-4B 作为基础 Transformer 参照,并在 5B 模型上报告结果。

此外,论文还加入了双量化路径。

INT8-Spiking coding 面向 sparse event-driven computation,FP8 coding 则面向现代 GPU 推理加速。

这个细节使它和很多只讨论 attention 复杂度的论文不同:它把稀疏注意力、类脑计算和 GPU 兼容放在同一条工程路径里。

实验和证据

摘要给出的关键证据有四组。

第一,SpB2.0-5B 和 SpB2.0-VL-5B 在少于 7k A100 GPU hours 的条件下,恢复了 base Transformer,也就是 Qwen3-4B 的大部分能力。

这里需要注意,“大部分能力”是摘要表述,具体恢复比例和任务分布需要看全文实验表。

第二,在 4M context 下,SpB2.0 报告了 10.13x TTFT speedup。

TTFT 是长上下文推理中非常重要的指标,因为用户感知延迟往往首先体现在首 token。

第三,它声称在 8 张 A100 上、vLLM 环境中支持超过 10M tokens,而 full-attention models 会超过内存限制。

这个结果如果设置公平,说明 DSSA 的价值不只是加速,而是把原本跑不起来的上下文长度变成可运行。

第四,硬件兼容性方面,摘要报告 FP8 GPU inference 在 250k 上下文场景下有 2.52x speedup;

在 neuromorphic execution 上有 64.31% sparsity,并带来 70.6% area reduction 和 46.5% power reduction at 500MHz。

这些结果说明作者试图证明 SpikingBrain2.0 既能在常规 GPU 上受益,也能在更专门的稀疏事件驱动硬件上受益。

局限和疑点

第一,摘要没有展开“恢复大部分能力”的评测细节。

长上下文模型最容易在 needle-in-a-haystack 一类任务上表现亮眼,但真正困难的是跨段组合推理、长文档一致性、代码库级别依赖和多轮上下文污染。

没有全文实验前,不能把“能支持 10M tokens”直接等同于“能可靠理解 10M tokens”。

第二,稀疏注意力的效率收益通常伴随选择机制问题:哪些 token 被保留、哪些层使用 softmax、哪些层使用 linear,这些策略会影响模型在不同任务上的稳定性。

DSSA 的层间混合看起来合理,但也意味着系统里多了结构超参数和转换策略,工程调优可能并不简单。

第三,Spiking 路线的生态不确定性较高。

FP8 GPU 路径降低了落地门槛,但 INT8-Spiking 和 neuromorphic execution 是否能进入主流推理栈,还取决于硬件、编译器、vLLM 适配和部署成本。

它现在更像一条值得观察的架构路线,而不是可以立即替换主流 Transformer 推理的结论。

和大模型注意力演进的关系

这篇论文放在大模型 attention 演进里,可以看作从“扩大上下文窗口”转向“重写长上下文计算形态”的一类尝试。

过去一段时间,长上下文优化有几条路线:KV cache 管理、滑动窗口、分块注意力、检索增强、FlashAttention 类内核优化,以及线性或稀疏 attention。

SpikingBrain2.0 的特点是把 sparse softmax、sparse linear、量化和硬件稀疏执行合成一个 hybrid foundation model 方案。

它对大模型方向的启发在于,未来的长上下文模型可能不会只有一种 attention 默认形态。

短中上下文、高精度推理场景仍可能继续依赖成熟 full-attention 或接近 full-attention 的结构;

超长上下文、低延迟、边缘或受限硬件场景,则可能更愿意接受稀疏化和混合架构带来的折中。

真正的竞争点不是“谁的窗口最大”,而是谁能在可接受能力损失下,把长上下文推理变得稳定、便宜、可部署。

一句话判断

SpikingBrain2.0 值得跟踪,因为它把 attention 优化从单点稀疏技巧推进到长上下文 foundation model 的系统方案;

但它仍是 2026 年 4 月的新 arXiv 预印本,目前最适合当作前沿动态观察,不能仅凭摘要就判断它已经证明了 full-attention 路线会被替代。

AI Agent 生成