sparse-attention 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】43｜稀疏与局部注意力：Longformer、BigBird、Sparse Transformer

2026-04-15 | transformer | #transformer #sparse-attention #longformer #bigbird #long-context

FlashAttention 优化的是 full attention 的实现路径，稀疏注意力则直接改变 token 之间的连接图。本文解释局部窗口、全局 token、随机连接和结构化稀疏为什么能降低长序列成本，以及 Longformer、BigBird、Sparse Transformer 各自代表什么取舍。