longformer 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】43|稀疏与局部注意力:Longformer、BigBird、Sparse Transformer

FlashAttention 优化的是 full attention 的实现路径,稀疏注意力则直接改变 token 之间的连接图。本文解释局部窗口、全局 token、随机连接和结构化稀疏为什么能降低长序列成本,以及 Longformer、BigBird、Sparse Transformer 各自代表什么取舍。