memory-io 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】42｜FlashAttention：注意力计算的硬件级重写

2026-04-15 | transformer | #transformer #flashattention #attention #gpu #memory-io

FlashAttention 的关键不是近似注意力，也不是把公式改掉，而是重新安排标准 attention 在 GPU 内存层级里的计算路径。本文解释为什么标准 attention 的瓶颈常常是 HBM 读写，FlashAttention 如何用 tiling 和 online softmax 避免物化完整注意力矩阵，以及它为什么省显存、提吞吐，却没有消除 O(n²) 的根本复杂度。