flashattention 标签归档

共 3 篇文章 · 返回首页

【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink

2026-04-22 | architecture · ai-infra | #llm #infra #gpu #cuda #tensor-core #hopper #blackwell #hbm #flashattention #ascend

从 CPU 与 GPU 的架构差异出发，讲清楚 SM、Warp、Tensor Core、HBM、NVLink 的工程含义，并结合 Roofline、FlashAttention 与国产算力栈，给出大模型工程师能直接上手的 GPU 心智模型。

【Transformer 与注意力机制】42｜FlashAttention：注意力计算的硬件级重写

2026-04-15 | transformer | #transformer #flashattention #attention #gpu #memory-io

FlashAttention 的关键不是近似注意力，也不是把公式改掉，而是重新安排标准 attention 在 GPU 内存层级里的计算路径。本文解释为什么标准 attention 的瓶颈常常是 HBM 读写，FlashAttention 如何用 tiling 和 online softmax 避免物化完整注意力矩阵，以及它为什么省显存、提吞吐，却没有消除 O(n²) 的根本复杂度。

【Transformer 与注意力机制】18｜注意力的复杂度问题

2026-04-15 | transformer | #transformer #attention #complexity #efficiency #flashattention #sparse #long-context

为什么 attention 是 O(n²)，O(n²) 到底贵在哪里，5 类降复杂度方案的优劣，FlashAttention 不是 O(n) 这件事，长上下文是怎么把架构师逼疯的。