attention-sink 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】17｜Causal Mask：让模型只看过去不看未来

2026-04-15 | transformer | #attention #causal-mask #autoregressive #teacher-forcing #decoder #kv-cache #attention-sink

自回归语言模型的核心约束是：预测 t 时刻只能用 t 之前的信息。Causal Mask 用一个上三角的 -∞ 矩阵让 softmax 之后未来位置的权重恒为零，使得模型在训练时能并行计算所有时间步、推理时严格自回归。本文从 teacher forcing 到 attention sink，把 causal mask 在训练、推理、长上下文中的所有面相讲清楚。