causal-mask 标签归档

共 4 篇文章 · 返回首页

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

2026-06-09 | transformer | #transformer #attention #degeneration #decoding #causal-mask #kv-cache #numerical-stability #repetition

大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字，这不是随机 bug，而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发，解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染，并给出从架构到运行时的多层防线。

【Transformer 与注意力机制】系列总览

2026-04-15 | transformer | #transformer #attention #qkv #multi-head #causal-mask #softmax #ffn #llm #deep-learning #ai

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。

【Transformer 与注意力机制】23｜Decoder 详解：为什么它天生适合生成

2026-04-15 | transformer | #transformer #decoder #causal-mask #autoregressive #gpt

把 Transformer decoder 拆开讲透：masked self-attention、cross-attention、FFN 三块子层如何串起来；训练时为什么能并行、推理时为什么必须串行；以及 decoder-only 为什么会成为 GPT 时代的主流路线。

【Transformer 与注意力机制】17｜Causal Mask：让模型只看过去不看未来

2026-04-15 | transformer | #attention #causal-mask #autoregressive #teacher-forcing #decoder #kv-cache #attention-sink

自回归语言模型的核心约束是：预测 t 时刻只能用 t 之前的信息。Causal Mask 用一个上三角的 -∞ 矩阵让 softmax 之后未来位置的权重恒为零，使得模型在训练时能并行计算所有时间步、推理时严格自回归。本文从 teacher forcing 到 attention sink，把 causal mask 在训练、推理、长上下文中的所有面相讲清楚。