从这里开始

第一次访问时先按主题切入,比直接沿着时间线翻文章更快。

热门专题

把已经形成系列阅读闭环的主题集中在首页,减少在 400 多篇文章里盲找的成本。

最新文章

按最近更新时间排序;如果你想系统性阅读一个主题,优先回到上面的专题入口。

【Transformer 与注意力机制】59|推理退化:为什么大模型会输出乱码、死循环和无意义文本

大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字,这不是随机 bug,而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发,解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染,并给出从架构到运行时的多层防线。

【Transformer 与注意力机制】系列总览

从《Attention Is All You Need》出发把 Transformer 注意力机制、Q/K/V、多头注意力、位置编码、Causal Mask、Softmax、FFN、训练范式、模型变体、推理工程、可解释性、未来架构以及推理退化防御串成 59 篇深度博客。