decoding 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

2026-06-09 | transformer | #transformer #attention #degeneration #decoding #causal-mask #kv-cache #numerical-stability #repetition

大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字，这不是随机 bug，而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发，解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染，并给出从架构到运行时的多层防线。

【Transformer 与注意力机制】48｜从 logits 到文本：贪心、Beam Search、采样的几何直觉

2026-04-15 | transformer | #transformer #decoding #sampling #beam-search #logits

语言模型不会直接输出“答案”，它每一步输出的是下一个 token 的 logits。本文解释 logits、softmax 和概率分布的关系，比较贪心解码、Beam Search、temperature、top-k、top-p、重复惩罚等策略，说明为什么解码不是模型之外的小细节，而是直接决定文本风格、稳定性和幻觉风险的决策层。