kv-cache 标签归档

共 5 篇文章 · 返回首页

【大模型基础设施工程】11：推理引擎基础

2026-04-22 | architecture · ai-infra | #llm #infra #inference #prefill #decode #kv-cache #gqa #mla #continuous-batching #ttft #flash-decoding

从 Prefill/Decode 两阶段、KV Cache、Continuous Batching 到 PD 分离，系统讲清楚大模型推理的工程基础。

【大模型基础设施工程·特别篇】27：DeepSeek-V4 的极致性价比从哪来

2026-05-27 | architecture · ai-infra | #llm #infra #deepseek #moe #long-context #kv-cache #fp4 #muon #agent

从 MoE 激活比、CSA/HCA 混合注意力、mHC、Muon，到磁盘级 KV cache、FP4 QAT 和专家蒸馏，系统拆解 DeepSeek-V4 为什么能把 1M 上下文和强 Agent 能力做得又强又便宜。

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

2026-06-09 | transformer | #transformer #attention #degeneration #decoding #causal-mask #kv-cache #numerical-stability #repetition

大模型推理时偶尔会突然陷入死循环、输出乱码或连续无意义数字，这不是随机 bug，而是注意力机制、Causal Mask、解码策略和数值精度在自回归生成中共同作用的结果。本文从 QKV 计算坍塌出发，解释 Attention Sink、Softmax 马太效应、Causal Mask 的退路切断、FP16 溢出路径和 KV Cache 污染，并给出从架构到运行时的多层防线。

【Transformer 与注意力机制】49｜KV Cache：推理为什么是 O(n) 不是 O(n²)

2026-04-15 | transformer | #transformer #kv-cache #inference #autoregressive-decoding #attention

自回归推理和训练不是同一种程序。本文解释 KV Cache 为什么成立：历史 token 的 Key/Value 一旦算出，在后续 decode 中不会改变；缓存它们可以避免反复重算前缀。文章同时讲清 prefill 与 decode 的差异、cache 显存公式、长上下文为什么受限，以及 PagedAttention、MQA/GQA、cache 量化等方向各自在解决什么。

【Transformer 与注意力机制】17｜Causal Mask：让模型只看过去不看未来

2026-04-15 | transformer | #attention #causal-mask #autoregressive #teacher-forcing #decoder #kv-cache #attention-sink

自回归语言模型的核心约束是：预测 t 时刻只能用 t 之前的信息。Causal Mask 用一个上三角的 -∞ 矩阵让 softmax 之后未来位置的权重恒为零，使得模型在训练时能并行计算所有时间步、推理时严格自回归。本文从 teacher forcing 到 attention sink，把 causal mask 在训练、推理、长上下文中的所有面相讲清楚。