【大模型基础设施工程】11:推理引擎基础 2026-04-22 | architecture · ai-infra | #llm #infra #inference #prefill #decode #kv-cache #gqa #mla #continuous-batching #ttft #flash-decoding 从 Prefill/Decode 两阶段、KV Cache、Continuous Batching 到 PD 分离,系统讲清楚大模型推理的工程基础。