LLM 推理服务的真实瓶颈:不是 token/s,而是调度和尾延迟
深入拆解 LLM 推理的 prefill/decode 两阶段、KV-Cache 显存管理、PagedAttention 与 vLLM 架构、continuous batching 调度策略,以及尾延迟的真实来源和优化实践。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
深入拆解 LLM 推理的 prefill/decode 两阶段、KV-Cache 显存管理、PagedAttention 与 vLLM 架构、continuous batching 调度策略,以及尾延迟的真实来源和优化实践。
你的 P99 延迟突然飙到 500ms,但平均值只有 3ms。日志里什么都没有,Prometheus 图表一片祥和。bpftrace 一行命令,30 秒定位问题。这篇文章告诉你怎么做到的。