inference 标签归档

共 6 篇文章 · 返回首页

大模型基础设施工程

2026-04-22 | architecture · ai-infra | #llm #infra #training #inference #rag #agent #vllm #sglang #deepseek #llmops

面向中国工程团队的大模型基础设施系列。从 GPU/CUDA/互联、训练框架与 3D 并行、vLLM/SGLang 推理引擎、量化与推测解码、RAG/Agent 到服务化、网关、可观测性与安全合规，覆盖 LLMOps 全链路。

【大模型基础设施工程】01：大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

2026-04-22 | architecture · ai-infra | #llm #infra #overview #training #inference #rag #agent #deepseek #openai

面向工程师的大模型基础设施开篇地图，覆盖 2022 到 2026 的工程分水岭、五层工程栈、训练与推理的工程差异、中国与全球行业版图以及成本曲线。

【大模型基础设施工程】11：推理引擎基础

2026-04-22 | architecture · ai-infra | #llm #infra #inference #prefill #decode #kv-cache #gqa #mla #continuous-batching #ttft #flash-decoding

从 Prefill/Decode 两阶段、KV Cache、Continuous Batching 到 PD 分离，系统讲清楚大模型推理的工程基础。

【大模型基础设施工程·特别篇】DeepSeek-V4 与国产芯片：从备份路线到主路径

2026-04-25 | architecture · ai-infra | #llm #infra #deepseek #domestic-chip #ascend #cann #training #inference #ai-chip

DeepSeek-V4 发布后，如果国产芯片已经支撑旗舰模型的关键训练或推理链路，它会怎样影响 NVIDIA 生态、国产 AI 芯片、云厂商、模型团队和工程师的技术选择？

【Transformer 与注意力机制】49｜KV Cache：推理为什么是 O(n) 不是 O(n²)

2026-04-15 | transformer | #transformer #kv-cache #inference #autoregressive-decoding #attention

自回归推理和训练不是同一种程序。本文解释 KV Cache 为什么成立：历史 token 的 Key/Value 一旦算出，在后续 decode 中不会改变；缓存它们可以避免反复重算前缀。文章同时讲清 prefill 与 decode 的差异、cache 显存公式、长上下文为什么受限，以及 PagedAttention、MQA/GQA、cache 量化等方向各自在解决什么。

【Transformer 与注意力机制】50｜Speculative Decoding：用小模型加速大模型

2026-04-15 | transformer | #transformer #speculative-decoding #inference #draft-model #llm-serving

KV Cache 避免了重复计算历史前缀，但自回归生成仍然一个 token 接一个 token。Speculative Decoding 的思路是让小 draft model 先草拟多个 token，再由大 target model 批量验证，在保持目标模型分布正确的前提下降低延迟。本文解释它的算法直觉、接受率瓶颈和适用边界。