【大模型基础设施工程·特别篇】27：DeepSeek-V4 的极致性价比从哪来

DeepSeek-V4 真正惊人的地方，不是“把价格牌改小了”，而是它把旗舰能力和低单位成本做进了同一套架构里。据 DeepSeek-V4 技术报告与官方 API 文档：DeepSeek-V4-Pro 是 1.6T 总参数、49B 激活参数的 MoE 模型，V4-Flash 是 284B 总参数、13B 激活参数；两者都把 1M context 作为官方默认配置；在 1M 上下文下，V4-Pro 的单 token 推理 FLOPs 为 DeepSeek-V3.2 的 27%、KV cache 为 10%（V4-Flash 进一步降到 10% 和 7%）。

如果只把这理解成“价格战”，会错过最重要的东西。DeepSeek-V4 便宜，不是因为它把一个本来就昂贵的系统赔本卖给你，而是因为它从模型结构、训练稳定性、并行内核、缓存系统、后训练范式、Agent runtime一路往下，把真正烧钱的地方一项一项削掉了。本文只讨论目前在 DeepSeek 官方技术报告和 API 文档里已经公开的技术项。

一、先把“极致性价比”量化出来

截至本文写作时（2026-05-27），DeepSeek 官方 API 文档给出的关键信息如下：

项目	DeepSeek-V4-Pro	DeepSeek-V4-Flash
总参数 / 激活参数	1.6T / 49B	284B / 13B
官方上下文长度	1M	1M
最大输出	384K	384K
输入价格（缓存命中）	0.025 元 / 百万 tokens（2.5 折）	0.02 元 / 百万 tokens
输入价格（缓存未命中）	3 元 / 百万 tokens（2.5 折）	1 元 / 百万 tokens
输出价格	6 元 / 百万 tokens（2.5 折）	2 元 / 百万 tokens

注：以上为 DeepSeek 中文站口径（人民币）。V4-Pro 现价为限时 2.5 折（即原定价的 1/4），据官方页面说明该活动将于北京时间 2026-05-31 23:59 结束，随后恢复原定价；表中数字均为活动价。

这张表要和另一组数字一起看：技术报告明确写到，在 1M context 下，DeepSeek-V4-Pro 相比 DeepSeek-V3.2，单 token 推理 FLOPs 降到 27%，KV cache 降到 10%；V4-Flash 更激进，分别降到 10% 和 7%。至少从这些已公开的计算与缓存口径看，价格不是悬在半空里的市场动作，而是被底层效率变化支撑起来的。

不过，这里的“成本”其实不是一回事。为了避免把训练成本、在线推理成本和系统迭代成本混在一起，先把全文主线拆成三层：

技术项	主要压缩的成本	对 API 单价的影响方式	文中最硬的公开证据
DeepSeekMoE	每 token 算力、访存	直接	1.6T / 49B，284B / 13B
CSA + HCA + 混合 KV 格式	attention FLOPs、KV cache	直接	Pro: FLOPs 27%，KV 10%；Flash: FLOPs 10%，KV 7%
磁盘级 context caching	重复 prefill 成本	直接	缓存命中价远低于未命中
FP4 QAT	部署显存、带宽、selector 开销	直接	expert / indexer 路径进入 FP4
mHC + Muon + 稳定性机制	训练回滚、loss spike、收敛时长	间接	spike 控制、优化器与结构改造
wave pipeline + TileLang + deterministic kernels	通信空转、kernel 税、调试回归成本	间接	1.50~1.96x 加速、sub-microsecond host checks
specialist training + OPD	后训练整合成本、能力互相打架	间接	多教师 OPD 替代 mixed RL

下面的顺序也按这个逻辑展开：先讲直接决定在线成本的几项，再讲降低训练与系统总成本的配套工程，最后再落到 Agent runtime 里那些会反复烧钱的“胶水开销”。

接下来按“到底是哪几项技术把成本打下来了”的顺序展开。

二、第一项：DeepSeekMoE 把“总参数规模”和“每 token 成本”拆开

DeepSeek-V4 延续的是 DeepSeek 自己已经跑通的 DeepSeekMoE 路线，而不是重新回到稠密模型。它的关键价值在于：总参数决定上限，激活参数决定每个 token 的边际成本。

对 V4-Pro 来说，模型总参数是 1.6T，但每个 token 实际只激活 49B；对 V4-Flash 来说，是 284B 总参数、13B 激活。技术报告里还公开了更细的配置：

V4-Pro 有 61 层，所有 Transformer block 都是 MoE FFN；
每层有 1 个 shared expert 和 384 个 routed experts；
每个 token 只激活 6 个 routed experts；
前 3 层用 Hash routing，后面再交给可学习路由。

这件事为什么直接等价于“便宜”？因为稠密模型的痛点是：总参数就是你每一步都要付的钱。而 MoE 不是。MoE 把“我需要一个很大的模型容量”和“我不想每个 token 都扫描全部参数”这两件事拆开处理。这样一来：

预训练时，你可以用更大的总参数去存知识和能力；
推理时，你只为真正被路由到的专家付算力和访存成本；
在代码、推理、Agent 这类 token 特征差异很大的任务里，不同 token 会落到不同专家，模型容量利用率更高。

当然，MoE 不是白送的。它把“算力问题”变成了“通信 + 路由 + 并行调度问题”。所以 DeepSeek-V4 真正厉害的地方，不只是用了 MoE，而是后面几节会讲到的：它把 MoE 最贵的那部分工程代价也一起做掉了。

三、第二项：CSA + HCA 混合注意力，把 1M 上下文从“理论支持”变成“能日常开”

DeepSeek-V4 最核心的降本技术，是它的混合注意力：CSA（Compressed Sparse Attention）+ HCA（Heavily Compressed Attention）。

问题背景很简单。长上下文之所以贵，不是因为“多了点输入”，而是因为 attention 的成本会随着上下文长度迅速爆炸，KV cache 也会跟着膨胀。1M context 如果还沿着常规 dense attention 走，模型能力再强，服务成本也会非常难看。

DeepSeek-V4 的做法是分两层压：

3.1 CSA：先压缩，再稀疏选 top-k

CSA 不是直接做 sparse attention，而是先把 KV 压成更小的表示，再在压缩后的块上做稀疏选择。以 V4-Pro 为例：

压缩率 \(m = 4\)：每 4 个 token 先压成 1 个 compressed KV；
再用 DeepSeek Sparse Attention 做选择；
每个 query 只保留 1024 个 compressed KV block 参与主注意力；
另外再拼上一段 \(n_{\mathrm{win}} = 128\) 的 sliding window，保住最近邻细节。

这里有两个细节特别关键。

第一，DeepSeek 没有用一个昂贵的全精度 selector 去找相关块，而是用了一个所谓的 lightning indexer：先把 query 压到低秩 latent，再去给历史 compressed KV 打分，最后只保留 top-k。也就是说，模型不是在 1M token 上“全看一遍再决定看谁”，而是在一个更便宜的索引空间里先粗筛，再做主注意力。

第二，CSA 不是完全抛弃局部精细信息。它额外保留 sliding window 分支，让 query 同时看到最近的一小段未压缩 KV。这样做的意义是：全局靠压缩和稀疏，局部靠原始细节补精度。这也是它不像某些长上下文方案那样，一旦上下文超长就明显变“糊”的原因。

3.2 HCA：进一步重压缩，但保留 dense attention

HCA 比 CSA 更狠。技术报告里给出的 V4-Pro 配置是：

HCA 的压缩率 \(m' = 128\)；
它不再做 sparse selection；
而是在被重压缩后的 KV 上继续做 dense attention。

这个设计很聪明。因为不是所有层都需要同样细的注意力分辨率。DeepSeek 把一部分层做成 CSA，让模型保留“挑重点看”的能力；另一部分层做成 HCA，让模型在极低 KV 成本下继续处理很长的历史。两者交替使用，才是 V4 真正能把 1M 做成默认能力的原因。

3.3 为了让压缩注意力不掉精度，V4 又补了四个小设计

技术报告里还有四个常被忽略、但实际上很值钱的细节：

RMSNorm on query / KV：在 core attention 前，对 query 和 compressed KV 做额外 RMSNorm，防止 attention logit 爆炸。
Partial RoPE：不是把完整 RoPE 套到所有维度，而是只对最后 64 维施加位置编码，并对输出做逆向位置修正，保住相对位置信息。
Sliding Window Branch：上面提过，本质是给被压缩的 attention 体系补一个高保真“近场观察窗”。
Attention Sink：为每个 head 引入可学习 sink logit，让注意力总质量不必强行等于 1，避免部分 head 在长上下文下被迫把注意力摊平。

3.4 这项技术直接换来了什么

V4 报告给出的结果非常直接：

在 1M context 下，V4-Pro 的单 token FLOPs 只有 V3.2 的 27%；
KV cache 只有 V3.2 的 10%；
如果按报告图里常见的 BF16 GQA8 长上下文基线口径估算，V4 系列在 1M context 下的 KV cache 大约只剩其 2% 量级；
V4 还把 KV 存储做成了混合格式：RoPE 维度保留 BF16，非 RoPE 维度转 FP8，KV cache 体积再砍近一半；
lightning indexer 的相关打分路径进一步用了 FP4。

这就是 DeepSeek-V4 性价比的第一大支柱：不是“1M 也能跑”，而是“1M 跑起来时还不至于贵得离谱”。更具体地说，这一节直接压的是在线推理里最贵的两项：attention 计算量和 KV cache 体积；后面很多工程优化，本质上都在给这两项保驾护航。

四、第三项：mHC 把深层大模型里最容易炸的残差路径重新设计了

DeepSeek-V4 在结构上的第二个大改动，是用 mHC（Manifold-Constrained Hyper-Connections） 替代普通残差连接。可以把它先粗略理解成：给残差流增加更多可学习通道，但同时把这些通道强约束在一个不容易失控的空间里。

普通残差连接的好处是简单、稳、便宜；坏处是当模型越来越深、越来越大时，残差流的表达能力和稳定性会一起成为瓶颈。Hyper-Connections 的想法是把残差流扩宽，给跨层信息流动更多自由度；但普通 HC 一旦堆太深，很容易出现数值不稳定。

DeepSeek-V4 的 mHC 不是简单“多加几条残差边”，而是给残差映射矩阵加了一个很强的约束：把它限制在双随机矩阵的流形里，也就是 Birkhoff polytope。翻成人话，就是矩阵元素非负，而且每一行、每一列的和都被约束到 1。工程上怎么做到？技术报告给出的做法是：

把残差映射矩阵 \(B_l\) 约束为双随机矩阵；
这样它的谱范数上界被限制在 1；
残差变换就成了 non-expansive，也就是不会一路把向量范数放大；
具体投影通过 Sinkhorn-Knopp 迭代完成，V4 里 \(t_{\max} = 20\)；
输入映射 \(A_l\) 和输出映射 \(C_l\) 也都通过 Sigmoid 保证非负、受界。

把这套话翻译成人话：DeepSeek 不是只想让残差“更强”，它想让残差“更强但不失控”。

这和性价比的关系非常直接。万亿级 MoE 训练里，最贵的不是理论 FLOPs，而是“不稳定导致的失败步骤、回滚和反复试错”。mHC 并不直接降低单步算力，但它提高了深层网络训练的可控性和表达效率，让“更深、更大、更长上下文”的模型仍能落在一个可训练的区域里。对旗舰模型来说，这本身就是成本优化。

五、第四项：Muon 优化器在大多数模块上替掉 AdamW，换更快收敛和更稳训练

DeepSeek-V4 的第三个结构级升级，是把 Muon 引入到大部分模块的训练里。

很多人提到优化器时只会说一句“换 Muon 了”，但 V4 的关键其实不在“名字”，而在它把什么问题解决了。技术报告里说得很明确：DeepSeek 之所以在大部分参数上使用 Muon，是因为它能带来更快收敛和更好的训练稳定性。

V4 不是全模型一刀切都上 Muon。它的分工是：

AdamW 继续保留：embedding、prediction head、mHC 的静态 bias 和 gating、所有 RMSNorm；
其余大多数模块用 Muon。

Muon 的核心步骤，是对梯度矩阵做近似正交化。V4 的实现里不是直接用标准 Newton-Schulz，而是用了 hybrid Newton-Schulz：

总共 10 次迭代；
前 8 次用更激进的系数，让奇异值快速逼近 1；
后 2 次改用更稳定的系数，把奇异值钉在 1 附近。

再叠加两件事：

Nesterov trick；
对更新矩阵 RMS 重新缩放，尽量复用原来 AdamW 的学习率超参。

这背后的工程目标很现实：不要为了换一个优化器，把整套训练调参体系重新推倒重来。

为什么这会带来性价比？

对 32T~33T token 级别的预训练来说，收敛快一点就是少烧很多卡时；
对万亿 MoE 来说，稳定一点就是少遇到 loss spike、少回滚、少做保护性保守配置；
对长上下文训练来说，优化器如果更稳，就能更放心地把 sequence length 一路推到 1M。

一句话：Muon 不是“学术上的更优”，而是“在这个训练规模上更省钱”。

六、第五项：训练稳定性本身就是成本项，V4 直接为 loss spike 做了两套保险

V4 技术报告里有一段很值得工程师反复读：DeepSeek 明确承认，训练万亿级 MoE 时，他们确实遭遇了显著的不稳定；简单 rollback 只能暂时恢复，不能从根上消掉 spike。最后他们公开了两种实用手段。

6.1 Anticipatory Routing：把“主干更新”和“路由更新”临时错开

DeepSeek 观察到，loss spike 经常和 MoE 层里的异常值有关，而路由机制又会放大这种异常。于是他们引入 Anticipatory Routing：

在 step \(t\)，主干特征仍用当前参数 \(\theta_t\) 算；
但路由索引改用历史参数 \(\theta_{t-\Delta t}\) 计算；
为了避免重复加载模型参数，系统会提前在前面的 step 预取数据并缓存路由索引；
这套模式不是永久开启，而是在自动检测到 spike 时才短暂触发。

报告给出的数字是：即便这样，额外墙钟开销也只被压在大约 20%，而且因为只在异常时刻短暂开启，整体额外代价很小。

这是一种很典型的“性价比工程”：我不追求理论最优，我追求训练不要炸，而且修 spike 的成本不要比 spike 本身更贵。

6.2 SwiGLU Clamping：直接把异常值截掉

第二个手段更朴素，但也更工程化：SwiGLU clamp。

DeepSeek 在实际训练里发现，对 SwiGLU 做数值截断很有效：

线性分量 clamp 到 \([-10, 10]\)；
gate 分量上界截到 \(10\)。

效果是明显抑制异常值，但又不损害最终性能。注意这里的价值不是“某个技巧多优雅”，而是它让一条 33T token 的预训练曲线更可控。万亿级训练里，能稳定跑完全程，本身就是最值钱的能力。

6.3 稀疏注意力不是一开始就开，而是逐步引入

V4 训练不是从第一步就把所有复杂机制全打开。它的策略是：

序列长度从 \(4\mathrm{K} \rightarrow 16\mathrm{K} \rightarrow 64\mathrm{K} \rightarrow 1\mathrm{M}\) 逐步拉长；
sparse attention 不是一开始就用，而是先用 dense attention warmup；
Flash 版前 1T token 先做 dense attention，再在 64K 序列长度引入 sparse attention；
引入 sparse attention 时，还先单独 warmup 一段 lightning indexer。

这同样是在省钱。因为最昂贵的训练，不是“每一步都慢”，而是“你以为在训练，实际上在用不稳定的配置反复试错”。

七、第六项：MoE 最贵的不是专家本身，而是专家之间的通信；V4 用 wave pipeline 把它吃掉

这一节和下一节其实在回答同一个问题：MoE 理论上省算力，但如果跨卡通信、kernel launch 和调试成本跟不上，省下来的账会重新涨回来。

MoE 的理论便宜，很容易死在工程上：token 要 dispatch 到专家，再 combine 回来，中间还要做两次大矩阵乘法。如果 dispatch / combine 的 All-to-All 打不满、等得太久，MoE 的账很快就算不平。

DeepSeek-V4 在这件事上的核心设计是：把通信、计算和访存塞进同一个细粒度流水线里做 overlap。

报告把一个 MoE layer 拆成四段：

Dispatch（通信）
Linear-1（计算）
Linear-2（计算）
Combine（通信）

他们的 profiling 发现：在一个 layer 内，通信时间总量其实小于计算时间总量。于是 V4 不是去一味追更粗的互联，而是把专家切成多个 wave：

一个 wave 里只放一小部分专家；
某个 wave 的 token 一通信完，马上开始计算；
当前 wave 在算的同时，下一个 wave 继续传 token，上一个 wave 继续回传结果；
这样就形成了持续不断的细粒度 pipeline。

flowchart LR
   subgraph Wave1
      W1D[Dispatch] --> W1L1[Linear-1] --> W1L2[Linear-2] --> W1C[Combine]
   end
   subgraph Wave2
      W2D[Dispatch] --> W2L1[Linear-1] --> W2L2[Linear-2] --> W2C[Combine]
   end
   W1L1 -. overlap .-> W2D
   W1L2 -. overlap .-> W2L1
   W1C -. overlap .-> W2L2

结果是非常硬的：

一般推理 workload 上，1.50~1.73× 加速；
RL rollout、高速 Agent serving 这类更偏尾延迟敏感的场景里，最高 1.96×。

更有意思的是，DeepSeek 还把这个思路反过来提炼成了一个硬件观点：关键不是盲目堆带宽，而是把计算/通信比打到一个能完整 overlap 的平衡点。

这节还有一个容易被带偏的地方。技术报告说，他们在 NVIDIA GPUs 和 HUAWEI Ascend NPUs 上都验证了这套 fine-grained EP scheme。但它并没有公开披露“到底多少训练或推理成本来自哪种芯片”“国产硬件对 API 价格贡献具体占比多少”。所以公开能下的结论是：DeepSeek 确实在做跨硬件的 MoE 高效内核验证；不能下的结论是任何未披露的采购或路线图细节。

八、第七项：TileLang、确定性内核、细粒度 checkpoint，把“能跑”推到“能量产”

如果说上一节解决的是跨卡流水线里的空转成本，这一节解决的就是复杂结构落地后的 kernel 税和调试税。

很多文章只盯模型结构，不盯内核和框架；但对 V4 这种系统来说，真正把账打薄的往往正是这些“看起来不性感”的地方。

8.1 TileLang：把几百个碎 ATen operator 变成少量高效 fused kernels

V4 的结构太复杂：混合注意力、MoE、indexer、grouped projection、mHC……如果全都用细碎的 Torch ATen operator 去拼，CPU 调度开销和 kernel launch 开销会非常大。

DeepSeek 的做法是用 TileLang 去写 fused kernels。报告里提到几个具体收益：

device kernel 和 host launcher 一起生成；
把本来在 Python 侧做的 shape / dtype / stride 检查下推到生成的 host code；
CPU 侧每次调用的校验开销，从几十到几百微秒，降到 1 微秒以内；
还把 Z3 SMT solver 接进编译器，做更强的整数分析，方便向量化、barrier 插入和代码简化。

这类优化不会出现在 benchmark 首页，但它直接决定了复杂模型能不能被稳定、高密度地服务化。

8.2 Batch-invariant + deterministic kernels：让训练、后训练、推理三条链路真正对齐

DeepSeek 明确把“位级可复现”当成设计目标。这一点很少有团队公开写得这么重。这里的 batch invariance 可以先理解成：同样的输入，不该因为同一批里换了几个邻居样本就得到不同结果。

为什么重要？因为 V4 后训练里既有 RL，也有 OPD，还有 rollout、故障恢复、Agent 评测。如果同一个 token 只是因为 batch 里邻居变了，结果就不同，那你会很难判断问题到底来自模型、数据还是系统。

所以他们做了三类事：

Attention：不用会破坏 batch invariance 的 split-KV 方案，而是设计双 kernel，既保吞吐也保 bitwise identity。
Matrix Multiplication：需要 batch invariance 的地方，不依赖传统 cuBLAS 路线，而是 end-to-end 切到 DeepGEMM。
Backward：对 sparse attention、MoE backward、mHC 的小矩阵乘法都单独做确定性规约，避免 atomicAdd 带来的非确定性。

这看似是在为调试服务，实际上也是在为成本服务：系统越可复现，定位 spike、回归性能和验证新 kernel 的时间越短。

8.3 训练框架也为“新结构”重写过

V4 不是把 Muon、mHC、CSA/HCA 塞进旧框架就完事了。报告公开了几项关键配套：

Hybrid ZeRO for Muon：因为 Muon 需要完整梯度矩阵，不能直接照搬 AdamW 式的 ZeRO 切法，于是他们为 Muon 单独设计 bucket assignment。
mHC fused kernels + selective recomputation：把 mHC 带来的额外开销压到 overlapped 1F1B pipeline stage 的 6.7%。
Contextual Parallelism：为了适配 CSA/HCA 的压缩 attention，重新设计了两阶段通信流程，解决“压缩块跨 rank 边界”的问题。
Tensor-level activation checkpointing：不是整模块 checkpoint，而是 tensor 级别标注 + TorchFX 自动生成重算图，在不牺牲 autograd 编程体验的前提下做更细粒度的显存/重算平衡。

这些优化的共同作用是：让“1M context 训练”不只是论文里可以写，而是工程上能持续迭代。它们不一定一刀直接改掉 API 定价，但会直接决定吞吐利用率、回归定位速度和系统迭代的人力账单。

九、第八项：定制 KV cache 结构 + 磁盘缓存，让 shared prefix 从“重复计算”变成“廉价读盘”

对 DeepSeek-V4 这种 1M context + Agent 模型来说，缓存不是锦上添花，而是 API 价格的一部分。

9.1 V4 先把 KV cache 本体重构了

V4 的混合注意力让 KV cache 不再是一个统一的扁平数组。因为它同时有：

CSA compressed KV；
HCA compressed KV；
sliding window attention 的未压缩 KV；
还没攒够一个压缩块、暂时不能压的 tail states。

这会直接打破传统 PagedAttention 的一些前提。DeepSeek 因此把 KV cache 划成两部分：

classical KV cache：存 CSA/HCA 的 compressed KV；
state cache：存 SWA 和还没准备好压缩的尾部状态。

这是一件很重要的工程取舍：先承认 hybrid attention 的 KV 不是同一种东西，再分别管理它们，而不是强行塞进一个统一抽象里。

9.2 磁盘级 context caching：把重复 prefill 直接挪成缓存命中

DeepSeek API 文档明确写了：Context Caching on Disk 默认对所有用户开启。当多个请求共享前缀时，重叠部分直接从磁盘缓存读取，不必重新 prefill。

V4 技术报告进一步解释了它在模型内部怎么配合这个机制：

对 CSA/HCA：把 compressed KV 全部落盘；
命中前缀时，直接读回完整压缩块对应的 KV；
对还不完整的尾部压缩块，重新计算补齐；
对 SWA：提供 full caching / periodic checkpointing / zero caching 三种策略，按“存储开销 vs 重算代价”做权衡。

这和官方 API 的缓存命中规则是对应起来的。文档里写得很清楚，缓存前缀单元有三种持久化来源：

请求边界持久化：一轮请求结束时，把边界位置固化成 cache prefix unit；
公共前缀检测：多次请求出现共同前缀后，把共同部分单独固化；
固定 token 间隔切块：超长输入/输出按固定间隔切成可命中的块。

要注意的是，它不是模糊相似命中，而是必须完整匹配某个 cache prefix unit。另外官方也强调：缓存是 best-effort，不保证 100% 命中。

9.3 这为什么会直接反映到价格上

因为长文档问答、代码 Agent、企业知识库、工具型多轮对话，都有一个共同特征：同一大段前缀会被反复复用。

如果每次都重做 prefill，模型再强也会很贵。DeepSeek 把这部分从 GPU 昂贵计算改成“读磁盘 + 补一点尾部重算”，也就解释了为什么官方可以把缓存命中价格设置得远低于缓存未命中。以 V4-Pro 为例，写作时官方定价里：

缓存命中：0.025 元 / 百万 tokens（2.5 折）
缓存未命中：3 元 / 百万 tokens（2.5 折）

两者差了两个数量级。当然，官方单价里仍然包含市场策略和促销因素；但如此大的价差至少说明：系统在主动引导开发者把工作负载组织成 cache-friendly 的形式。

十、第九项：后训练不再靠“一个大模型混着学一切”，而是先练专家，再统一蒸馏

DeepSeek-V4 的后训练范式，也明显是为了效率服务的。

技术报告写得很直接：和 V3.2 相比，V4 后训练里一个关键变化是，把 mixed RL 阶段整个替换成了 On-Policy Distillation（OPD）。

它分两步：

10.1 先训 specialist

针对数学、代码、Agent、指令跟随等不同领域，DeepSeek 不是让一个统一模型直接混着学，而是先分别做：

SFT；
再用 GRPO 做 RL，对不同领域施加不同的 reward；
对不同 reasoning effort（Non-think / High / Max）还用不同长度惩罚和上下文窗口去训练。

这一步的意义是：把每种能力先练到“足够尖”，不要太早混。

10.2 再用多教师 OPD 把能力收编进一个统一学生模型

随后，DeepSeek 用多教师 OPD 做统一模型合并。它不是权重平均，也不是把多个专家模型串在服务层外面，而是让学生模型在自己的采样轨迹上，对齐多个 teacher 的输出分布。

报告披露了几个关键点：

使用 10 多个 teacher models 覆盖不同领域；
采用的是 reverse KL 目标，简单说，就是让学生去贴近 teacher 的高概率分布，而不是只盯住少数采样到的 token；
不是常见的 token-level KL 近似，而是做 full-vocabulary logit distillation，也就是对整张词表的 logit 分布做对齐；
这样梯度方差更小，稳定性更好，不容易出现传统 mixed RL / weight merge 里的能力互相打架。

这套范式为什么和性价比有关？因为它把“练很多专科能力”和“最终只维护一个统一大模型”这两件事同时做到了。你可以把它理解成：训练时允许能力分治，部署时坚持能力收敛。

十一、第十项：FP4 QAT 不是宣传词，而是 V4 部署成本里真正落地的一刀

DeepSeek-V4 并没有把低精度停留在“我们也支持 FP8/FP4”这种口号层面。它在后训练里明确做了 FP4 Quantization-Aware Training。

应用对象有两个：

MoE expert weights；
CSA indexer 的 QK path。

为什么恰好选这两个？

MoE expert weights 是显存和内存带宽的大头之一；
indexer QK path 是 1M context 下高频、反复执行的选择路径。

技术报告公开的实现细节很有意思：

优化器维护 FP32 master weights；
前向时先量化成 FP4，再无损地反量化到 FP8 参与计算；
之所以能做到“FP4 → FP8 无损”，是因为他们当前的 block 量化设置允许 FP8 的动态范围完整吸收 FP4 的缩放信息；
这样一来，整条 QAT pipeline 可以最大程度复用现有 FP8 训练栈；
到真正 inference / rollout 时，就直接用 native FP4 权重，不只是“模拟量化”。

另外，DeepSeek 还把 CSA indexer 的 index score 从 FP32 进一步量化到 BF16，在保持 99.7% KV entry recall 的同时，让 top-k selector 获得 2× 加速。

这一节的核心结论是：V4 不是把 FP4 停留在路线图或宣传页上，而是已经把它放进官方披露的训练与部署路径里。

十二、第十一项：Quick Instruction 和长链推理上下文管理，连 Agent 的“胶水成本”都在省

如果只看基础模型，很容易低估 Agent 场景里真正烧钱的地方。很多系统的额外成本不在主模型，而在一堆外围“小动作”：

要不要搜网页；
要不要读 URL；
这个问题属于什么 domain；
要不要生成一个标题；
工具调用过程中上一轮思路要不要保留。

DeepSeek-V4 针对这些“胶水工作”做了两件很工程化的优化。

12.1 Quick Instruction：别起一个小模型，直接复用当前 KV cache

很多聊天系统会用一个额外的小模型来做 search intent、authority 判断、query 生成这类预处理。问题是：小模型虽然便宜，但它要重新 prefill，之前主模型已经算好的 KV cache 完全复用不上。

V4 的做法是引入一组 special tokens，例如：

<|action|>
<|query|>
<|authority|>
<|domain|>
<|read_url|>

直接把这些辅助任务附着在原输入序列上跑。这样它们就能重用已经算好的 KV cache，还能并行做一部分预处理任务。技术报告给出的结论非常明确：这样可以显著降低 TTFT（time to first token，也就是首 token 延迟），而且少维护一个单独的小模型。

12.2 Interleaved Thinking：工具回合里的思路不要白白冲掉

DeepSeek API 文档和 V4 报告都强调了“thinking mode + tool calls”的上下文管理。V4 的一个升级是：

普通对话里，新用户消息到来后，旧 reasoning trace 仍可丢弃，避免上下文膨胀；
但在工具调用型 Agent 场景里，reasoning content 会跨轮次保留，包括跨 user message 边界也保留。

这件事对 Agent 很重要。因为很多工具型任务不是“单次思考 → 单次回答”，而是“思考 → 调工具 → 再思考 → 再调工具”。如果每来一轮用户消息就把前面思路冲掉，模型会不断重建问题状态，既浪费 token，又拉长延迟。

V4 借着 1M context，把这种 interleaved thinking 真正做成了长链任务优化。这不是最显眼的创新，但对代码 Agent、复杂浏览器任务、多步工具调用来说，它能实打实减少无效重复推理。

十三、哪些流行说法现在还不能写成结论

写 DeepSeek-V4 这类文章时，最容易犯的错误不是“不懂”，而是把二手传播里的推断写成官方事实。就当前公开资料来说，下面三条边界要守住：

可以确认：DeepSeek-V4 的关键降本技术是 MoE、CSA/HCA、mHC、Muon、EP overlap、磁盘 KV cache、OPD、FP4 QAT。
不能确认：任何官方尚未公开披露的具体供应链细节、采购价格、芯片路线图。
可以确认：V4 的 EP 方案在 NVIDIA GPU 和华为昇腾 NPU 上做过验证。
不能确认：API 价格中到底有多少比例来自某一类芯片或某个集群部署形态。
可以确认：DeepSeek API 的磁盘缓存默认开启，缓存命中价格很便宜。
不能确认：缓存命中“必然”能到某个固定百分比，因为官方文档明确说它是 best-effort，不保证 100% 命中。

这一节看起来像在泼冷水，但恰恰是技术写作里最应该守住的地方：把真正公开的工程创新讲透，比把没公开的猜测写满更有价值。

十四、小结

DeepSeek-V4 的极致性价比，最好按三层来理解。

第一层，是直接压在线推理单价。DeepSeekMoE 把总参数和激活参数拆开，CSA + HCA 把 1M context 下的 attention FLOPs 和 KV cache 一起砍掉，混合 KV 格式和磁盘级 context caching 继续压缩长前缀的服务成本，FP4 QAT 则把部署时的显存和带宽账再往下削一层。

第二层，是降低训练与后训练的总成本。mHC、Muon、Anticipatory Routing、SwiGLU clamp 这些东西不一定直接出现在 API 价格页上，但它们会直接决定万亿级 MoE 能不能稳定训完、会不会频繁 spike、要不要反复回滚，以及后训练里不同能力到底是相互增强还是互相打架。

第三层，是减少系统落地和 Agent runtime 的重复损耗。wave pipeline、TileLang、deterministic kernels、tensor-level checkpointing 压的是通信空转、kernel launch 和回归调试成本；Quick Instruction、interleaved thinking、磁盘前缀缓存压的是工具调用、多轮推理和 shared prefix 场景里的重复 prefill。

所以 DeepSeek-V4 便宜，不是因为它只是把一个“稍弱但更低价”的模型摆上货架，而是因为它把最烧钱的几类账分开处理，再分别做到更高的单位效率。这个结论在公开资料里的支撑点是明确的；至于没有公开披露的供应链、采购和集群细节，仍然不该越界替官方下结论。

参考资料

DeepSeek-AI. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence. 2026.
DeepSeek API Docs: DeepSeek-V4 Preview
DeepSeek API Docs: Pricing
DeepSeek API Docs: Context Caching on Disk
DeepSeek API Docs: Thinking Mode

延伸阅读

上一篇：DeepSeek-V4 与国产芯片：从备份路线到主路径

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-22 · architecture / ai-infra

文章导航

大模型基础设施系列导航

目录