【大模型基础设施工程·特别篇】27:DeepSeek-V4 的极致性价比从哪来
从 MoE 激活比、CSA/HCA 混合注意力、mHC、Muon,到磁盘级 KV cache、FP4 QAT 和专家蒸馏,系统拆解 DeepSeek-V4 为什么能把 1M 上下文和强 Agent 能力做得又强又便宜。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 5 篇文章 · 返回首页
从 MoE 激活比、CSA/HCA 混合注意力、mHC、Muon,到磁盘级 KV cache、FP4 QAT 和专家蒸馏,系统拆解 DeepSeek-V4 为什么能把 1M 上下文和强 Agent 能力做得又强又便宜。
面向中国工程团队的大模型基础设施系列。从 GPU/CUDA/互联、训练框架与 3D 并行、vLLM/SGLang 推理引擎、量化与推测解码、RAG/Agent 到服务化、网关、可观测性与安全合规,覆盖 LLMOps 全链路。
面向工程师的大模型基础设施开篇地图,覆盖 2022 到 2026 的工程分水岭、五层工程栈、训练与推理的工程差异、中国与全球行业版图以及成本曲线。
从 ReAct 到 LangGraph、AutoGen、CrewAI、Coze,再到 MCP 与 A2A 协议,系统梳理 LLM Agent 框架的工程栈与选型
Spider / BIRD 评测、DIN-SQL / C3 / DAIL-SQL 的核心机制、schema linking 与 self-consistency,以及一个离线可跑的最小 Text-to-SQL 闭环 demo