【大模型基础设施工程·特别篇】DeepSeek-V4 与国产芯片:从备份路线到主路径
DeepSeek-V4 发布后,如果国产芯片已经支撑旗舰模型的关键训练或推理链路,它会怎样影响 NVIDIA 生态、国产 AI 芯片、云厂商、模型团队和工程师的技术选择?
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 5 篇文章 · 返回首页
DeepSeek-V4 发布后,如果国产芯片已经支撑旗舰模型的关键训练或推理链路,它会怎样影响 NVIDIA 生态、国产 AI 芯片、云厂商、模型团队和工程师的技术选择?
面向中国工程团队的大模型基础设施系列。从 GPU/CUDA/互联、训练框架与 3D 并行、vLLM/SGLang 推理引擎、量化与推测解码、RAG/Agent 到服务化、网关、可观测性与安全合规,覆盖 LLMOps 全链路。
把 2017 年 Transformer 原论文的训练配方完整复现一遍——数据集、硬件、优化器、学习率公式、warmup、label smoothing、dropout、batching by tokens、beam search 推理。重点解释那个看起来很神秘的学习率公式 lr = d^(-0.5) · min(step^(-0.5), step · warmup^(-1.5)),以及为什么 warmup_steps=4000 这个魔法常数不能去掉。
面向工程师的大模型基础设施开篇地图,覆盖 2022 到 2026 的工程分水岭、五层工程栈、训练与推理的工程差异、中国与全球行业版图以及成本曲线。
以工程视角串联现代 LLM 的四阶段训练栈——预训练、中训、SFT 与对齐——覆盖数据、Tokenizer、优化器、精度、Scaling Law 与代表性训练框架。