deepseek 标签归档

共 7 篇文章 · 返回首页

大模型基础设施工程

2026-04-22 | architecture · ai-infra | #llm #infra #training #inference #rag #agent #vllm #sglang #deepseek #llmops

面向中国工程团队的大模型基础设施系列。从 GPU/CUDA/互联、训练框架与 3D 并行、vLLM/SGLang 推理引擎、量化与推测解码、RAG/Agent 到服务化、网关、可观测性与安全合规，覆盖 LLMOps 全链路。

【大模型基础设施工程】08：MoE 训练工程

2026-04-22 | architecture · ai-infra | #llm #infra #moe #mixture-of-experts #gshard #switch-transformer #mixtral #deepseek #deepep #megablocks #expert-parallel

混合专家（MoE）模型训练工程实战：从 GShard、Switch、Mixtral 到 DeepSeek-V3，覆盖门控、负载均衡、Expert Parallel、All-to-All 通信与 DeepEP / MegaBlocks 等开源栈

【开源许可与版权工程】模型许可证深度解析：OpenRAIL-M、LLaMA、Apache 2.0 在大模型场景的真实区别

2026-04-22 | architecture · opensource | #model-license #openrail #llama #gemma #apache2 #bloom #stablelm #mistral #qwen #deepseek #ai-license #responsible-ai #use-based-restriction

模型权重到底是代码、数据、还是全新的客体？为什么 Meta 的 LLaMA、Google 的 Gemma、Stability 的 StableLM、BigScience 的 BLOOM 选了完全不同的许可证？OpenRAIL-M 的 'Use-Based Restrictions' 在工程上如何落地？本文逐条解析 8 类主流模型许可证，给出企业自研、微调、商用、二次分发四个场景的决策清单。

【大模型基础设施工程】01：大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

2026-04-22 | architecture · ai-infra | #llm #infra #overview #training #inference #rag #agent #deepseek #openai

面向工程师的大模型基础设施开篇地图，覆盖 2022 到 2026 的工程分水岭、五层工程栈、训练与推理的工程差异、中国与全球行业版图以及成本曲线。

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏

2026-04-22 | architecture · ai-infra | #llm #infra #training #pretrain #sft #rlhf #scaling-law #adamw #tokenizer #deepseek #chinchilla

以工程视角串联现代 LLM 的四阶段训练栈——预训练、中训、SFT 与对齐——覆盖数据、Tokenizer、优化器、精度、Scaling Law 与代表性训练框架。

【大模型基础设施工程·特别篇】DeepSeek-V4 与国产芯片：从备份路线到主路径

2026-04-25 | architecture · ai-infra | #llm #infra #deepseek #domestic-chip #ascend #cann #training #inference #ai-chip

DeepSeek-V4 发布后，如果国产芯片已经支撑旗舰模型的关键训练或推理链路，它会怎样影响 NVIDIA 生态、国产 AI 芯片、云厂商、模型团队和工程师的技术选择？

【大模型基础设施工程·特别篇】27：DeepSeek-V4 的极致性价比从哪来

2026-05-27 | architecture · ai-infra | #llm #infra #deepseek #moe #long-context #kv-cache #fp4 #muon #agent

从 MoE 激活比、CSA/HCA 混合注意力、mHC、Muon，到磁盘级 KV cache、FP4 QAT 和专家蒸馏，系统拆解 DeepSeek-V4 为什么能把 1M 上下文和强 Agent 能力做得又强又便宜。