【大模型基础设施工程】10:Checkpoint 与故障容忍 2026-04-22 | architecture · ai-infra | #llm #infra #checkpoint #fault-tolerance #resiliency #dcp #sdc #llama3 #xai-colossus #straggler 万卡集群训练每天都在断:从 GPU HBM ECC、NVLink 降级到 SDC,本篇系统讲 checkpoint、恢复与弹性容错的工程实践。