【分布式系统百科】大规模故障复盘:从真实事故中学习分布式系统设计
精选 8 个真实大规模分布式系统故障案例,逐一分析根因、传播路径、恢复过程与事后改进,提炼分布式系统可靠性设计的共性教训。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 5 篇文章 · 返回首页
精选 8 个真实大规模分布式系统故障案例,逐一分析根因、传播路径、恢复过程与事后改进,提炼分布式系统可靠性设计的共性教训。
从 TLA+ 到 P 语言,解析形式化验证在分布式系统中的应用,包含 Amazon、Azure 等工业实践以及 Two-Phase Commit 的完整 TLA+ 规范。
从 Netflix Chaos Monkey 到 Chaos Mesh,系统讲解混沌工程的方法论、实验设计、工具链与实践经验,以及与故障注入和确定性模拟的本质区别。
深入解析 Jepsen 测试框架的方法论、工具链与经典发现,涵盖线性一致性检查、故障注入策略以及对工业界数据库的实际影响。
从 FoundationDB 到 TigerBeetle 再到 Antithesis,解析确定性模拟测试如何通过控制所有非确定性源实现完全可重放的分布式系统测试。