【可观测性工程】混沌工程:ChaosBlade、Chaos Mesh 与可观测性闭环
混沌工程的价值不是'找到 bug',而是验证'你的可观测性能不能发现这类故障'。从六步实验法到 ChaosBlade/Chaos Mesh 的生产实践,到爆炸半径控制与可观测性改进闭环。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 4 篇文章 · 返回首页
混沌工程的价值不是'找到 bug',而是验证'你的可观测性能不能发现这类故障'。从六步实验法到 ChaosBlade/Chaos Mesh 的生产实践,到爆炸半径控制与可观测性改进闭环。
重试为何反而让系统雪崩?熔断器的状态机如何设计才不会误判?本文从一次重试风暴引发的雪崩事故出发,系统拆解熔断器(Circuit Breaker)状态机设计与参数调优、舱壁(Bulkhead)资源隔离策略、级联超时预算分配、指数退避与抖动的数学原理,深入分析 Resilience4j 与 Sentinel 的架构差异,讨论装饰器组合顺序的陷阱,最后给出工程案例复盘和弹性模式选型对比。
混沌工程不是随机破坏——它是一套严谨的实验方法论。本文从混沌工程的五条原则出发,拆解 Netflix 从 Chaos Monkey 到 Chaos Kong 的演进历程,对比 LitmusChaos、ChaosBlade、Chaos Mesh 等工具的架构差异,讲清楚故障注入的分类学和 GameDay 演练的落地流程。
Netflix 在 2008 年经历了一次长达三天的数据库故障,导致 DVD 寄送业务全面瘫痪。这次事故促使团队做出了一个关键决策:放弃自建数据中心,全面迁移到亚马逊云服务(Amazon Web Services,AWS)。这一决策不仅重塑了 Netflix 的技术栈,还催生了混沌工程(Chaos Engineerin…