【存储工程】存储故障模式
全面分析存储系统的静默故障——比特翻转、扇区错误、丢失写、撕裂写、固件 bug 与灰色故障,以及 CERN/Google 的大规模数据损坏研究
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
全面分析存储系统的静默故障——比特翻转、扇区错误、丢失写、撕裂写、固件 bug 与灰色故障,以及 CERN/Google 的大规模数据损坏研究
教科书把故障分成 crash 和 Byzantine 两种,但生产环境里最常见、最难处理的故障恰恰是两者之间的灰色地带:静默数据损坏、时钟跳变、GC 停顿、慢磁盘。本文从故障层级模型出发,逐层拆解五种故障类型,结合真实事故案例分析检测手段与工程应对策略。