2026-04-22 | architecture · fintech | #reliability #dr #multi-active #unitization #oceanbase #chaos-engineering #two-region-three-dc #ldc
金融系统的可用性不是 SLA 表里的一个数字,而是人民银行、银保监、GB/T 20988 六级灾备、SOX、FFIEC 这些监管框架共同压出来的工程形态。本文从 RTO/RPO 的定义出发,走过单机→主备→同城双活→两地三中心→三地五中心→单元化(LDC/Set)的架构演进,拆解异地多活的数据同步、冲突处理与流量调度,配套混沌工程、全链路压测、应急预案与复盘文化,最后用 Go 写一个可运行的多活流量切换骨架。结合光大 8·16 乌龙指、2021 AWS us-east-1 故障、2020 工行手机银行故障、蚂蚁春节红包等公开案例展开。
2026-04-22 | architecture · fintech | #fintech #payment #clearing #settlement #exchange #risk #aml #kyc #credit #reliability #cbdc #stablecoin
面向中国工程团队的金融科技系列。从账务底盘、支付、清结算、交易所、风控合规到可靠性与灾备,中国与全球视角并举,讲清楚金融系统在工程落地中的真实挑战。
2025-07-21 | network | #tcp #reliability #retransmission #sack #rto
从工程视角剖析 TCP 可靠传输的核心机制——序列号与确认的精确语义、RTO 计算的数学基础、快速重传与 SACK 的工程价值、DSACK 的重复检测,以及重传对延迟的放大效应与实际诊断方法。
2026-04-13 | architecture | #SLO #SLI #SLA #error-budget #SRE #burn-rate #reliability
SLI、SLO、SLA 不只是运维指标——它们是架构决策的定量依据。本文从 Google SRE 的 Error Budget 策略出发,拆解多窗口燃烧率告警的数学原理,讲清楚 SLO 如何在产品与工程的冲突中充当仲裁者,并给出基于 Prometheus 和 Grafana 的落地方案。
2026-03-15 | system-design | #high-availability #SLA #distributed-systems #reliability #fault-tolerance #cascading-failure
深度剖析 SLA "几个9"背后的统计陷阱:独立性假设、级联故障、关联故障如何让你的可用性数字沦为一厢情愿的幻觉