incident-response 标签归档

共 5 篇文章 · 返回首页

【可观测性工程】真实事故复盘剧本：从指标抖动到根因的全链路追查

2026-06-18 | architecture · observability | #incident-response #debugging #playbook #slo #prometheus #tempo #loki #profiling #ebpf #events

虚构但可复现的 checkout 服务事故全链路：SLO Burn Rate 告警后按 Golden Minute→Metrics→Traces→Logs→Profile→Events 五阶递进排障，含 PromQL/LogQL/kubectl 命令与三条分级剧本，交叉引用系列 01–22。

【身份与访问控制工程】身份系统迁移与事故响应

2026-06-22 | architecture · security | #identity-migration #password-hash #mfa-migration #incident-response #session-continuity #idp-migration #break-glass

身份系统迁移是整个 IAM 领域中风险最高、回滚最难的操作——用户密码哈希不可逆迁移、MFA 种子不可迁移、WebAuthn credential 绑定到特定 RP ID、数百万活跃 Session 的中断窗口——任何一个环节出错都意味着用户无法登录。本文从迁移的四种策略出发，拆解密码哈希桥接、MFA 重新注册编排、Session 连续性保持、灰度切流的架构设计，以及身份安全事故的应急响应流程。

【系统架构设计】故障排查方法论：从告警到根因的系统化路径

2026-04-13 | architecture | #incident-response #postmortem #ICS #oncall #root-cause-analysis #SRE

凌晨三点的告警响了，你打开笔记本，盯着一堆指标不知道从哪里下手——两小时后发现是配置改错了。这种经历几乎每个 oncall 工程师都有过。本文从 Incident Command System 在 SRE 中的适配讲起，拆解从告警到根因的系统化排查路径，覆盖事件分级、假设驱动调试、事后复盘的无责文化、Google 与 Meta 的 oncall 体系，给出可落地的 Runbook 模板和 Postmortem 模板。

【可观测性工程】Events 与变更关联：CloudEvents、发布打点、K8s 事件

2026-04-22 | architecture · observability | #events #cloudevents #kubernetes-events #grafana-annotations #change-management #argo-events #observability #incident-response

把 Events 作为可观测性第四/五支柱来讲：变更事件、K8s Events、业务事件的数据模型，CloudEvents CNCF 规范，Kubernetes Event Exporter，Grafana Annotations，Argo Events，以及如何把发布打点与 Traces/Metrics 关联，实现\"变更即根因\"的故障响应方法论。

【网络工程】网络取证：流量分析、异常检测与事件响应

2025-07-29 | network | #network-forensics #pcap #zeek #threat-hunting #incident-response #traffic-analysis

网络取证是安全事件响应的关键环节。本文从全流量捕获 vs NetFlow/sFlow 的取舍、pcap 的存储与检索架构、Zeek 的网络日志分析、威胁狩猎的网络指标（IoC）、攻击路径还原方法论，到取证工具链和证据保全流程，系统讲解网络取证的工程实践。