【身份与访问控制工程】身份系统迁移与事故响应
身份系统迁移是整个 IAM 领域中风险最高、回滚最难的操作——用户密码哈希不可逆迁移、MFA 种子不可迁移、WebAuthn credential 绑定到特定 RP ID、数百万活跃 Session 的中断窗口——任何一个环节出错都意味着用户无法登录。本文从迁移的四种策略出发,拆解密码哈希桥接、MFA 重新注册编排、Session 连续性保持、灰度切流的架构设计,以及身份安全事故的应急响应流程。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 5 篇文章 · 返回首页
身份系统迁移是整个 IAM 领域中风险最高、回滚最难的操作——用户密码哈希不可逆迁移、MFA 种子不可迁移、WebAuthn credential 绑定到特定 RP ID、数百万活跃 Session 的中断窗口——任何一个环节出错都意味着用户无法登录。本文从迁移的四种策略出发,拆解密码哈希桥接、MFA 重新注册编排、Session 连续性保持、灰度切流的架构设计,以及身份安全事故的应急响应流程。
从 Grafana 上 p99 延迟飙升到定位具体代码行——拆解事故排障的标准操作流程:Golden Minute、Metric→Trace→Log→Profile→Kernel 的五阶递进、缓解优先原则与事后改进。
凌晨三点的告警响了,你打开笔记本,盯着一堆指标不知道从哪里下手——两小时后发现是配置改错了。这种经历几乎每个 oncall 工程师都有过。本文从 Incident Command System 在 SRE 中的适配讲起,拆解从告警到根因的系统化排查路径,覆盖事件分级、假设驱动调试、事后复盘的无责文化、Google 与 Meta 的 oncall 体系,给出可落地的 Runbook 模板和 Postmortem 模板。
把 Events 作为可观测性第四/五支柱来讲:变更事件、K8s Events、业务事件的数据模型,CloudEvents CNCF 规范,Kubernetes Event Exporter,Grafana Annotations,Argo Events,以及如何把发布打点与 Traces/Metrics 关联,实现\"变更即根因\"的故障响应方法论。
网络取证是安全事件响应的关键环节。本文从全流量捕获 vs NetFlow/sFlow 的取舍、pcap 的存储与检索架构、Zeek 的网络日志分析、威胁狩猎的网络指标(IoC)、攻击路径还原方法论,到取证工具链和证据保全流程,系统讲解网络取证的工程实践。