【量化交易】运维与合规:监控、熔断、监管报送、复盘
量化交易系统的运维不像普通互联网服务:故障窗口以毫秒计,每一次错误直接对应金钱损失。本文从监控分层、告警值班、熔断降级、风控前置、监管报送、事故复盘到制度文化,串起一个把「能跑」升级到「能托管真金白银」所需要的全部基础设施。给出一份可运行的实时风控守护进程,演示订单速率限制、PnL drawdown 监控与熔断触发;并给出 SLO 与 error budget 的量化计算示例。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 3 篇文章 · 返回首页
量化交易系统的运维不像普通互联网服务:故障窗口以毫秒计,每一次错误直接对应金钱损失。本文从监控分层、告警值班、熔断降级、风控前置、监管报送、事故复盘到制度文化,串起一个把「能跑」升级到「能托管真金白银」所需要的全部基础设施。给出一份可运行的实时风控守护进程,演示订单速率限制、PnL drawdown 监控与熔断触发;并给出 SLO 与 error budget 的量化计算示例。
监控与可观测性不是新旧迭代,而是认知模型的根本转换。本文梳理从 1999 年 Nagios 到 2019 年 OpenTelemetry 的二十年演进时间线,对比 push/pull 模型、数据模型差异,以及国内从 Zabbix 到 Prometheus 再到 OTel 的典型迁移路径与工程坑点。
监控系统的 P99 延迟是怎么算出来的?t-digest 用巧妙的质心压缩在亚线性空间中给出准确的分位数估计,尤其在尾部保持高精度。