monitoring 标签归档

共 7 篇文章 · 返回首页

【列存引擎内核】监控与系统表

2026-06-18 | database · observability | #clickhouse #system-tables #monitoring #parts #merge #replication #query-log

ClickHouse system.parts、merges、replicas、query_log 与 replication_queue 的字段语义；parts 数、merge 延迟、内存 tracking 的可观测性基线与告警思路。

【量化交易】运维与合规：监控、熔断、监管报送、复盘

2026-05-01 | quant | #ops #compliance #monitoring #circuit-breaker #post-mortem

量化交易系统的运维不像普通互联网服务：故障窗口以毫秒计，每一次错误直接对应金钱损失。本文从监控分层、告警值班、熔断降级、风控前置、监管报送、事故复盘到制度文化，串起一个把「能跑」升级到「能托管真金白银」所需要的全部基础设施。给出一份可运行的实时风控守护进程，演示订单速率限制、PnL drawdown 监控与熔断触发；并给出 SLO 与 error budget 的量化计算示例。

【MySQL InnoDB 内核】监控体系：INNODB STATUS 与 Performance Schema

2026-06-18 | database · kernel | #mysql #innodb #monitoring #performance-schema #innodb-status #exporter

精读 SHOW ENGINE INNODB STATUS 各段、performance_schema 事务/锁/内存表与 mysqld_exporter 关键指标。

【PG 内核】监控体系与告警设计：从内核机制出发定义该监控什么

2026-06-16 | database · kernel | #postgresql #pg-kernel #monitoring #observability #pg-stat-statements #pg-stat-activity #pg-locks #pg-stat-replication #autovacuum #prometheus #alerting #pgbadger #pgcenter

不从 Grafana 模板照抄，而是从 PG 内核机制推导出必须监控的六个维度：连接与 wait_event、存储膨胀与 XID wraparound、WAL 与复制延迟、查询性能突变、锁等待链、以及 shared_buffers 命中率骗局。每个维度配具体 SQL 和指标解读，告警阈值给出内核依据而非拍脑袋数字，同时盘点 pg_stat_statements queryid 冲突、track_io_timing 开销、pg_stat_activity 自身代价等监控工具本身的陷阱。

【存储工程】磁盘空间耗尽：从 70% 到 ENOSPC 的行为退化链

2026-06-11 | storage | #enospc #disk-full #capacity-planning #ext4 #xfs #btrfs #zfs #monitoring

逐层拆解 ext4、XFS、Btrfs、ZFS 从 70% 填充到 100% 耗尽过程中的块分配退化、碎片化加剧和 ENOSPC 故障模式，给出各文件系统的容量红线、监控阈值和应急恢复方法。

【可观测性工程】可观测性 vs 监控：从 Zabbix/Nagios 到 OpenTelemetry 的二十年

2026-04-22 | architecture · observability | #monitoring #observability #nagios #zabbix #prometheus #opentelemetry #graphite #statsd #grafana #push-pull

监控与可观测性不是新旧迭代，而是认知模型的根本转换。本文梳理从 1999 年 Nagios 到 2019 年 OpenTelemetry 的二十年演进时间线，对比 push/pull 模型、数据模型差异，以及国内从 Zabbix 到 Prometheus 再到 OTel 的典型迁移路径与工程坑点。

t-digest：分布式系统中的分位数估计

2025-07-15 | algorithms | #probabilistic #t-digest #quantile #monitoring

监控系统的 P99 延迟是怎么算出来的？t-digest 用巧妙的质心压缩在亚线性空间中给出准确的分位数估计，尤其在尾部保持高精度。