loki 标签归档

共 6 篇文章 · 返回首页

【可观测性工程】数据模型：时间序列、日志、Span、Profile 的内部表达

2026-06-11 | architecture · observability | #data-model #tsdb #prometheus #loki #tempo #jaeger #pprof #flamegraph #compression #gorilla #zstd #cost-model

拆解 Metrics、Logs、Traces、Profiles、Events 五大支柱在磁盘和内存中的内部数据模型。字段级对照 Prometheus TSDB block、Loki chunk、Tempo block，给出带假设的存储成本估算公式，并解释索引策略如何决定账单与查询延迟。

【可观测性工程】日志管道：Fluent Bit、Vector、Logstash、Cribl 的取舍

2026-06-11 | architecture · observability | #fluentbit #vector #logstash #cribl #log-pipeline #kubernetes #daemonset #backpressure #vrl #loki

日志 Agent 与管道决定数据能否采得上来、送得到、不丢不炸。对比 Fluent Bit、Vector、Logstash、Cribl 的架构与可靠性，给出 K8s DaemonSet、背压处理与带假设的性能对比模型。

【可观测性工程】存储与成本：采样、下采样、冷热分层、对象存储

2026-06-18 | architecture · observability | #cost #storage #sampling #downsampling #retention #tiered-storage #compression #loki #prometheus #tempo #mimir

可观测性数据量持续增长，存储成本常超过计算成本。拆解四大支柱的成本结构、采样与保留期策略、冷热分层架构，以及带显式假设的成本估算 worksheet。

【可观测性工程】多租户与安全：数据隔离、标签治理、PII 清洗

2026-06-18 | architecture · observability | #multi-tenancy #pii #data-isolation #label-governance #loki #mimir #tempo #grafana #security #chargeback

可观测性平台全公司共享时，查询隔离、写入限流、标签治理、PII 清洗与成本分摊的工程实现。以 Grafana Mimir/Loki/Tempo 的 X-Scope-OrgID 为主线，给出 Collector 配置与合规检查清单。

【可观测性工程】真实事故复盘剧本：从指标抖动到根因的全链路追查

2026-06-18 | architecture · observability | #incident-response #debugging #playbook #slo #prometheus #tempo #loki #profiling #ebpf #events

虚构但可复现的 checkout 服务事故全链路：SLO Burn Rate 告警后按 Golden Minute→Metrics→Traces→Logs→Profile→Events 五阶递进排障，含 PromQL/LogQL/kubectl 命令与三条分级剧本，交叉引用系列 01–22。

【可观测性工程】Logs：Loki、ClickHouse、Elasticsearch、OpenObserve 的取舍

2026-04-22 | architecture · observability | #loki #elasticsearch #clickhouse #openobserve #logs #logql #observability #quickwit #signoz

从日志场景分类出发，深入对比 Elasticsearch/OpenSearch、Grafana Loki、ClickHouse、OpenObserve 四大方案在全文检索、写入吞吐、存储成本、多租户和运维复杂度上的本质差异，结合 B 站、知乎 ClickHouse 日志平台实践，给出选型决策矩阵与工程坑点。