compression 标签归档 | 土法炼钢兴趣小组的算法知识备份

【列存引擎内核】压缩与编码

2026-06-18 | database · storage | #clickhouse #compression #lz4 #zstd #delta #gorilla #encoding #lowcardinality #24-lts

ClickHouse 列压缩：LZ4、ZSTD、Delta、DoubleDelta、Gorilla 时序编码与列类型关系；CODEC 链顺序、LowCardinality 与 PG TOAST 对照。压缩比须本机实测，本文不编造倍数。

【列存引擎内核】ClickHouse 与 DuckDB 源码级拆解

2026-06-18 | database · storage | #clickhouse #duckdb #columnar #mergetree #olap #vectorized-execution #compression #distributed-table

主选 ClickHouse 拆解 MergeTree 存储格式、向量化执行与分布式协调；DuckDB 作为嵌入式 OLAP 对照。覆盖列存文件布局、merge 机制、跳数索引与生产故障模式，面向数据平台工程师与从 PG/MySQL 转 OLAP 的 DBA。

算术编码与 ANS：超越 Huffman

2026-05-11 | algorithms | #arithmetic-coding #ans #rans #entropy-coding #compression

用区间细分、重归一化与 ANS 槽位图讲清：Huffman 的 1 比特天花板如何被算术编码和 ANS 打破。

【数据湖与开放表格式】列式编码与压缩

2026-06-30 | database · storage | #parquet #dictionary-encoding #rle #zstd #compression #byte-stream-split #delta-encoding

拆解 Parquet 的两层缩减：专用编码（dictionary / RLE / DELTA_BINARY_PACKED / BYTE_STREAM_SPLIT）降熵，再用 zstd/snappy/lz4/gzip 压字节。用 pyarrow 在同一列上实测不同编码+压缩组合的体积与读取耗时（3M 行，7 轮中位数），并与 ClickHouse CODEC 做同思想不同落地的对照。

【可观测性工程】数据模型：时间序列、日志、Span、Profile 的内部表达

2026-06-11 | architecture · observability | #data-model #tsdb #prometheus #loki #tempo #jaeger #pprof #flamegraph #compression #gorilla #zstd #cost-model

拆解 Metrics、Logs、Traces、Profiles、Events 五大支柱在磁盘和内存中的内部数据模型。字段级对照 Prometheus TSDB block、Loki chunk、Tempo block，给出带假设的存储成本估算公式，并解释索引策略如何决定账单与查询延迟。

【可观测性工程】存储与成本：采样、下采样、冷热分层、对象存储

2026-06-18 | architecture · observability | #cost #storage #sampling #downsampling #retention #tiered-storage #compression #loki #prometheus #tempo #mimir

可观测性数据量持续增长，存储成本常超过计算成本。拆解四大支柱的成本结构、采样与保留期策略、冷热分层架构，以及带显式假设的成本估算 worksheet。

【Transformer 与注意力机制】51｜量化、蒸馏、剪枝：让大模型跑在小硬件上

2026-04-15 | transformer | #transformer #quantization #distillation #pruning #compression

大模型部署的瓶颈不只有参数量，还有显存带宽、KV Cache、激活和延迟。本文解释量化、蒸馏、剪枝分别压缩什么：量化降低数值精度，蒸馏把大模型行为迁移到小模型，剪枝移除不重要结构；并说明 GPTQ、AWQ、SmoothQuant 等方法背后的核心取舍。

【可观测性工程】时序数据库内核：TSM、TSI、倒排索引与 Gorilla 压缩

2026-04-22 | architecture · observability | #tsdb #prometheus #influxdb #tsm #tsi #gorilla #victoriametrics #clickhouse #compression #metrics

深入时序数据库的存储内核：Prometheus TSDB 的 WAL 与块管理、InfluxDB 的 TSM 引擎与 TSI 倒排索引、Gorilla 压缩算法的数学原理、VictoriaMetrics mergeset 架构、ClickHouse MergeTree 作为 metrics 后端，以及国内大厂在 series churn 和 compaction 风暴上踩过的坑。

【存储工程】压缩算法工程实践

2025-09-20 | storage | #compression #lz4 #zstd #snappy #brotli #zlib #storage-optimization

系统对比 LZ4、Zstd、Snappy、Brotli 等压缩算法在存储引擎中的工程实践——压缩率、速度、CPU 开销与选型指南

【存储工程】列式存储原理：为什么分析查询快 10 倍

2025-09-13 | storage | #columnar-storage #row-store #simd #vectorized #compression #pax

一条典型的分析查询只访问表中数百列里的三四列，行式存储却把整行数据从磁盘搬进内存，绝大多数字节在读入后立刻被丢弃。列式存储（Columnar Storage）把同一列的值连续存放，查询只需要读取涉及到的列，I/O 量可以降低一到两个数量级。但 I/O 减少只是故事的一半——列式布局还为压缩、向量化执行（Vectoriz…