列存引擎内核：ClickHouse 与 DuckDB 源码级拆解

读者理解 PostgreSQL 行存 OLTP 与 LSM 写优化引擎之后，仍缺 读优化列存 的完整内核拆解。ClickHouse 是开源列存工程标杆；DuckDB 代表嵌入式分析路径——两者对照覆盖 OLAP 主战场。

本系列不写 SQL 教程，写：

列存 part 在磁盘上如何组织 .bin / .mrk / .idx
一次 SELECT 如何从 part 读到向量批（Block）
MergeTree 的 merge 在合并什么、为何是列存「心脏手术」
PRIMARY KEY 在 ClickHouse 里为何不是唯一约束
生产环境 parts 过多、merge 跟不上、mutation 阻塞如何排查

系列状态：已完成（2026-06-18）；§14 学术加深已完成（2026-07-11）——全 16 篇含研究谱系、争论与开放问题；枢纽篇 01/04/12/13 最厚（C-Store · MonetDB/X100 · compiled vs vectorized · 选型坐标）。

版本锚定：ClickHouse 24.x LTS；DuckDB 1.x。源码引用标注 release tag。

适合谁看

数据平台 / OLAP 工程师：维护 ClickHouse 集群或设计 ingest 管道。
从 PG/MySQL 转的 DBA：理解排序键、merge、mutation 与 B-Tree 的差异。
嵌入式分析开发者：评估 DuckDB、pg_duckdb 与 ClickHouse 分工。
SRE：parts、副本延迟、OOM 排障。

路径	篇目	适合
OLAP 开发者	1 → 2 → 4 → 5 → 7	理解读写
平台/运维	1 → 6 → 8 → 14 → 15 → 16	集群稳定
嵌入式分析	11 → 12 → 13	DuckDB
从 PG 来	1 → 7 → 5 + PG B-Tree	索引语义差异
完整通读	1 → … → 16	系统掌握

一、六个关键问题

列存文件在磁盘上长什么样？ → 第 1、2 章
一次 SELECT 如何从 part 读到向量批？ → 第 3、4、5 章
MergeTree 的 merge 到底在合并什么？ → 第 6 章
ClickHouse 的「索引」是什么？ → 第 7 章
分布式表如何工作？ → 第 8、9 章
列存生产环境会出什么事故？ → 第 14–16 章

二、篇目依赖

flowchart TD
  A["01 列存基础"] --> B["02 Part 格式"]
  B --> C["03 压缩与编码"]
  C --> D["04 向量化执行"]
  D --> E["05 查询读取路径"]
  B --> F["06 Merge 与 Mutation"]
  F --> G["07 索引与跳数索引"]
  G --> H["08 ReplicatedMergeTree"]
  H --> I["09 Distributed"]
  I --> J["10 物化视图"]
  D --> K["11 DuckDB 架构"]
  K --> L["12 DuckDB Pipeline"]
  L --> M["13 选型对照"]
  M --> N["14 监控"]
  N --> O["15 故障"]
  O --> P["16 配置陷阱"]

三、目录（全 16 篇）

第一部分：存储格式（第 1–3 篇）

列存基础与 ClickHouse 架构 — 行存/列存三角、进程模型、MergeTree 家族；C-Store / MonetDB/X100 / Abadi 2008 谱系。
MergeTree Part 文件格式 — .bin/.mrk/Granule、Wide/Compact；对照 C-Store projection。
压缩与编码 — LZ4/ZSTD/Delta/Gorilla；压缩率 vs 解压 CPU 争论。

第二部分：读取与合并（第 4–7 篇）

向量化执行引擎 — Block、Processors；Volcano → X100 → Kersten compiled vs vectorized。
查询读取路径 — Mark Range、PREWHERE；对照 Abadi late materialization。
Merge 与 Mutation — 后台 merge、Replacing/Collapsing；C-Store RS / LSM compaction 对照。
索引与跳数索引 — 稀疏主键、minmax/set/bloom；projection vs skip 开放问题。

第三部分：分布式与管道（第 8–10 篇）

ReplicatedMergeTree — Keeper 协调、副本 lag；新鲜度坐标（非 HTAP 全文）。
Distributed 引擎 — 分片键、GLOBAL IN/JOIN；MPP 路由代价。
物化视图与增量管道 — Kafka/S3Queue + MV；增量维护 vs 批/湖仓。

第四部分：DuckDB 对照（第 11–13 篇）

DuckDB 架构与嵌入式 OLAP — Row Group；SIGMOD’19 demo 与列存三角闭合。
DuckDB 向量化与 Pipeline — Morsel-driven（Leis 2014）；与 CH Processors 对照。
ClickHouse vs DuckDB 选型 — 决策树 + 论文坐标（非排名）；统一引擎 vs 双栈。

第五部分：运维实战（第 14–16 篇）

监控与系统表 — system.parts/merges；论文少谈的可观测。
经典故障模式 — too many parts、merge 延迟、OOM；机制外化。
配置陷阱与容量规划 — parts 阈值、merge 池；云盘 vs 论文单机 SSD。

四、系列联动

系列	联动
postgresql-kernel	执行器、B-Tree、监控
db/lsm-tree	Compaction vs Merge
storage	压缩、块设备
observability	日志/trace 写入 ClickHouse

五、边界

不替代 ClickHouse/DuckDB 官方文档；不写 Cloud 托管内部实现；benchmark 须自测或标注引用来源。研究台账见 PLAN.md。

系列 index v3，2026-07-11 — 全 16 篇已发布；§14 学术加深闭合

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-06-18 · database / storage

【列存引擎内核】列存基础与 ClickHouse 架构

行存 vs 列存的带宽、压缩与向量化三角；ClickHouse Server 进程模型、线程池与 MergeTree 引擎家族地图；src/Storages 与 src/Processors 源码入口。对照 PG 行存与 LSM 写优化路径，版本锚定 ClickHouse 24.x LTS。

2026-06-18 · database / storage

【列存引擎内核】MergeTree Part 文件格式

ClickHouse MergeTree Part 目录结构：columns.txt、checksums.txt、.bin、.mrk2、primary.idx 语义，Granule 与 Mark 的定位作用，Wide/Compact 布局与 MergeTreeDataPart 源码入口。版本锚定 24.x LTS。

2026-06-18 · database / storage

【列存引擎内核】压缩与编码

ClickHouse 列压缩：LZ4、ZSTD、Delta、DoubleDelta、Gorilla 时序编码与列类型关系；CODEC 链顺序、LowCardinality 与 PG TOAST 对照。压缩比须本机实测，本文不编造倍数。

2026-06-18 · database / storage

【列存引擎内核】向量化执行引擎

ClickHouse Block 列向量 batch、IProcessor Pipeline 与 filter/project/aggregate 向量实现；对照 PostgreSQL 火山模型 ExecProcNode。源码入口 src/Processors、src/Columns。24.x LTS。

【列存引擎内核】ClickHouse 与 DuckDB 源码级拆解

文章导航

目录

列存引擎内核：ClickHouse 与 DuckDB 源码级拆解

适合谁看

推荐阅读路径

一、六个关键问题

二、篇目依赖

三、目录（全 16 篇）

第一部分：存储格式（第 1–3 篇）

第二部分：读取与合并（第 4–7 篇）

第三部分：分布式与管道（第 8–10 篇）

第四部分：DuckDB 对照（第 11–13 篇）

第五部分：运维实战（第 14–16 篇）

四、系列联动

五、边界

同主题继续阅读

【列存引擎内核】列存基础与 ClickHouse 架构

【列存引擎内核】MergeTree Part 文件格式

【列存引擎内核】压缩与编码

【列存引擎内核】向量化执行引擎