2026-06-30 | database · storage | #trino #spark #duckdb #datafusion #predicate-pushdown
拆解查询引擎读 Iceberg/Delta 的下推链路:partition pruning(manifest)→ file pruning(manifest stats)→ row-group/page pruning(Parquet column index)→ 字典过滤。对照 Trino/Spark/DuckDB/DataFusion/ClickHouse 的能力差异,讲清 planning 在哪一层完成、stats 从哪来,并用本机 pyiceberg + DuckDB 实测裁剪效果。
2026-06-18 | database · architecture | #duckdb #embedded-olap #row-group #column-segment #pg-duckdb #columnar-storage
DuckDB 进程内嵌入式模型、Storage 的 Row Group 与 Column Segment、Catalog 与 checkpoint;与 ClickHouse Server 部署差异及 pg_duckdb 联邦场景边界。
2026-06-18 | database · architecture | #duckdb #vectorized-execution #morsel-driven #pipeline #parallel #hash-join
DuckDB 向量批执行、morsel-driven 并行、Pipeline 调度与 spill;源码 execution/parallel 路径;对照 ClickHouse Processors 与 PG volcano 模型。
2026-06-18 | database · architecture | #clickhouse #duckdb #olap #decision-tree #pg-duckdb #embedded-analytics
从部署形态、规模、并发、联邦与运维成本五维对比 ClickHouse 与 DuckDB;给出决策树与组合架构,不排名不测虚构 benchmark。
2026-06-18 | database · storage | #clickhouse #duckdb #columnar #mergetree #olap #vectorized-execution #compression #distributed-table
主选 ClickHouse 拆解 MergeTree 存储格式、向量化执行与分布式协调;DuckDB 作为嵌入式 OLAP 对照。覆盖列存文件布局、merge 机制、跳数索引与生产故障模式,面向数据平台工程师与从 PG/MySQL 转 OLAP 的 DBA。
2025-02-09 | database | #persistent-data-structure #mvcc #cow #b-tree #lmdb #couchdb #duckdb #append-only
MVCC 靠什么实现?持久化 B-tree、COW、append-only log。从 CouchDB 到 LMDB 到 DuckDB,三种不同的路径,同一个目标:读不阻塞写。