datafusion 标签归档

共 4 篇文章 · 返回首页

【分布式 OLAP 查询引擎】DuckDB 与 DataFusion：嵌入式分析对照

2026-07-07 | database · distributed | #duckdb #datafusion #embedded-olap #vectorized-execution #morsel-driven #parquet #iceberg #trino #query-engine

从单进程向量化 pipeline 与 morsel-driven 并行出发，对照 DuckDB 1.5.4 与 Apache DataFusion 的 planner/executor 边界；说明何时选嵌入式读湖、何时必须上 Trino MPP；与 columnar-engine DuckDB 存储篇分工，并用本机实测 EXPLAIN 与 Parquet 投影下推数据锚定结论。

【分布式 OLAP 查询引擎】引擎选型与数据平台阅读地图

2026-07-07 | database · distributed · architecture | #trino #spark #clickhouse #duckdb #datafusion #postgresql #engine-selection #lakehouse #olap #data-platform

用决策树收束 Trino/Spark/ClickHouse/DuckDB/DataFusion/PostgreSQL 的适用边界：交互式联邦、批 ETL、嵌入式分析、流批一体各走哪条路径；给出能力对照表（无吞吐排名）与 postgresql→columnar→lakehouse→stream→query-engine 全栈阅读顺序，闭合数据平台栈。

【分布式 OLAP 查询引擎】Trino · Spark · DuckDB · 优化与 MPP 执行

2026-07-07 | database · distributed | #trino #presto #spark #duckdb #datafusion #calcite #query-optimizer #mpp #shuffle #iceberg #olap #predicate-pushdown

闭合数据平台栈最后一块：从 SQL 解析与 Calcite 式优化，到 Volcano/向量化执行、Trino Coordinator/Worker 与 shuffle，再到 Iceberg connector 下推与生产排查。承接 lakehouse 第 18 章读湖视角，补全「谁在做 planning」的引擎内核层。

【数据湖与开放表格式】查询引擎如何读湖

2026-06-30 | database · storage | #trino #spark #duckdb #datafusion #predicate-pushdown

拆解查询引擎读 Iceberg/Delta 的下推链路：partition pruning（manifest）→ file pruning（manifest stats）→ row-group/page pruning（Parquet column index）→ 字典过滤。对照 Trino/Spark/DuckDB/DataFusion/ClickHouse 的能力差异，讲清 planning 在哪一层完成、stats 从哪来，并用本机 pyiceberg + DuckDB 实测裁剪效果。