2026-06-30 | database · storage | #iceberg #merge-on-read #copy-on-write #deletion-vector #position-delete #equality-delete #puffin #table-format
Iceberg 在不可变文件上做行级删除的两条路线:copy-on-write(重写整文件)与 merge-on-read(写 delete 文件,读时合并)。讲清 position delete 与 equality delete 的语义、字段与作用域规则,写放大/读放大的取舍,V2 delete file 到 V3 deletion vector(Puffin 承载)的差异与迁移,以及读路径如何把 data file 与 delete 合并出可见行。基于 pyiceberg 0.11.1 实测 CoW 写放大并观察 MoR 回退。
2026-06-30 | database · storage | #compaction #small-files #z-order #puffin
拆解 lakehouse 小文件的根因(频繁提交、流式、过细分区),以及 bin-pack、sort/z-order/clustering、rewrite manifests、expire snapshots、remove orphan files 这套治理操作;讲清 Puffin 中 Theta NDV sketch 对查询 planning 的作用,附 PyIceberg 真实实验对比 compaction 前后文件数与 planning 耗时。