2026-06-30 | database · storage | #iceberg #merge-on-read #copy-on-write #deletion-vector #position-delete #equality-delete #puffin #table-format
Iceberg 在不可变文件上做行级删除的两条路线:copy-on-write(重写整文件)与 merge-on-read(写 delete 文件,读时合并)。讲清 position delete 与 equality delete 的语义、字段与作用域规则,写放大/读放大的取舍,V2 delete file 到 V3 deletion vector(Puffin 承载)的差异与迁移,以及读路径如何把 data file 与 delete 合并出可见行。基于 pyiceberg 0.11.1 实测 CoW 写放大并观察 MoR 回退。
2026-06-30 | database · storage | #delta-lake #transaction-log #deletion-vector #liquid-clustering
拆解 Delta Lake 的 _delta_log:有序 JSON commit 里的 add/remove/metaData/protocol/commitInfo/txn 七类 action、每 N 次 parquet checkpoint 与 _last_checkpoint、protocol 版本与 reader/writer table features、deletion vector(Delta 的 merge-on-read)、liquid clustering 与 Z-order,以及乐观并发如何完全基于日志做冲突检测。