【数据库研究前沿】湖仓一体一致性模型:Iceberg、Delta、Hudi 的事务边界
从 metadata layout、快照隔离、多写者协议、schema/partition evolution 四个维度重读 Apache Iceberg、Delta Lake、Apache Hudi,给出选型矩阵与湖仓一体在对象存储上的事务边界
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
从 metadata layout、快照隔离、多写者协议、schema/partition evolution 四个维度重读 Apache Iceberg、Delta Lake、Apache Hudi,给出选型矩阵与湖仓一体在对象存储上的事务边界
数据湖(Data Lake)的核心思想是把海量异构数据以开放格式存储在廉价的对象存储(Object Storage)上,用计算引擎按需查询。Apache Parquet 解决了列式编码(Columnar Encoding)问题,让分析查询的 I/O 效率提升了一个数量级。但 Parquet 只是一个文件格式,它不管事务…