data-lake 标签归档

共 4 篇文章 · 返回首页

【数据湖与开放表格式】Lakehouse 全景：从 Hive 表到开放表格式

2026-06-30 | database · storage | #lakehouse #hive #table-format #iceberg #object-storage #data-lake #data-warehouse

Hive 目录式分区表把『表』等同于『一组目录加 metastore 里的分区行』，于是没有原子提交、planning 要 LIST 目录、schema 与分区演进常要重写。本文用这三个硬伤切入，讲清 lakehouse 把表拆成『不可变数据文件 + 可变元数据指针 + catalog』三层后各自解决了什么，并给出全系列的分层地图。

【系统架构设计】数据湖与数据仓库：分析架构的演进路线

2026-04-13 | architecture | #data-lake #data-warehouse #Lambda #Kappa #Lakehouse #Delta-Lake #Iceberg

Lambda、Kappa、Lakehouse 三种架构的本质区别和适用场景是什么？本文深入 Delta Lake 和 Apache Iceberg 的设计原理，分析流批一体的工程挑战，并提供数据质量保证的架构方案。

【存储工程】存储与计算分离架构

2025-10-05 | storage | #compute-storage-separation #shared-nothing #snowflake #aurora #tidb #data-lake #local-cache

深入分析存算分离架构——Shared-Nothing vs Shared-Disk vs Shared-Storage 的工程权衡，Snowflake/Aurora/TiDB 的存算分离实践，本地缓存策略与网络带宽需求

【存储工程】数据湖存储格式：Delta Lake、Iceberg 与 Hudi

2025-09-18 | storage | #data-lake #delta-lake #iceberg #hudi #acid #time-travel #schema-evolution

数据湖（Data Lake）的核心思想是把海量异构数据以开放格式存储在廉价的对象存储（Object Storage）上，用计算引擎按需查询。Apache Parquet 解决了列式编码（Columnar Encoding）问题，让分析查询的 I/O 效率提升了一个数量级。但 Parquet 只是一个文件格式，它不管事务…