storage 分类归档 | 土法炼钢兴趣小组的算法知识备份

一条典型的分析查询只访问表中数百列里的三四列，行式存储却把整行数据从磁盘搬进内存，绝大多数字节在读入后立刻被丢弃。列式存储（Columnar Storage）把同一列的值连续存放，查询只需要读取涉及到的列，I/O 量可以降低一到两个数量级。但 I/O 减少只是故事的一半——列式布局还为压缩、向量化执行（Vectoriz…

【存储工程】Parquet 文件格式深度解析

2025-09-14 | storage | #parquet #row-group #column-chunk #encoding #predicate-pushdown #pyarrow

上一篇我们讨论了列式存储（Columnar Storage）的核心思想：把同一列的数据连续存放，让分析查询只读取需要的列，而不是扫描整行。这个思想落地到具体文件格式时，需要回答一系列工程问题：文件内部怎么组织数据才能同时支持并行读取和列裁剪？同一列的数据用什么编码方式才能最大化压缩率？如何在不读取全部数据的前提下跳过不…

【存储工程】Apache Arrow：零拷贝内存列式格式

2025-09-15 | storage | #arrow #zero-copy #ipc #flight #columnar-memory #compute-kernel

在大数据和分析系统的演进过程中，一个反复出现的性能瓶颈不是计算本身，而是数据在不同系统之间搬运时的序列化（Serialization）与反序列化（Deserialization）开销。Pandas 把数据交给 Spark，Spark 把结果传给 R，R 再把子集喂给 TensorFlow——每一次跨系统传递，数据都要从…

【存储工程】时序存储引擎

2025-09-16 | storage | #timeseries #tsdb #prometheus #influxdb #timescaledb #gorilla-compression

监控系统每秒钟从数万台机器上采集 CPU 使用率、内存占用、磁盘 IOPS、网络流量；物联网（IoT）网关把传感器温度、湿度、振动频率汇聚到云端；金融交易系统以毫秒级粒度记录每一笔报价和成交。这些数据有一个共同特征——每条记录都带有一个时间戳（Timestamp），按时间顺序源源不断地涌入，几乎只追加（Append-O…

【存储工程】向量存储与 ANN 索引

2025-09-17 | storage | #vector-database #ann #hnsw #faiss #ivf #product-quantization #milvus

给定一条 768 维的文本嵌入向量（Embedding），要从一亿条同维度向量中找出最相似的 10 条。暴力计算需要对每条向量做 768 次乘法和一次求和——一亿条就是 768 亿次浮点运算，单核 CPU 跑完需要几十秒。如果这个操作发生在每一次用户搜索请求中，系统根本无法响应。

【存储工程】数据湖存储格式：Delta Lake、Iceberg 与 Hudi

2025-09-18 | storage | #data-lake #delta-lake #iceberg #hudi #acid #time-travel #schema-evolution

数据湖（Data Lake）的核心思想是把海量异构数据以开放格式存储在廉价的对象存储（Object Storage）上，用计算引擎按需查询。Apache Parquet 解决了列式编码（Columnar Encoding）问题，让分析查询的 I/O 效率提升了一个数量级。但 Parquet 只是一个文件格式，它不管事务…

【存储工程】Bitcask 与日志结构哈希表

2025-09-08 | storage | #bitcask #log-structured #hash-index #compaction #riak #append-only

在存储引擎（Storage Engine）的设计谱系中，Bitcask 占据着一个独特而优雅的位置：它用最简单的数据结构——哈希表（Hash Table）与追加日志（Append-Only Log）—— 组合出了一个在特定工作负载下性能极其出色的键值存储引擎。本文将从核心思想出发，逐层拆解 Bitcask 的架构、…

【存储工程】LSM-Tree 工程调优：三种放大的权衡

2025-09-09 | storage | #lsm-tree #compaction #write-amplification #read-amplification #space-amplification #bloom-filter

LSM-Tree 的核心设计是把随机写转换为顺序写，但这个转换不是免费的。写入经过 MemTable 刷盘、再经过多次 Compaction 合并，每一字节的用户数据在磁盘上可能被反复读写数十次。读取一个 key 时，最坏情况下需要逐层搜索，直到命中或遍历全部层级。与此同时，旧版本数据和墓碑标记占用的额外空间，在 Co…

【存储工程】RocksDB 工程实践

2025-09-10 | storage | #rocksdb #column-family #compaction #write-buffer #block-cache #rate-limiter

从 Column Family、Write Buffer、Block Cache、Compaction、Rate Limiter 到 Direct I/O 和监控，系统拆解 RocksDB 在生产环境中的关键配置与故障模式，并给出 SSD 场景下的配置模板和 db_bench 基准测试方法。

【存储工程】LMDB 与内存映射存储

2025-09-11 | storage | #lmdb #mmap #cow-btree #boltdb #badgerdb #memory-mapped-io

数据库存储引擎通常自己管理一块内存，维护 Buffer Pool，用 read()/pread() 把磁盘页加载进来，再用 LRU 或 Clock 算法做淘汰。这套方案灵活、可控，但代码量大、调优参数多，且引入了用户态到内核态的数据拷贝。有没有一种方式，让操作系统直接把磁盘文件映射到进程地址空间，数据库只管读指针，不管…

【存储工程】嵌入式存储引擎对比

2025-09-12 | storage | #embedded-engine #leveldb #rocksdb #pebble #badgerdb #lmdb #sqlite

当我们提到"数据库"时，多数人首先想到的是 MySQL、PostgreSQL 这类以独立进程运行的数据库服务器。客户端通过网络协议连接到服务器，服务器管理存储、索引、事务和并发控制。然而，还有一类存储系统以库（Library）的形式直接链接到应用进程中，不需要独立的服务器进程，不需要网络通信，不需要序列化和反序列化——…

【存储工程】存储引擎概览：堆文件到 LSM-Tree 的演化路径

2025-09-02 | storage | #storage-engine #heap-file #btree #lsm-tree #rum-conjecture #write-amplification

数据库系统的架构可以划分为两大层：上层的查询处理层负责解析 SQL、生成执行计划、优化查询；下层的存储引擎（Storage Engine）负责把数据持久化到磁盘，并在需要时高效地把数据取回来。查询处理层决定"做什么"，存储引擎决定"怎么存、怎么取"。同一个查询处理层可以对接不同的存储引擎——MySQL 的 InnoDB…

【存储工程】B-Tree 与 B+Tree：页式存储引擎的工程实现

2025-09-03 | storage | #btree #b-plus-tree #concurrency #latch-coupling #page-layout #bulk-loading

数据库要把数据存到磁盘上，又要以尽可能少的磁盘 I/O 把数据找回来。这个矛盾催生了一系列面向磁盘的索引结构（Disk-oriented Index），其中最成功的就是 B-Tree 家族。从 1970 年 Rudolf Bayer 和 Edward McCreight 在波音科学研究实验室提出 B-Tree 起，这个…

【存储工程】Buffer Pool：数据库的内存管理

2025-09-04 | storage | #buffer-pool #page-replacement #lru #clock #dirty-page #prefetching

数据库为什么不直接使用操作系统的 Page Cache，而要自己管理一块内存？本文从 double buffering 问题讲起，拆解 Buffer Pool 的架构、页面替换算法、脏页刷新策略、预读机制，再分别剖析 MySQL InnoDB 和 PostgreSQL 的实现细节，最后落到大小调优与监控诊断。

【存储工程】WAL 与崩溃恢复：ARIES 协议

2025-09-05 | storage | #wal #aries #crash-recovery #checkpoint #lsn #redo #undo

WAL 是数据库持久性的基石，ARIES 是工业界公认最完备的崩溃恢复协议。本文从 WAL 三条规则出发，逐步拆解 ARIES 的 Analysis-Redo-Undo 三阶段，结合 InnoDB 实现分析恢复全流程。

【存储工程】事务隔离级别的存储实现

2025-09-06 | storage | #transaction #isolation #mvcc #2pl #gap-lock #ssi #percolator

数据库事务的四大特性 ACID 中，隔离性（Isolation）是最复杂的一项。原子性靠 WAL 保证（参见 [WAL 与崩溃恢复](../27-wal-aries/wal-aries.html)），持久性靠 fsync 落盘，一致性是应用层语义——唯独隔离性，需要存储引擎在并发控制层面做出大量取舍。SQL 标准定义了…

【存储工程】索引结构：从 B+Tree 到倒排索引

2025-09-07 | storage | #index #btree #hash-index #inverted-index #bloom-filter #bitmap #r-tree

数据库里存了一亿行数据，要找出 userid 42 的那一行。没有索引的做法是全表扫描（Full Table Scan）——从第一个数据页读到最后一个数据页，逐行比对。假设每个数据页 16 KB，一亿行占 20 GB，即使顺序读能跑到 500 MB/s，也需要 40 秒。加一个 B+Tree 索引，三次磁盘 I/O 就…

【存储工程】LVM 逻辑卷管理

2025-08-28 | storage | #lvm #logical-volume #thin-provisioning #lvm-cache #snapshot #pv-vg-lv

在传统的磁盘分区方案中，分区大小在创建时即被固定，后续调整代价极高。逻辑卷管理（Logical Volume Manager，LVM）在物理磁盘与文件系统之间插入一个抽象层，将离散的物理存储资源池化为可灵活分配的逻辑卷，从根本上解决了静态分区带来的容量规划难题。

【存储工程】RAID 原理与实践

2025-08-29 | storage | #raid #mdadm #raid5 #raid6 #raid10 #write-penalty #rebuild

RAID（Redundant Array of Independent Disks），即独立磁盘冗余阵列（Redundant Array of Independent Disks），是一种将多块物理磁盘组合成一个逻辑存储单元的技术。RAID 最初由加州大学伯克利分校的 David Patterson、Garth Gib…

【存储工程】Device Mapper：Linux 存储虚拟化层

2025-08-30 | storage | #device-mapper #dm-thin #dm-cache #dm-crypt #dm-verity #dmsetup

拆解 Linux Device Mapper 框架的内核架构、映射表机制与七种核心 target driver，从 dm-linear 到 dm-verity，覆盖 dmsetup 实战和容器存储应用。

【存储工程】块存储加密：LUKS 与 dm-crypt

2025-08-31 | storage | #luks #dm-crypt #encryption #aes-xts #sed #opal #cryptsetup

在存储系统的安全防线中，加密是最后一道也是最重要的一道屏障。当物理安全措施失效——磁盘被盗、服务器被非法访问、退役硬盘未彻底销毁——只有加密能确保数据不被未授权方读取。块级加密（Block-Level Encryption）在存储栈的最低层工作，对上层文件系统和应用程序完全透明，不需要修改任何一行应用代码就能保护磁盘上…

【存储工程】存储快照与精简配置

2025-09-01 | storage | #snapshot #thin-provisioning #cow #redirect-on-write #trim #space-reclaim

存储系统有两个看似独立、实则紧密交织的能力：快照（Snapshot）和精简配置（Thin Provisioning）。快照解决的是"时间维度"的问题——在任意时刻冻结数据状态，用于备份、回滚或测试；精简配置解决的是"空间维度"的问题——让存储容量按需分配，避免预先占满物理磁盘。两者的交叉点在于写时复制（Copy-on-…

【存储工程】文件系统基础：inode、目录与 VFS

2025-08-22 | storage | #filesystem #inode #vfs #dentry #superblock #hard-link #symlink

磁盘是一个线性的块数组，但没有人愿意用"第 48372 号扇区"来定位自己的文档。文件系统（File System）就是那个把"名字"映射到"数据"的翻译层——它把一片平坦的块空间组织成人类可以理解的层级结构，同时维护着每个文件的权限、大小、时间戳等元数据（Metadata）。

【存储工程】ext4 架构与调优

2025-08-23 | storage | #ext4 #filesystem #journaling #extent-tree #delayed-allocation #e2fsprogs

ext4 是 Linux 世界中使用最广泛的本地文件系统（Local Filesystem）。从 2008 年合入内核主线至今，它已经在无数生产服务器、嵌入式设备以及桌面系统上稳定运行了十余年。本文将从磁盘布局、核心数据结构、日志机制、分配策略等维度，对 ext4 进行全面剖析，并结合实际调优场景给出可落地的最佳…

【存储工程】XFS 架构：大文件与高并发

2025-08-24 | storage | #xfs #filesystem #allocation-groups #btree #reflink #cow

XFS 诞生于 1993 年的硅谷图形公司（Silicon Graphics, Inc.），最初运行在 IRIX 操作系统上。 SGI 的核心业务是高性能计算和影视后期制作，客户需要处理的文件动辄几十 GB 甚至数 TB。当时主流的 EFS（Extent File System）在面对这类工作负载时已经力不从心：元数…

【存储工程】Btrfs：写时复制文件系统

2025-08-25 | storage | #btrfs #cow #snapshot #subvolume #compression #raid #checksum

ext4 和 XFS 走的是"就地更新"路线：数据写到哪个块，就直接覆盖那个块。这条路线简单、高效，但有一个根本性的问题——如果写到一半断电，磁盘上的数据处于半新半旧的状态，文件系统就损坏了。日志（Journal）机制可以缓解这个问题，但它本质上是"先写一遍日志，再写一遍数据"，写放大不可避免。

【存储工程】ZFS：数据完整性优先的存储栈

2025-08-26 | storage | #zfs #data-integrity #arc #l2arc #zil #slog #dedup #zpool

在存储系统的世界里，大多数文件系统把"性能"放在第一位，把"完整性"当作锦上添花的特性。ZFS 的做法恰好相反——它把数据完整性视为最基本的不可协商的属性，然后在此基础上构建性能优化。这种设计哲学上的根本差异，使得 ZFS 在诞生近二十年后，仍然是数据保护领域无可替代的存储栈。

【存储工程】文件系统选型与基准测试

2025-08-27 | storage | #filesystem-selection #benchmark #fio #filebench #ext4 #xfs #btrfs #zfs

在生产环境中，文件系统（Filesystem）的选择直接影响存储栈的性能上限、数据安全边界和运维复杂度。本文将从设计目标、元数据性能、数据吞吐、典型业务场景、基准测试方法论等多个维度，对 ext4、XFS、Btrfs（B-tree Filesystem）、ZFS（Zettabyte File System）四种主流文件…

【存储工程】Linux I/O 栈全景：从 write() 到磁盘扇区

2025-08-16 | storage | #linux-io #vfs #page-cache #block-layer #io-scheduler #ftrace

当应用程序调用一次 write() 系统调用（System Call）时，数据并不会立刻落到磁盘扇区上。它需要穿越内核中七个以上的软件层次，每一层都有独立的职责、数据结构和延迟开销。理解这条完整路径，是进行存储性能调优和故障诊断的基础。

【存储工程】块设备层：bio、request 与 I/O 调度器

2025-08-17 | storage | #block-layer #bio #blk-mq #io-scheduler #bfq #mq-deadline #kyber

文件系统把"写这个文件"翻译成"写这些逻辑块"，但逻辑块怎么变成磁盘控制器能执行的命令？中间那一层就是块设备层（Block Layer）。它做的事不复杂——把上层的 I/O 请求收集、合并、排序，然后交给设备驱动——但做得好不好，直接决定了存储栈的吞吐和延迟。

【存储工程】Page Cache 深度解析

2025-08-18 | storage | #page-cache #linux #writeback #readahead #dirty-pages #memory-management

应用程序每一次 read() 或 write() 系统调用，感觉像是直接在操作磁盘上的文件，但实际上，内核在中间插入了一层透明的缓存——页缓存（Page Cache）。这层缓存用物理内存保存最近访问过的文件数据，使得绝大多数读操作不需要触发磁盘 I/O，而写操作可以先落到内存，再由后台线程异步刷回存储设备。

【存储工程】Direct I/O 与 O_DIRECT：绕过缓存的得与失

2025-08-19 | storage | #direct-io #o-direct #page-cache #database-io #alignment #fsync

在 Linux 的传统 I/O 路径中，应用程序通过 read() 和 write() 系统调用与文件交互时，数据并不会直接在用户空间缓冲区（User Buffer）和磁盘之间传输。内核会在两者之间插入一层页缓存（Page Cache），作为磁盘数据在内存中的缓存副本。一次典型的写入流程如下：

【存储工程】Linux 异步 I/O：从 POSIX AIO 到 io_uring

2025-08-20 | storage | #async-io #io-uring #libaio #posix-aio #sqpoll #linux-io

在高吞吐存储系统中，同步 I/O 是性能的天花板。本文系统梳理 Linux 下三代异步 I/O 方案——POSIX AIO、Linux Native AIO（libaio）和 io_uring——的设计原理、编程接口、性能特征与工程实践，帮助你在实际项目中做出正确的技术选型。

【存储工程】数据完整性：从 fsync 到端到端校验

2025-08-21 | storage | #data-integrity #fsync #checksum #dif #write-barrier #power-loss

数据丢失最令人恐惧的形式不是磁盘报错——而是数据悄无声息地变了，没有任何告警，没有任何日志，直到几个月后你从备份里恢复出一堆损坏的文件，才发现"完整性"这个词从来就不是理所当然的。

【存储工程】HDD 机械硬盘：旋转时代的工程遗产

2025-08-10 | storage | #hdd #disk #storage-hardware #iops #smr #cmr

HDD 已经被 SSD 抢去了大部分聚光灯，但全球 90% 以上的数据仍然存储在旋转磁盘上。理解 HDD 的物理结构和性能特征，是理解整个存储栈设计决策的基础——从文件系统的块分配策略到数据库的 WAL 设计，几乎每一个存储优化都能追溯到'旋转延迟'和'寻道时间'这两个物理约束。

【存储工程】SSD 与 NAND Flash：FTL、写放大与磨损均衡

2025-08-11 | storage | #ssd #nand #ftl #write-amplification #trim #wear-leveling

SSD 已经在大多数性能敏感场景中取代了 HDD，但 SSD 并不是"没有机械部件的硬盘"——它是一个完全不同的存储架构，带来了一组全新的工程约束。理解这些约束，需要从 NAND Flash（NAND 闪存）的物理特性开始，逐层向上推导出 FTL（Flash Translation Layer）、垃圾回收（Garbag…

【存储工程】NVMe 协议与存储接口演进

2025-08-12 | storage | #nvme #sata #sas #nvme-of #zns #storage-interface

存储接口（Storage Interface）是连接主机与存储介质的桥梁，其协议设计直接决定了数据访问的延迟、吞吐量和并发能力。从早期的并行接口到现代的非易失性内存快捷通道（Non-Volatile Memory Express，NVMe），存储协议经历了数十年的演进。本文将系统梳理存储接口的发展历程，深入剖析 NVM…

【存储工程】持久化内存与存储层次

2025-08-13 | storage | #persistent-memory #optane #pmem #dax #storage-hierarchy #latency

现代计算系统的性能瓶颈，往往不在处理器本身，而在数据的存取速度。从寄存器（Register）到磁带（Tape），存储层次结构跨越了十余个数量级的延迟差异。持久化内存（Persistent Memory，简称 PMem）的出现，试图在易失性内存与持久化存储之间架起一座桥梁，从根本上改变应用程序访问数据的方式。

【存储工程】存储性能建模：IOPS、吞吐与延迟

2025-08-14 | storage | #iops #throughput #latency #fio #storage-performance #benchmarking

存储性能不是一个数字，而是 IOPS、吞吐量和延迟在特定工作负载下的函数关系。本文从排队论模型出发，用 fio 实测验证，覆盖从 HDD 到 NVMe SSD 的性能画像，最终落到容量规划和监控体系的工程实践。

【存储工程】存储介质选型指南

2025-08-15 | storage | #storage-selection #hdd #ssd #nvme #cost-analysis #capacity-planning

存储选型不是'SSD 比 HDD 快所以选 SSD'这么简单。不同工作负载对 IOPS、吞吐、延迟、容量、成本的权重完全不同。本文从性能、可靠性、成本三个维度对比 HDD、SATA SSD、NVMe SSD、Optane/PMem 和磁带，给出面向具体工作负载的选型决策框架和分层存储架构设计方法。