compaction 标签归档 | 土法炼钢兴趣小组的算法知识备份

compaction 标签归档

共 17 篇文章 · 返回首页

【存储工程】LSM-Tree 工程调优：三种放大的权衡

2025-09-09 | storage | #lsm-tree #compaction #write-amplification #read-amplification #space-amplification #bloom-filter

LSM-Tree 的核心设计是把随机写转换为顺序写，但这个转换不是免费的。写入经过 MemTable 刷盘、再经过多次 Compaction 合并，每一字节的用户数据在磁盘上可能被反复读写数十次。读取一个 key 时，最坏情况下需要逐层搜索，直到命中或遍历全部层级。与此同时，旧版本数据和墓碑标记占用的额外空间，在 Co…

数据库内核实验索引

2026-07-15 | db · storage | #database #lsm-tree #storage-engine #postgresql #mysql #innodb #clickhouse #columnar #lakehouse #iceberg #parquet #flink #kafka #stream-processing #trino #query-engine #rocksdb #leveldb #compaction #milvus #vector-search #redis #cache #memcached #lucene #elasticsearch #full-text-search #bm25

汇总本站数据库内核文章：PostgreSQL / MySQL InnoDB / 列存引擎 / 数据湖与开放表格式 / 流式数据处理 / 分布式 OLAP 查询引擎 / RocksDB 内核 / 向量检索引擎 / Redis 缓存内核 / 全文检索引擎，以及 LSM-Tree 从零实现实验。

【向量检索引擎】Data Node：compaction 与 index build

2026-07-12 | database · storage | #milvus #data-node #compaction #index-build #handoff #sealed #vector-engine

说明 Milvus 2.6.x 中 Data Node 作为离线 Worker 如何承接 Coordinator 下发的建索引与 compaction，输入输出如何进出对象存储；用最小故事、常见误解与队列积压图说明索引堆积如何拖垮查询新鲜度与资源争用。

【向量检索引擎】Delete · Upsert · TTL：软删生命周期与覆盖写的两条路径

2026-07-12 | database · storage | #milvus #delete #upsert #ttl #bitset #compaction #soft-delete #freshdiskann #vector-engine

按 2.6.x Delete/Upsert/TTL 文档拆解软删 bitset 从逻辑不可见到 compaction 物理回收的完整生命周期，用官方 override/merge 内部步骤的时序图区分两种 upsert，并与 FreshDiskANN 的图索引删除模型对照，说明 Milvus 用「整段重建」而非「增量合并」处理删除。

【向量检索引擎】生产排障：召回、延迟、堆积、OOM

2026-07-12 | database · storage | #milvus #troubleshooting #recall #latency #compaction #oom #replica #vector-engine

用症状到机制的决策树覆盖召回/延迟/堆积/OOM 四类故障，按可见性、段状态、过滤选择度、离线队列、对象存储与副本拓扑逐层定位；用一个跨软删广播与副本改派的最小故事说明为什么同一查询会得到不稳定结果，不含未跑的集群数字。

【流式数据处理】状态放大、Compaction 与调优

2026-07-01 | database · distributed | #flink #rocksdb #state-tuning #compaction #write-amplification #hot-key #skew #window-state #checkpoint #lsm-tree

在 RocksDB state backend 读写路径之上，拆解窗口 state 膨胀、LSM 写放大与 checkpoint 争抢磁盘、Flink managed memory 与 RocksDBOptionsFactory 调参边界，以及 hot key 导致单 subtask 过热时的诊断与「改 state 设计 vs 拧参数」取舍。

【流式数据处理】流式入湖深化（与 Lakehouse 第 19 章对读）

2026-07-01 | database · distributed | #flink #iceberg #checkpoint #stream-to-lake #backpressure #small-files #upsert #compaction

从 Flink 作业侧拆解 checkpoint 间隔如何锁定 Iceberg 提交频率与小文件数量、背压如何拖慢 commit、并行 writer 如何触发 lakehouse/11 的乐观并发冲突，以及预聚合、bucket 分区与异步 compaction 和表治理的分工边界。

【RocksDB 内核机制】LevelDB · WAL · Compaction · Column Family · 生产嵌入

2026-07-07 | database · storage | #rocksdb #leveldb #lsm-tree #compaction #wal #memtable #sstable #column-family #write-stall #flink #tikv #storage-engine

补全存储引擎三角最后一角：从 LevelDB 基线与 RocksDB 架构演进，到 WAL/MemTable/SST 写路径、Get/Iterator 读路径、Leveled/Universal compaction 与 write stall，再到 Column Family、事务、Checkpoint 与 Flink/TiKV 嵌入对照。

【数据湖与开放表格式】小文件与 Compaction

2026-06-30 | database · storage | #compaction #small-files #z-order #puffin

拆解 lakehouse 小文件的根因（频繁提交、流式、过细分区），以及 bin-pack、sort/z-order/clustering、rewrite manifests、expire snapshots、remove orphan files 这套治理操作；讲清 Puffin 中 Theta NDV sketch 对查询 planning 的作用，附 PyIceberg 真实实验对比 compaction 前后文件数与 planning 耗时。

【操作系统百科】Buddy 系统

2026-05-02 | os | #buddy #zone #gfp #compaction #pcp

Buddy 是 Linux 物理页分配的底座——用二的幂次空闲链表管理所有物理页。本文讲 buddy 算法、zone 划分、gfp flags、per-CPU page 热路径、碎片与 compaction 的关系。

【存储工程】Bitcask 与日志结构哈希表

2025-09-08 | storage | #bitcask #log-structured #hash-index #compaction #riak #append-only

在存储引擎（Storage Engine）的设计谱系中，Bitcask 占据着一个独特而优雅的位置：它用最简单的数据结构——哈希表（Hash Table）与追加日志（Append-Only Log）—— 组合出了一个在特定工作负载下性能极其出色的键值存储引擎。本文将从核心思想出发，逐层拆解 Bitcask 的架构、…

【存储工程】RocksDB 工程实践

2025-09-10 | storage | #rocksdb #column-family #compaction #write-buffer #block-cache #rate-limiter

从 Column Family、Write Buffer、Block Cache、Compaction、Rate Limiter 到 Direct I/O 和监控，系统拆解 RocksDB 在生产环境中的关键配置与故障模式，并给出 SSD 场景下的配置模板和 db_bench 基准测试方法。

LSM-tree Compaction 策略

2026-04-29 | algorithms | #lsm-tree #compaction #leveled #tiered #rocksdb #scylla

Compaction 是 LSM-tree 的心脏，也是它最大的痛点。

【从零写一个 LSM-Tree 存储引擎】Compaction：LSM-Tree 的心脏手术

2026-04-05 | database | #database #lsm-tree #compaction #leveled-compaction #merge-iterator #version #manifest #leveldb #storage-engine

从零实现 LSM-Tree Compaction：最小堆多路归并迭代器、Level 分层与 Compaction 打分、Tombstone 下推、Version/VersionEdit/MANIFEST 版本管理，以及 Leveled/Size-Tiered/Universal 三种策略的量化对比。从零写一个 LSM-Tree 存储引擎系列第 4 篇。

【从零写一个 LSM-Tree 存储引擎】LSM-Tree 全景：为什么要先写日志再排序

2026-03-15 | database | #database #lsm-tree #leveldb #rocksdb #storage-engine #write-amplification #compaction #bloom-filter

从零理解 LSM-Tree 存储引擎的设计哲学：B-Tree 与 LSM-Tree 的本质差异，写放大/读放大/空间放大的三角权衡，以及 WAL、MemTable、SSTable、Compaction、Bloom Filter 各组件的角色与协作关系。从零写一个 LSM-Tree 存储引擎系列第 1 篇。

【GC】原地内存整理算法

2026-04-03 | garbage-collection | #garbage-collection #memory-management #compaction #gc-algorithms

内存整理算法详解：原地内存碎片整理，解决堆内存碎片化问题的 GC 技术

从零写一个 LSM-Tree 存储引擎

2026-03-15 | database | #database #lsm-tree #leveldb #rocksdb #storage-engine #rust #compaction #wal #sstable #bloom-filter #skip-list #benchmark

五篇长文，从 LSM-Tree 的设计哲学讲到完整 KV 引擎实现，最后用 Rust 重写并三方 benchmark 对比。每篇含完整 C 代码、架构图、数学推导。