database 分类归档

共 39 篇文章 · 返回首页

【数据库研究前沿】向量与标量的混合过滤检索:ACORN、Milvus、pgvector 的算法权衡

系统拆解 ANN 混合过滤检索(filtered vector search)里的 pre-filter、post-filter、in-filter 三种策略,覆盖 ACORN(SIGMOD 2024)的预测路由、Milvus/Qdrant 的 partition / pinned filter,以及 pgvector 的实际查询写法和 EXPLAIN 观察方法。

【数据库研究前沿】近数据处理与计算下推:Smart SSD 到 DPU Offload

从近数据处理(NDP)的基本动机出发,梳理 Samsung SmartSSD、ScaleFlux、Eideticom 等 computational storage 产品,SNIA 计算存储标准,BlueField DPU 对存储路径的改造,以及 YourSQL、POLARDB-NDP 等学术/工业工作;下半给出过滤、解压、CRC、加密这四类当前能真正落地的下推场景,并借 PostgreSQL FDW 的类比说明'下推'到底在下推什么。

【数据库研究前沿】持久内存退场之后:ZNS SSD 与下一代非易失内存

Intel Optane / 3D XPoint 产品线 EOL 之后,SOFORT、FPTree、RECIPE 等 PM 数据库的成果如何迁移?ZNS SSD 对 LSM-Tree 的意义、RocksDB 的 ZNS 适配、PMDK 兼容层的取舍,以及把 CXL memory 作为下一代非易失载体的可能性——本文给出一份面向工程师的'后 Optane 时代'清单。

【数据库研究前沿】差分隐私数据库:PINQ、APEx 到生产级 DP-SQL

从 Dwork 2006 的差分隐私定义出发,梳理 PINQ、FLEX、APEx 三篇里程碑论文;讲清 Laplace、Gaussian、Exponential 三类噪声机制与组合定理;回顾美国 2020 人口普查的 DP 落地教训;下半给出 OpenDP / Google DP library 的 SQL 绑定现状与 Postgres 上聚合加噪的最小 demo。

【数据库研究前沿】加密查询的边界:FHE、可搜索加密与 PIR

梳理 FHE(BFV/BGV/CKKS、Microsoft SEAL、OpenFHE)、可搜索加密与 Private Information Retrieval(SealPIR、OnionPIR、Spiral)三条加密查询路线;讨论哪些查询形态在当前开销下可行——点查可以、join 不行——以及银行与医疗场景的真实落地模式。

【从零写一个 LSM-Tree 存储引擎】Compaction:LSM-Tree 的心脏手术

从零实现 LSM-Tree Compaction:最小堆多路归并迭代器、Level 分层与 Compaction 打分、Tombstone 下推、Version/VersionEdit/MANIFEST 版本管理,以及 Leveled/Size-Tiered/Universal 三种策略的量化对比。从零写一个 LSM-Tree 存储引擎系列第 4 篇。

【从零写一个 LSM-Tree 存储引擎】完整引擎 + Rust 重写对比

组装完整 LSM-Tree 存储引擎:DB 接口(Open/Put/Get/Delete/Iterator/Snapshot)、单写多读并发控制、启动恢复,然后用 Rust 重写核心模块,记录 5 个编译器不让我过的故事,最后三方 benchmark 对比。从零写一个 LSM-Tree 存储引擎系列第 5 篇。

【从零写一个 LSM-Tree 存储引擎】LSM-Tree 全景:为什么要先写日志再排序

从零理解 LSM-Tree 存储引擎的设计哲学:B-Tree 与 LSM-Tree 的本质差异,写放大/读放大/空间放大的三角权衡,以及 WAL、MemTable、SSTable、Compaction、Bloom Filter 各组件的角色与协作关系。从零写一个 LSM-Tree 存储引擎系列第 1 篇。