这是【数据库研究前沿】的第 02 篇。在进入具体技术之前,先花一篇的篇幅把”怎么读论文”说清楚。
很多工程师读论文的体验是这样的:打开 PDF、读完摘要、跳到实验结果、关掉。一篇 14 页的顶会论文看了 15 分钟,脑子里只剩一个模糊印象:“这个方法好像比基线快 20%。”一周之后什么都记不住。
问题不在于读者——顶会论文的写作套路本身就假设了读者知道领域背景。摘要用三句话概括三年的工作、实验章节默认读者知道 TPC-H、基线系统、硬件配置的默认值。如果没有一套阅读方法,工程师很难真正从论文里提炼出”可以拷进项目里”的洞察。
本文分两半。上半讲方法:顶会定位、检索渠道、三遍读法、工业 vs 学术论文的辨别。下半是一份2023–2025 必读二十篇清单——每一条都经过挑选,标注会议、年份、一句话点题。最后补上公开课作为辅助。
一、数据库方向的顶会地图
1.1 主数据库顶会
| 会议 | 全称 | 定位 | 录用率 | 节奏 |
|---|---|---|---|---|
| SIGMOD | ACM SIGMOD International Conference on Management of Data | 数据库方向历史最久、工业与学术混合 | 约 20% | 每年 6 月 |
| VLDB | International Conference on Very Large Data Bases | 规模最大,采用 PVLDB 月投月出机制 | 约 20% | 每年 8 月 |
| CIDR | Conference on Innovative Data Systems Research | 学术风向标,只收”愿景”类论文 | 偏低 | 每两年 1 月 |
| ICDE | IEEE International Conference on Data Engineering | 偏工程落地 | 约 20% | 每年 4–5 月 |
另外四个”系统顶会”会出现与数据库强相关的工作:
| 会议 | 全称 | 数据库相关子方向 |
|---|---|---|
| OSDI | USENIX Symposium on Operating Systems Design and Implementation | 分布式存储、共识、云原生 |
| SOSP | ACM Symposium on Operating Systems Principles | 同上,奇数年举办 |
| NSDI | USENIX Symposium on Networked Systems Design and Implementation | 分布式事务、RDMA、CXL 数据库 |
| EuroSys | European Conference on Computer Systems | 存储引擎、新硬件 |
1.2 怎么区分这几个会的”口味”
同一个主题在不同会上被关注的角度并不一样。以”Learned Index”为例:
- SIGMOD / VLDB:重点是系统整合与实验覆盖,要比较多个真实负载;
- CIDR:重点是愿景与新问题,允许实验不完整但观点要新;
- OSDI / SOSP:会关心系统级影响(内存 footprint、尾延迟、故障恢复);
- NSDI:只有当 Learned Index 和网络、RDMA、分布式绑定时才会被收。
读论文之前先看发表的会,能帮你提前预判作者的叙事重点。
1.3 期刊与 arXiv
- PVLDB(Proceedings of the VLDB Endowment):不是传统期刊,VLDB 采用的”月投月出”滚动投稿。一篇 PVLDB 论文会在 VLDB 当年会议上 presentation。
- ACM TODS(Transactions on Database Systems):传统期刊,偏理论。
- arXiv cs.DB:预印本渠道。可以比顶会提前几个月看到草稿版本,但要注意未经同行评审。
- IEEE Data Engineering Bulletin:Andy Pavlo、Tilmann Rabl 等人常在这里发 short survey。
二、检索与订阅渠道
2.1 DBLP:作者 + 会议导航
DBLP (https://dblp.org/)
是最准确的会议目录。访问
https://dblp.org/db/conf/sigmod/sigmod2024.html
可以直接看到某一届的全部论文列表。常用的 URL 模式:
https://dblp.org/db/conf/sigmod/sigmod<YYYY>.html
https://dblp.org/db/conf/vldb/vldb<YYYY>.html
https://dblp.org/db/conf/cidr/cidr<YYYY>.html
https://dblp.org/db/conf/icde/icde<YYYY>.html
https://dblp.org/db/conf/osdi/osdi<YY>.html
按作者追也很方便:https://dblp.org/pid/m/StonebrakerMichael.html
会列出 Stonebraker 的全部发表。追一位研究员的近 3
年论文,往往比盲读一届会议更高效。
2.2 PVLDB volumes
VLDB 的官方站点是
https://vldb.org/pvldb/,下辖每年一卷:
PVLDB vol 16 -> VLDB 2023
PVLDB vol 17 -> VLDB 2024
PVLDB vol 18 -> VLDB 2025
每卷按期编号。VLDB 采用月投月出,一篇论文的 “volume-issue” 组合可以告诉你它具体是哪个月被接收的。
2.3 arXiv cs.DB 的”日更”习惯
https://arxiv.org/list/cs.DB/new # 当天新增
https://arxiv.org/list/cs.DB/recent # 最近一周
推荐用 RSS 订阅
https://arxiv.org/rss/cs.DB。每天 5
分钟扫一遍标题和一作,就能覆盖 80% 的新工作。
2.4 会议录像与演讲
- SIGMOD / VLDB 的 presentation 通常会在会议结束后发布到 ACM Digital Library 或 YouTube 官方频道;
- CIDR 每届的 talks 都公开在
https://www.cidrdb.org/; - USENIX(OSDI / NSDI /
ATC)全部论文和视频免费,
https://www.usenix.org/conferences。
对英文听力不自信的读者,建议先读论文再听 talk——talk 会把实验部分讲得更直观,反过来补足阅读时漏掉的细节。
2.5 社区二次过滤
- DB Weekly / The Morning Paper(Adrian Colyer 的博客,虽然已停更但存档价值大):跨会议挑选高影响论文。
- Andy Pavlo 的 CMU Database Group:每年会发 What’s New in Databases 总结。
- Twitter / Mastodon 上
#sigmod#vldb标签:会议期间最热论文的快速风向标。
三、三遍读法:从 10 分钟到 3 小时
读论文不是”从头读到尾”,而是分层进入。Keshav 2007 年的 How to Read a Paper 是经典方法论,这里做一个数据库领域的改编版。
3.1 第一遍:10 分钟,判断”要不要读”
动作:
- 读标题和摘要,不超过 2 分钟;
- 读引言的第一段和最后一段,最后一段通常是贡献列表;
- 扫所有一级标题(Sections);
- 看结论;
- 看参考文献数量——30 条以内多半是工业论文,50+ 学术论文。
输出是一张”卡片”:
Paper: Bao: Making Learned Query Optimization Practical
Venue: SIGMOD 2021
Problem: Neo 等学习型优化器冷启动慢、不稳定
Approach: 用强化学习在现有优化器的 hint 集上做"选择"而非"重建"
Why read: HTAP + Learned QO 的工程落地样板
如果第一遍读完没有形成这张卡片,大概率是论文不适合当前的问题,或者你不属于它的目标读者。跳过即可。
3.2 第二遍:45–60 分钟,理解”它做了什么”
动作:
- 精读引言和 Motivation,画出作者说的”问题 → 现状 → 缺口”链条;
- 读系统架构图。数据库论文几乎每篇都有一张”系统全景图”,这是骨架;
- 读关键算法或定理。不需要逐行看数学,但至少要能复述算法步骤;
- 跳读实验。只看关键对比表和一两条核心曲线。
这一遍结束,你应该能回答:
- 问题输入是什么?输出是什么?
- 新方法的核心 idea 是什么?一句话。
- 实验里的基线是什么?胜出幅度多少?
- 论文主要的 假设 是什么?(例如”数据分布稳定”、“工作负载只读”)
3.3 第三遍:2–3 小时,“能不能动手复刻”
只对真正关心的论文做第三遍。动作:
- 把算法手写一遍。代码不必编译,写在笔记里就行;
- 挑实验里的一个表格,自己在本地复跑最小版本。数据集可以用 TPC-H SF=1 或 Tiny ImageNet 等缩量;
- 找 2–3 篇引用它的后续论文,看看后来者是怎么说它的问题的——这是最快发现”作者没说的坑”的方式;
- 写一个 200–500 字的中文复盘,放进自己的笔记系统。
第三遍的输出不是”读完”,而是”带着问题走”。例如复刻 DiskANN 时你会发现论文里没提到的一个工程细节:索引构建的内存峰值和磁盘预算。这种”论文之外”的知识才是真正值钱的。
3.4 一份读书笔记模板
# <论文标题>
- Venue / Year:
- 一句话:
- 我的关心点:
## 问题与 Motivation
## 核心方法(3–5 步)
## 关键实验(1 张表、1 条曲线)
## 假设与边界
## 未回答的问题
## 给工程的启示把这个模板存成
~/notes/paper-template.md,每读一篇就 cp
一份。一年后你会有 50–100 份卡片,比任何综述都好用。
四、工业论文 vs 学术论文的辨别
顶会里两类论文长相不同、价值不同,混读会错配期待。
4.1 工业论文的典型特征
- 作者一作来自工业界(Google、Meta、Microsoft、阿里、字节、PingCAP、Snowflake、Databricks);
- 题目里常出现具体系统名(Spanner、Bigtable、Snowflake、Photon、F1 Lightning、Aurora、PolarDB);
- 实验跑在”真实负载”上,有时用匿名化的客户数据;
- 系统架构图详细,算法描述反而简略;
- 很少给理论证明,代之以”we observed”;
- 参考文献偏少(20–30 条)。
读工业论文的重心在系统架构决策的权衡:他们为什么选 A 不选 B、在什么规模下这个决策成立。常见失效模式:规模不到就照抄。
4.2 学术论文的典型特征
- 作者一作来自高校(CMU、MIT、Berkeley、Stanford、清华、上交);
- 题目偏算法或理论(Learned, Approximate, Adaptive, Optimal…);
- 实验跑在 TPC-H / TPC-DS / JOB / IMDB 等公开 benchmark;
- 有明确的 baseline 对比表和消融实验;
- 参考文献 50–100 条。
读学术论文的重心在算法新 idea 本身,以及它在假设之外的 退化行为——学术论文往往把”最好的情况”展示得很完整,把”最坏的情况”藏在附录里。
4.3 对号入座
遇到一篇论文,先花 30 秒定位它是哪一类,再选相应的读法:
| 论文类型 | 重点看 | 容易忽略的坑 |
|---|---|---|
| 工业 | 架构图、规模数字、运维经验 | 算法本身可能是已知方法的工程化 |
| 学术 | 算法与证明、baseline 选择 | 假设强、工程可落地性弱 |
| 愿景(CIDR) | 问题定义、未来方向 | 常无实现或只有原型 |
4.4 一个实用技巧:看参考文献里的”自引”
一个快速判断论文真实定位的小技巧:翻到参考文献末尾,看作者引用了自己多少篇。
- 自引 0–2 篇:多半是新方向或年轻作者,可以放心读;
- 自引 3–6 篇:成熟方向的延伸工作,重点看”这篇相对于前作做了什么新贡献”;
- 自引 7+ 篇:要警惕”只对作者自己有意义”的增量工作,读之前想清楚对自己的项目有没有用。
此外,数据库领域的”学派”相对明显:CMU Pavlo 组、MIT Madden / Stonebraker 组、Berkeley Hellerstein 组、Microsoft Gray Lab、Google Research 各有其叙事习惯。读得多了会形成直觉——当你看到一作是 CMU 时,大概率会有详细的系统实现;看到 Berkeley 时,大概率会有干净的理论抽象。这不是偏见,而是效率工具:帮你预判论文的重点章节。
五、2023–2025 必读二十篇(精选)
以下二十篇按主线分组。每条给出会议+年份+一句话为什么值得读。为了保证可信度,只列笔者能确信存在的论文;对快速变化的工业系统,优先引用公开 SIGMOD/VLDB 版本。
5.1 AI-Native / 学习型组件(4 篇)
R. Marcus et al. Bao: Making Learned Query Optimization Practical. SIGMOD 2021. 为什么值得读:不是 Neo 那样的”推翻一切”,而是在现有优化器旁边加一层学习型 hint 选择器,工程上最现实的落地路径。
J. Ding et al. ALEX: An Updatable Adaptive Learned Index. SIGMOD 2020. 为什么值得读:Learned Index 能处理更新的第一个完整方案,回答了 RMI 之后最关键的工程问题。
P. Ferragina, G. Vinciguerra. The PGM-Index: A Fully-Dynamic Compressed Learned Index with Provable Worst-Case Bounds. PVLDB 13(8), 2020. 为什么值得读:给 Learned Index 补上了最坏情况的理论保证,是目前研究对比的默认基线之一。
D. Van Aken et al. Automatic Database Management System Tuning Through Large-scale Machine Learning. SIGMOD 2017. 为什么值得读:OtterTune 的原始论文,理解”自治数据库”最早的可运行系统。
5.2 向量与多模态检索(4 篇)
Y. A. Malkov, D. A. Yashunin. Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs. IEEE TPAMI 2018. 为什么值得读:HNSW 的官方引用来源,所有向量数据库的底层索引。
S. Jayasuriya et al. DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node. NeurIPS 2019. 为什么值得读:单机十亿向量的工程拐点,影响了 Milvus、Pinecone 等大多数向量库的磁盘友好型索引设计。
Q. Chen et al. SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search. NeurIPS 2021. 为什么值得读:内存-磁盘两阶段索引的代表,和 DiskANN 是一组对照读物。
微软研究院 GraphRAG 系列技术报告(2024, arXiv:2404.16130 等)。 为什么值得读:把图结构引入 RAG 的代表工作,第 10 篇会展开。(原始来源为 arXiv 与微软研究院博客,非同行评审顶会,列入”必读”是因为它目前是该方向事实上的起点。)
5.3 HTAP / 云原生 / 存算分离(4 篇)
D. Huang et al. TiDB: A Raft-based HTAP Database. PVLDB 13(12), 2020. 为什么值得读:行列分离副本 + Raft 的 HTAP 样板,架构图和工程取舍写得异常清楚。
B. Dageville et al. The Snowflake Elastic Data Warehouse. SIGMOD 2016. 为什么值得读:存算分离的元年论文,Lakehouse 之前最清晰的范式描述。
D. Das et al. Socrates: The New SQL Server in the Cloud. SIGMOD 2019. 为什么值得读:Azure SQL DB Hyperscale 背后的架构,和 Aurora、PolarDB 构成”分离式 OLTP”三角。
W. Cao et al. PolarFS: An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database. PVLDB 11(12), 2018. 为什么值得读:读完 PolarFS 再读 Socrates,你会发现大厂的解法高度收敛。
5.4 新硬件(2 篇)
A. Lerner, P. Fouto, P. Bonnet 等关于 CXL 内存池化的综述工作(2023–2024 arXiv/VLDB 上的相关论文,具体题目建议按 DBLP 查询 “CXL database” 关键字;此处不点名单篇,以避免引用偏差)。 为什么值得读:CXL 之于数据库的真实影响,目前主要散落在多篇短文中,集中阅读能避免被任何一篇的立场带偏。
B. Lu et al. APEX: A High-Performance Learned Index on Persistent Memory. PVLDB 14(10), 2021. 为什么值得读:持久内存退场之前,最接近工程落地的”Learned Index × PMEM”工作。读完可以理解 PMEM 时代学到的教训如何迁移到 ZNS / CXL。
5.5 隐私与安全(2 篇)
C. Priebe, K. Vaswani, M. Costa. EnclaveDB: A Secure Database Using SGX. IEEE S&P 2018. 为什么值得读:TEE 数据库的早期样板,理解”哪些东西可以放进 enclave、哪些不能”。
I. Kotsogiannis et al. Architecting a Differentially Private SQL Engine. CIDR 2019. 为什么值得读:把 DP 塞进 SQL 引擎的工程实录,可以直接对照 Google 的 ZetaSQL DP 扩展读。
5.6 新范式(4 篇)
J. M. Hellerstein, P. Alvaro. Keeping CALM: When Distributed Consistency Is Easy. CACM 2020. 为什么值得读:CALM 定理的可读性科普版,把”什么时候可以不用协调”讲得比原 PVLDB 版本更直观。
M. Shapiro et al. Conflict-Free Replicated Data Types. SSS 2011. 为什么值得读:CRDT 的奠基论文,后来所有关于 CRDT 的讨论都在围绕它扩展。
M. Armbrust et al. Lakehouse: A New Generation of Open Platforms That Unify Data Warehousing and Advanced Analytics. CIDR 2021. 为什么值得读:Lakehouse 概念的正式命名,影响了 Iceberg / Delta / Hudi 之争。
M. McSherry, D. G. Murray, R. Isaacs, M. Isard. Differential Dataflow(Naiad 及其后续工作, SOSP 2013 + 后续 CIDR/VLDB 论文)。 为什么值得读:增量视图维护与流批一体的理论根源,Materialize 和 RisingWave 都在延伸它。
读完这二十篇的时间预算:按三遍读法,最花时间的只有 5–6 篇需要做第三遍。其余做到第二遍即可。合理估计是 3–4 个月、每周 3–4 小时。
5.7 为什么是”这二十篇”而不是别的
挑选这二十篇论文的标准有四条:
- 3 年后仍会被讨论:短期热点(例如某个特定 LLM 基准上的 SOTA)被排除;
- 工业界有对应系统:可以找到一个开源或商业系统直接对照读;
- 作者背景多样:覆盖 CMU、MIT、Berkeley、Google、Microsoft、国内团队等,避免单一学派;
- 可读性:排除证明占半篇篇幅的纯理论论文。
这个标准必然有主观成分。例如我刻意没列 OceanBase、openGauss、GaussDB 的论文——不是它们不好,而是公开的会议版本信息有限,读者复核的门槛较高。同样地,我也没列太多 2025 年最新的论文——这些论文是否经得住时间考验,还需要观察。
六、配套公开课
论文之外,公开课能极大加速你对领域基础的补齐。以下是经过验证的几门课。
6.1 CMU 15-721 Advanced Database Systems
- 讲师:Andy Pavlo
- 主页:
https://15721.courses.cs.cmu.edu/ - 内容:主存数据库、MVCC、并发控制、向量化执行、HTAP、Learned Components。
- 读法:每节课有必读论文 2–4 篇,和本系列高度重合。建议把 15-721 当成”本系列的论文来源目录”。
6.2 CMU 15-445 Introduction to Database Systems
- 讲师:Andy Pavlo
- 主页:
https://15445.courses.cs.cmu.edu/ - 内容:本科数据库基础,但 Lab 的 BusTub 可以作为实验平台复刻很多论文。
6.3 Stanford CS 245 Principles of Data-Intensive Systems
- 主页:
https://web.stanford.edu/class/cs245/ - 内容:Peter Bailis 等人的工业友好视角,SQL / NoSQL / 大数据统一讲。
6.4 MIT 6.830 Database Systems
- 主页:
https://dsg.csail.mit.edu/6.5830/(对应 6.5830) - 内容:SimpleDB Lab 系统实现,偏本科生。
6.5 Berkeley CS 186 和 CS 286
- CS
186(本科)主页:
https://cs186berkeley.net/ - 偏基础。高级课程 CS 286 不稳定开设,可以按 Joe Hellerstein 的主页查看最新。
6.6 数据库圈的播客与博客
- The Data Engineering Podcast:每期 1 小时访谈,工业界视角。
- Andy Pavlo 的 Database Corner(YouTube):每年的”系统综述”值得看。
- DuckDB Blog:工程化写法范本,DuckDB 自身就是一堆近 5 年论文的集大成。
七、给工程师的三条落地建议
前六节讲方法,这一节是我自己在实践中验证过的三条建议。
7.1 每季度做一次”论文 sprint”
定一个三周的时间窗,集中读某条主线的 5–8 篇论文。sprint 结束时写一篇 2000–3000 字的”主线札记”,贴到仓库对应目录。积累四五个 sprint 之后,你在这个领域就是半个专家。
本系列文章本身就是这种 sprint 的产物:每篇上半是论文综述,下半是工程落地。你也可以把本系列当 sprint 的产出模板。
7.2 带着”复刻一个小功能”的目标读论文
纯阅读吸收率低。带目标读论文,吸收率能提升到 3–5 倍。例子:
- 读 HNSW 论文时,目标是”在自己的项目里用
hnswlib或 pgvector 加一个 top-10 查询接口”; - 读 Bao 论文时,目标是”在 PostgreSQL 上用
pg_hint_plan手动切换 3 种 hint 组合,并记录延迟分布”; - 读 Lakehouse 论文时,目标是”用 DuckDB + Iceberg Rust 写一个小 demo,能读一个分区的 Parquet”。
这些小目标都不大,但它们把”抽象的论文”变成了”可以跑的代码”。
7.3 建立”论文 → 仓库文章 → 代码”的三级对应
推荐的工作流:
- 用 DBLP + arXiv 订阅抓原始论文;
- 在本仓库
post/db-frontier/或post/storage/里找对应文章做背景补强; - 在
post/db-frontier/NN-slug/demo/里放最小复刻代码。
读论文不是纯消费,而是生产:每读一篇论文,都应该在你的笔记、博客或代码里产出某样东西。否则一个月后就会忘光。
7.4 和团队一起读:读书会的组织
个人读论文吸收率有限,拉两三个工程师一起读效率会翻倍。下面是笔者组织过的最小可行读书会格式:
- 人数:3–6 人为宜,再多难以保证发言时间;
- 频率:每 2 周一次,每次 60–90 分钟;
- 分工:每次由一人作为”导读”,其他人提前花 30 分钟做第一遍读法;
- 结构:15 分钟导读背景 → 30 分钟分段讨论 → 15 分钟”这篇论文在我们系统里怎么用”;
- 输出:一份 500–1000 字的共同摘要,放到团队 Wiki。
值得注意的是不要让读书会变成”作业汇报”。每个人对同一篇论文的疑惑点不同,开放式讨论会比顺序讲解更高效。好的读书会应该让每个人都觉得”别人问到了我没想到的问题”。
7.5 读不懂怎么办
顶会论文读不懂的常见原因:
- 缺少前置知识:例如读 Learned Index 前对 B+Tree 的内存布局不熟;
- 数学符号不熟:信息论里的 \(\varepsilon\)-DP、概率图模型的记号等;
- 工业背景不了解:不知道 TPC-H / JOB / Silesia 等 benchmark 是什么;
- 英文长难句:非母语读者的真实障碍。
对策:
- 对第一类:停下来读仓库里的前置文章或经典教材章节;
- 对第二类:用 Wikipedia / Wolfram MathWorld 快速查符号,不要试图系统补课;
- 对第三类:建立自己的”benchmark 速查表”;
- 对第四类:用中英对照的方式读,翻译工具可以用但要警惕术语误译。
没必要一次读懂一篇论文。把同一篇论文分 2–3 周读,每次都能看到新的细节,是完全正常的。
7.6 附加建议:挑一个长期”专长方向”
读了一年前沿论文后,应该挑一个方向做”专长”,而不是永远做通才。专长方向的标准:
- 自己真的感兴趣——不是”最热”的方向而是”愿意花 1000 小时的”方向;
- 在职业上可以获得反馈——能和工作结合,或能持续在社区获得回应;
- 有 3–5 个可接触的研究者——能通过邮件、Twitter、会议 Q&A 建立弱连接。
专长方向并不意味着放弃其他。好的工程师通常是”T 形”——一条深、其余浅。本系列列出的 7 条主线都可以作为深的那一竖;剩下的横向知识继续通过本系列的广度阅读获得即可。
八、结语
读论文是一种可训练的技能。顶会论文并不是专为博士生写的——只要掌握会议定位、三遍读法、工业 / 学术辨别这三件事,工程师就完全有能力在 2–3 个月内追上最近一年的研究前沿。
下一篇起,本系列进入具体主线。第 03 篇从学习型查询优化器开始:从 Neo、Bao、Balsa 到 LLM-CBO,整理 2018–2026 年这条支线的演化。
九、补充:读论文时最常见的七个误区
本节基于笔者带过的初级工程师和研究生在顶会论文阅读中反复出现的误区。列在这里是希望读者提前避开。
9.1 误区一:从摘要直接跳到结论
摘要通常是作者最”营销”的一段文字,结论通常是最”收敛”的一段。只读这两段会得到一个被浓缩过度的印象:方法很强、胜过基线、未来可期。但论文里真正有价值的信息——假设、失败案例、边界条件——往往埋在 Section 3 的算法细节或 Section 6 的局限性讨论里。三遍读法的第二遍要求把 Section 3 和 Section 6 至少读到一遍,就是为了逼着读者接触这些”不那么光鲜”的部分。
9.2 误区二:把实验结果当结论
“方法 X 比基线快 20%” 看起来很有说服力,但如果你去看实验章节的配置,可能会发现:
- 基线使用的是三年前的版本;
- 数据集是作者自己合成的;
- “快 20%” 只在某一特定 skew 下成立。
养成一个习惯:遇到任何性能数字,先问”在哪种数据、哪种硬件、哪种基线下”,再决定是否认可。
9.3 误区三:只读自己领域的论文
数据库领域的突破常常来自相邻领域: - Learned Index 来自机器学习圈对”函数逼近”的乐观; - DiskANN 的核心 idea 来自信息检索圈; - HTAP 借鉴了 OLAP 引擎的向量化执行; - Lakehouse 的元数据管理借鉴了分布式文件系统; - DP-SQL 的随机化机制来自密码学。
只读 SIGMOD 会让你错过一半的故事。建议每年至少读 5 篇 SOSP/OSDI、NSDI 上的数据库相关论文、以及 1–2 篇 S&P / CCS 上的安全数据库论文。
9.4 误区四:迷信 H-Index 和作者
数据库方向的好论文作者名单非常长。Stonebraker、Hellerstein、DeWitt、Abadi、Pavlo、Kraska、Madden 等名字下面当然有好论文,但也有若干后来被撤回或边界非常窄的论文。学生或新人的一作论文往往是最精彩的——因为他们没有历史包袱,叙事结构也更现代。
9.5 误区五:忽略被引用论文
当论文说”比 baseline X 快 Y%“时,X 是谁、发表在哪里、现在是否仍是事实标准,都值得花 5 分钟去确认。很多时候你会发现 baseline 是 2010 年的系统——对 2024 年的读者不再有意义。
9.6 误区六:只读新论文不读经典
Selinger 1979 年的论文今天仍然值得读;Stonebraker 1986 年的 Postgres 设计文档是扩展机制的源头;Shapiro 2011 年的 CRDT 原论文把数学讲得比任何二次文献都清楚。经典论文的阅读时间是一种复利资产——每次重读会因为工程经验增长而发现新的细节。
9.7 误区七:读完就完
读论文却不输出,等于没读。最低限度的输出是一张笔记卡片;较高层次的输出是写一篇博客或者拿论文里的算法在自己项目里复刻一个最小例子。本仓库的【数据库研究前沿】系列本身就是这种”读 + 写 + 复刻”的循环产物。
十、一份 16 周的阅读计划
如果读者想把本文的方法论落到实处,这里给一份可以直接拿去用的 16 周计划。
| 周次 | 主线 | 阅读目标 | 输出 |
|---|---|---|---|
| 1 | 方法论 | 本文 + Keshav 的 How to Read a Paper | 建立笔记模板 |
| 2 | 学习型组件 | Bao、Neo 其中之一 | 一张卡片 |
| 3 | 学习型组件 | ALEX、PGM-Index 任一 | 一张卡片 + 复刻 10 行 |
| 4 | 向量 | HNSW | 卡片 + 用 hnswlib 跑一个 demo |
| 5 | 向量 | DiskANN | 卡片 |
| 6 | 向量 | SPANN 或 ACORN | 卡片 |
| 7 | HTAP | TiDB VLDB 2020 | 卡片 + 架构图手绘 |
| 8 | 云原生 | Snowflake SIGMOD 2016 | 卡片 |
| 9 | 分离式 | Socrates SIGMOD 2019 | 卡片 |
| 10 | 分离式 | PolarFS PVLDB 2018 | 卡片(对照 9) |
| 11 | 新硬件 | CXL 数据库相关近作 | 1000 字小综述 |
| 12 | 隐私 | EnclaveDB S&P 2018 | 卡片 |
| 13 | 隐私 | DP-SQL CIDR 2019 | 卡片 |
| 14 | 新范式 | CALM CACM 2020 + CRDT SSS 2011 | 卡片 |
| 15 | 新范式 | Lakehouse CIDR 2021 | 卡片 |
| 16 | 总结 | 本系列第 25 篇(本仓库) | 自己写一张选型矩阵 |
每周 3–4 小时、共约 50–60 小时,是一个相对保守的时间预算。完成后,你对 2026 年数据库研究前沿会有属于自己的地图。
十一、一个小建议:建立个人”论文 inbox”
最后分享一个笔者自己在用的工作流,非常简单但持续 3 年后效果明显。
~/paper-inbox/
├── 2026-Q2/ # 按季度归档
│ ├── vldb-2026-papers.md # 本季度 VLDB 所有论文的一行摘要
│ ├── sigmod-2026-papers.md
│ └── arxiv-weekly.md # 每周 arXiv 扫读
├── reading/ # 正在读的 PDF
├── done/ # 已完成第三遍读法的 PDF + 卡片
└── backlog/ # 待读 PDF配合一个定时任务:
# 每周一早上 8 点提醒自己扫 arXiv
crontab -e
0 8 * * 1 echo "扫一下 arxiv cs.DB 本周新增" | mail -s "paper-inbox" me@example.com工具可以换,但“建立入口 + 周期性回顾” 的原理不变。数据库领域 3 年不补论文,知识就会明显落后;但只要维持这样一个轻量级循环,基本不会错过重要工作。
十二、致谢
感谢所有把顶会论文开放共享的作者、维护 DBLP 的 Michael Ley 团队、维护 arXiv 的 Cornell University、维护 PVLDB 开放访问的 VLDB Endowment、以及开放公开课的 CMU、MIT、Stanford 等学校老师。没有这些基础设施,一个普通工程师不可能靠业余时间读到最前沿的数据库论文。
这篇方法论的很多经验也来自笔者在过往工作中被不同前辈点拨的片段——一些提醒是课上听到的,一些提醒是代码 review 里学来的。把它们整理成文字,希望能让下一代工程师少走一些弯路。
参考文献
S. Keshav. How to Read a Paper. ACM SIGCOMM Computer Communication Review, 37(3):83–84, 2007. http://ccr.sigcomm.org/online/files/p83-keshavA.pdf
DBLP Computer Science Bibliography. https://dblp.org/
Proceedings of the VLDB Endowment. https://vldb.org/pvldb/
USENIX 会议录像与论文开源档案. https://www.usenix.org/conferences
CIDR 官方网站(论文与 talk 公开). https://www.cidrdb.org/
arXiv cs.DB. https://arxiv.org/list/cs.DB/recent
CMU 15-721 Advanced Database Systems. https://15721.courses.cs.cmu.edu/
CMU 15-445 Introduction to Database Systems. https://15445.courses.cs.cmu.edu/
Stanford CS 245 Principles of Data-Intensive Systems. https://web.stanford.edu/class/cs245/
MIT 6.5830 Database Systems. https://dsg.csail.mit.edu/6.5830/
R. Marcus et al. Bao: Making Learned Query Optimization Practical. SIGMOD 2021. https://dl.acm.org/doi/10.1145/3448016.3452838
J. Ding et al. ALEX: An Updatable Adaptive Learned Index. SIGMOD 2020. https://dl.acm.org/doi/10.1145/3318464.3389711
P. Ferragina, G. Vinciguerra. The PGM-Index. PVLDB 13(8), 2020. https://www.vldb.org/pvldb/vol13/p1162-ferragina.pdf
D. Van Aken et al. OtterTune. SIGMOD 2017. https://dl.acm.org/doi/10.1145/3035918.3064029
Y. A. Malkov, D. A. Yashunin. HNSW. IEEE TPAMI, 2018. https://arxiv.org/abs/1603.09320
S. Jayasuriya et al. DiskANN. NeurIPS 2019. https://papers.nips.cc/paper_files/paper/2019
Q. Chen et al. SPANN. NeurIPS 2021. https://arxiv.org/abs/2111.08566
D. Huang et al. TiDB: A Raft-based HTAP Database. PVLDB 13(12), 2020. https://www.vldb.org/pvldb/vol13/p3072-huang.pdf
B. Dageville et al. Snowflake Elastic Data Warehouse. SIGMOD 2016. https://dl.acm.org/doi/10.1145/2882903.2903741
D. Das et al. Socrates. SIGMOD 2019. https://dl.acm.org/doi/10.1145/3299869.3314047
W. Cao et al. PolarFS. PVLDB 11(12), 2018. https://www.vldb.org/pvldb/vol11/p1849-cao.pdf
B. Lu et al. APEX: A High-Performance Learned Index on Persistent Memory. PVLDB 14(10), 2021. https://www.vldb.org/pvldb/vol14/p1734-lu.pdf
C. Priebe, K. Vaswani, M. Costa. EnclaveDB. IEEE S&P 2018. https://ieeexplore.ieee.org/document/8418608
I. Kotsogiannis et al. Architecting a Differentially Private SQL Engine. CIDR 2019. http://cidrdb.org/cidr2019/papers/p125-kotsogiannis-cidr19.pdf
J. M. Hellerstein, P. Alvaro. Keeping CALM. CACM 2020. https://cacm.acm.org/research/keeping-calm/
M. Shapiro et al. Conflict-Free Replicated Data Types. SSS 2011. https://hal.inria.fr/inria-00609399v1/document
M. Armbrust et al. Lakehouse. CIDR 2021. https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
D. G. Murray et al. Naiad: A Timely Dataflow System. SOSP 2013. https://dl.acm.org/doi/10.1145/2517349.2522738
上一篇:【数据库研究前沿】系列导论 下一篇:【数据库研究前沿】学习型查询优化器:Neo、Bao、Balsa 到 LLM-CBO
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【数据库研究前沿】系列导论:从 System R 到 AI-Native 的 2026 研究地图
以 System R、Postgres、Bigtable、Spanner、Snowflake 等关键节点串起 50 年数据库史,勾勒 2026 年 AI-Native、向量检索、HTAP 云原生、新硬件、隐私计算、新范式、方法论七条主线,并给出 25 篇系列文章的完整阅读地图。
【数据库研究前沿】CXL 3.0 与内存池化:对缓冲池与共享内存模型的重塑
从 CXL 1.1 到 3.0 的协议演进、Type 1/2/3 设备分类,到 Pond、TPP 两篇 ASPLOS 2023 论文展示的云内存池化实践,再到 PostgreSQL / MySQL 在分层内存下的 buffer pool 调参方向,梳理 CXL 对数据库共享内存模型的重塑路径。
【数据库研究前沿】近数据处理与计算下推:Smart SSD 到 DPU Offload
从近数据处理(NDP)的基本动机出发,梳理 Samsung SmartSSD、ScaleFlux、Eideticom 等 computational storage 产品,SNIA 计算存储标准,BlueField DPU 对存储路径的改造,以及 YourSQL、POLARDB-NDP 等学术/工业工作;下半给出过滤、解压、CRC、加密这四类当前能真正落地的下推场景,并借 PostgreSQL FDW 的类比说明'下推'到底在下推什么。
【数据库研究前沿】持久内存退场之后:ZNS SSD 与下一代非易失内存
Intel Optane / 3D XPoint 产品线 EOL 之后,SOFORT、FPTree、RECIPE 等 PM 数据库的成果如何迁移?ZNS SSD 对 LSM-Tree 的意义、RocksDB 的 ZNS 适配、PMDK 兼容层的取舍,以及把 CXL memory 作为下一代非易失载体的可能性——本文给出一份面向工程师的'后 Optane 时代'清单。