“自治数据库(Self-Driving Database)”这个提法在 2017 年前后集中出现。它的愿景很朴素——让 DBA 不再手动 tune 参数、选索引、重分区——但要真正做到这点,系统必须同时具备 观测负载、预测未来、执行动作、在动作失败时回退 四项能力。到 2026 年,云厂商的产品化让前三项变成了标配;第四项”安全回退”仍是工程难题。
本文上半梳理 Peloton、NoisePage、OtterTune 几条研究线的核心思想,以及 workload forecasting 这类配套工作;下半讨论当云上 auto-tuning 真的打开时会踩到的坑,以及如何把它嵌入 SRE 的 on-call 工作流。
一、Peloton:把 HTAP 当成 self-tuning 的舞台
Peloton 来自 CMU(Pavlo 等人,CIDR 2017, “Self-Driving Database Management Systems”)。它的骨架是一个 HTAP in-memory 引擎,但作者真正关心的是”能不能让系统自己决定存储布局 / 索引 / 物化视图”。论文里的关键观点:
- 自治是一个 feedback control 问题,不是规则堆叠。要有 “观测 → 预测 → 动作 → 回填” 闭环,而不是”一堆 if-else 触发器”。
- 动作必须是递增可回退的:创建索引、转成列式、调整分区。每一个动作都要能估计收益、估计代价、估计失败时如何回滚。
- 预测要建立在 workload forecasting 之上:不能只看”现在 CPU 高”就加索引,必须看”未来 1 小时 / 1 天 / 1 周” workload 如何演化。
Peloton 项目本身 2018 年停止维护,但这些观点在 NoisePage 和后续云产品里延续了下来。
二、NoisePage:把行动延迟和开销模型打磨到生产可用
NoisePage(Pavlo 等,VLDB 2021 / CIDR 2021 系列论文)是 Peloton 的继任者。相比 Peloton,它着重解决了 Peloton 暴露出的几个问题:
- Action cost model。创建一个索引、改 compaction 阈值,分别需要多少 I/O、多少内存、多少 CPU、产生多长时间的 p99 尾延迟?没有这个模型,autonomy 就是盲动。NoisePage 用一个单独的 learned model 估 action cost,用历史执行的真实耗时反馈训练。
- Model-Based Action Generation。不是枚举”所有可能索引”,而是把动作生成参数化为一个结构化空间,然后用强化学习在空间上搜索。
- Behavior Modeling。用每个 operator 的 micro-benchmark 构建 behavior model,让系统能在没真正执行过某个动作之前就能估成本,这是冷启动的前提。
NoisePage 的代码虽然规模有限,但它把”self-driving 这件事到底拆成几块”讲得最清楚。它是后续所有云厂商 auto-tuning 产品的学术参考。
三、OtterTune:数据库参数调优的贝叶斯范式
OtterTune(Van Aken et al., SIGMOD 2017, “Automatic
Database Management System Tuning Through Large-scale
Machine Learning”)处理的是一个更窄的问题:从上百个
knob 里挑出 top-N 重要的并找到最优组合。PostgreSQL
的 postgresql.conf 有 280+ 个参数,MySQL 的
my.cnf 类似,绝大多数 DBA
只能在几个常见参数上动手。
3.1 核心方法
OtterTune 的思路分三步:
- Knob ranking:用 Lasso 做特征选择,从上百个 knob 里选出对指标(TPS、p99)影响最大的十几个。
- Workload characterization:把当前 workload 描述成一个特征向量(表大小、读写比例、join 数、内存占比等),在历史 workload 库里匹配最相似的。
- Gaussian Process (GP):在选出的 knob 子空间上跑 GP 贝叶斯优化,每次建议一组参数、观察真实 TPS、更新 GP 后验。
GP 的好处是自带不确定性估计,可以在 “exploit 已知好配置” 和 “explore 未知区域” 间做 Thompson Sampling;坏处是 GP 的扩展性只到几十维,需要前两步的降维做配合。
3.2 从学术到产品:OtterTune Inc. 与后续
OtterTune 2020 年前后成立公司(后被 PlanetScale 吸收),把同一套方法做成 SaaS:用户挂探针到 RDS / Aurora / Azure MySQL,后台用 GP 给出 knob 建议。公开 postmortem 里最重要的经验不是算法,而是:
- 安全 knob
清单。
innodb_buffer_pool_size可以改;innodb_log_file_size改了要重启;query_cache_type(MySQL 5.7 还在)改错直接挂。系统必须内置一份分类清单。 - 灰度 + 自动回退。每次 knob change 之后观察 N 分钟的黄金指标(QPS、p99、error rate),超过阈值自动回到上一个版本。
- 应用端同步评估。数据库 TPS 提升 20% 并不一定让上游 RT 下降,有时反而因为连接池争抢让 RT 上升。必须把应用端指标一起纳入决策。
四、云厂商的 auto-tuning:Aurora、Azure SQL、RDS
大厂自 2018 年起陆续推出产品级的 auto-tuning 和自动索引推荐。挑几条有公开资料的简单过一遍。
4.1 Azure SQL 的 Automatic Tuning
Azure SQL Database 的 Automatic Tuning
是公开资料最详尽的产品之一(Das et al., SIGMOD 2019,
“Automatically Indexing Millions of Databases in Microsoft
Azure SQL
Database”)。系统每天在云上百万级数据库实例上运行,核心机制:
- Query Store 采集每条查询的 plan +
真实时间,相当于云上版本的
auto_explain+pg_stat_statements。 - 索引建议器对频繁出现的”缺索引”扫描做 What-if 分析,预测如果加上索引 workload 整体会节省多少代价。
- 自动执行 + 自动回滚:建议一旦被系统应用,后续 48 小时内如果整体 regress,自动 drop 这个索引。
- plan forcing:对某条查询观察到计划退化,自动 force 回上一个已知好的计划。
最值得工程师借鉴的是它公开承认”错误率不等于零”:论文里明确写出自动索引创建的”净负收益率”控制在百分之几的量级,而不是零。
4.2 Aurora 的 auto-scaling 和 optimizer hints
Aurora 的 autonomous 能力更偏向 资源 维度:Aurora Serverless v2 的实例自动伸缩、读副本自动增减、buffer pool warmup。在 计划 维度,Aurora 的 Query Plan Management(QPM)允许自动 capture / evolve / accept plan baseline,思路上接近 Azure 的 plan forcing。
4.3 RDS Performance Insights + DevOps Guru
AWS 的 Performance Insights 本身只是一个观测面板,但 DevOps Guru for RDS 在 2021 后陆续加上了”异常检测 + 建议”能力:检测到 long-running 事务、锁等待、连接风暴,给出可执行建议。它的自治程度低于 Azure SQL,但对 SRE 工作流的嵌入做得最好。
四点五、从研究到产品要填的缝
上面四节讲的是”学术做了什么”,但把它做成产品还要填几道工程缝。这里把我们在业界看到的共性经验列一列:
4.5.1 观测链路的同质性
autonomy 系统依赖高质量的 workload / latency / resource
观测数据。这些数据必须来自同一条管道,否则做出来的决策会因为时间对不齐、口径不统一而跑偏。典型翻车:CPU
用 node_exporter 采集,query 用
pg_stat_statements,两者时间对齐差 15 秒,tune
完之后反复抖动。
正确姿态是把所有观测往一条时序数据库(Prometheus / InfluxDB / TimescaleDB)里灌,再让 autonomy 系统只从这里读。这比”算法先进一点”更能决定项目生死。
4.5.2 行动与审计分离
autonomy 的”建议”和”执行”应当走不同通道:
- 建议通过 PR / 工单发布,进入常规 review 流程。
- 执行通过受限的 controller,所有动作都带 tracing id、可被审计回放。
这条很枯燥但是保命。没有审计回放的 autonomy 系统,一旦出事没人能说清楚哪一步是机器做的、哪一步是人做的。
4.5.3 黑盒与白盒算法的取舍
学术界偏好强化学习、Bayesian Optimization 这类黑盒方法,因为泛化好。工业界要跟这些算法共存,有几个反直觉的选择:
- 优先白盒规则。“表太大 + 索引缺失 → 建索引”这种规则能用规则就用规则,不上 RL。
- 黑盒模型只做排序。让规则给候选动作,黑盒模型只负责排序和挑 top-1,避免模型生成离谱动作。
- 每个动作类型配一个简单模型。不要一个大模型管所有动作,分开维护更好调试。
五、Workload Forecasting:自治的大脑
自治动作的前提是对未来的预测。这方面最有代表性的是 QueryBot5000(Ma et al., VLDB 2018, “Query-based Workload Forecasting for Self-Driving Database Management Systems”)。
5.1 核心结构
QueryBot5000 的输入是 pg_stat_statements
级别的 query template
时间序列(每模板每分钟多少次执行),输出是”未来 k 分钟 / k
小时每模板的执行次数预测”。它用了三层:
- 聚类:对模板做时间序列 K-means,近似模板合并为一个簇。几千个模板压到几十个簇。
- 每簇一个预测器:用 ensemble(LR + RNN)做 1h / 1d / 1w 三档预测。
- 层级验证:k 阶预测要和低阶预测在聚合后一致,避免高阶胡说。
它的价值在于让 self-driving 系统不再只对”当下”反应,而是可以提前 做索引 / 分区 / 扩容决策。这点在云上尤其重要:云资源的申请 / 释放有分钟级延迟,必须提前预测才能做到”真的弹性”。
5.2 现实中能做到什么程度
2022 年之后,transformer 系工作(如 TiDB 团队的 Forecasting 系列博客、SageMaker Forecast 的 DBLoad 案例)把预测精度推高了一档,但公开论文承认的结论基本是:
- 日内模式(工作日 vs 周末、上下班高峰)预测 MAPE 可以做到 10% 以内。
- 周 / 月级模式(促销、发版、月末报表)必须有人工标签配合,纯统计模型做不到稳定。
- 突发流量(上游事故、爬虫、刷单)没有模型能预测,只能做 detection 和 throttling。
这决定了 auto-tuning 的安全姿态:信日内模式,警惕周月级预测,不信突发预测。
六、打开 auto-tuning 的实战踩坑
下半转到现场视角。当你在 Aurora / Azure SQL / 云上自建 PG 打开 auto-tuning 开关时,会遇到什么?
6.1 行为回归(Behavior Regression)
auto-tuning 最糟糕的失败模式不是”没优化”,而是今天变好明天变差。典型场景:
- 自动加了一个索引,今天 OLTP 变快,凌晨 ETL 因为索引维护变慢 3 倍。
- 自动 force 了某个 plan,小时级负载很好,季度报表查询因为绕开 parallel 变得跑不完。
- 自动增大了
work_mem,单查询变快,连接数高峰时 OOM。
控制这类回归需要三件事:
- 把”动作日志”做成一等公民。每个 auto 动作必须记录时间、触发条件、预期收益、实际结果、回滚选项。
- 多时间窗对照。评估不能只看 10 分钟窗口,至少要覆盖 1 天、1 周、1 月三个档。
- 黄金查询集合。挑 20–50 条关键业务查询作为 “canary”,任何 auto 动作后都重跑一遍,p99 退化 > 20% 直接回滚。
6.2 审计与合规
金融 / 医疗场景里,“数据库自己改了执行计划”是一个审计红旗。建议的工程姿态:
- 模式选择:
off/advise-only/auto-apply。生产默认停在advise-only,让人类批准。 - 变更审批链:auto 动作产生 PR / 工单,过 CI 的”影响面评估”再合入。CI 里跑回归 SQL 集合。
- 变更窗口:只在业务低峰窗口执行
CREATE INDEX CONCURRENTLY、ALTER SYSTEM。半夜的 backfill 窗口是默认好窗口。
6.3 灰度策略
单机数据库的 auto-tuning 没有灰度的自然边界,必须靠人为切分:
- 有读副本时,先在只读副本上应用计划动作,观察 1 小时再推主库。
- 多数据库实例时,先在 10% 的分片 / 实例上开 auto-apply,梯度放开。
- 对 knob 类动作,使用 “shadow apply”:apply 到影子实例跑 replay,主实例不变。
6.4 与 SRE on-call 的集成
auto-tuning 不应该让 on-call 变难,而应该变简单。落地经验:
告警通道 动作语义
────────────── ─────────────────────────────
P1 页面 系统自动回滚,同时 page SRE 说明原因
P2 slack advise-only 建议,挂进周会 review
P3 工单 统计汇总,进季度容量报表
关键是每一条自动动作都有清晰的严重级别映射,而不是全部挤在一个 dashboard 让 SRE 自己挑。Pavlo 组后续的论文里反复强调 “the human is in the loop”——2026 年的业界共识依然是:自治不是无人值守,而是让人类的每一分注意力都花在真正值得看的事情上。
6.5 三种成熟度阶段
把现实里见过的团队按自治成熟度分阶段,大致是:
- 第 0 阶段:脚本化。DBA 自己写 shell / python 脚本采统计、发告警,动作完全手工。大部分企业内自建库都停在这里。
- 第 1 阶段:advise-only。系统给建议,DBA
判断后执行。公有云默认姿态,Azure SQL 的
automatic_tuning_options = ENABLED但state = VIEWABLE就是这一档。 - 第 2 阶段:限域 auto-apply。在预先白名单的 knob / action 上打开自动执行,带自动回滚。这是目前大多数云产品的天花板。
- 第 3 阶段:全域自治 + 预测性决策。系统可以基于 workload forecasting 提前伸缩、重分区、甚至主动废弃老索引。这一阶段只在极少数大厂内部系统出现过。
坦诚说:绝大多数生产场景停在第 1 到第 2 阶段收益最大、风险最可控。贸然冲向第 3 阶段会把 SRE 工作流打乱,收益不值当。
6.6 三条常被忽视的踩坑
- 监控要和动作解耦。auto-tuning 自己的监控不能用同一个 PostgreSQL 存储 —— 数据库出故障时,你需要另一套系统来看它。
- 权限边界。autonomy 系统需要
CREATE INDEX、ALTER SYSTEM等高权限。把它的角色做成独立的 service account,不要复用应用账号。 - 时间范围。很多动作(vacuum、重分区)要在业务低谷执行;autonomy 系统必须知道业务时区,不能按 UTC 硬写死。
6.7 与仓库其他文章的互链
- 参数 knob 调优的基础知识,尤其是 buffer pool / WAL / checkpoint,参考 LSM-Tree 工程实践。
- 本文提到的索引动作底层假设,参考 B+Tree vs LSM。
- 上一篇的 learned index 与本文的自动索引推荐形成对照:前者是”换掉索引结构”,后者是”换掉索引选择”,参考 学习型索引再审视。
七、把 self-driving 嵌入工程流程:一个参考流水线
前面几节讲的是点状能力。最后一节把它们串成一条完整流水线,作为工程团队落地的起点。
7.1 全景图
┌────────────────────┐ ┌─────────────────────┐ ┌──────────────────┐
│ observation layer │ │ analysis & decide │ │ action & verify │
│ - pg_stat_* │───▶│ - forecast │───▶│ - advise PR │
│ - auto_explain │ │ - regression detect │ │ - canary apply │
│ - node_exporter │ │ - action ranking │ │ - auto rollback │
└────────────────────┘ └─────────────────────┘ └──────────────────┘
▲ │
│ │
└─────────── audit log / tracing id ◀───────────────┘
每一层都可以独立演进:
- 观察层最稳定,变动最少。
- 分析层随工作负载变化最快,模型要定期重训。
- 动作层风险最高,每一次变更都要带回滚。
7.2 一个最小可行版本
对于不打算买厂商方案的团队,一个最小版本可以这样搭:
pg_stat_statements+auto_explain+ TimescaleDB 存观察数据。- Jupyter / Python 脚本跑分析,输出 advise JSON。
- 简单 CLI 工具把 advise 转成 PR(SQL 文件 + Runbook 注释)。
- CI 跑回归查询集合,通过后由 DBA 手动合并。
这一套一个中型团队 2–3 周可以搭完,能解决 80% 的”每周例行调优”。再往上的自动执行只有在 PR 复核成本大于决策风险时才值得做。
7.3 “不做 auto-tuning” 也是有效答案
最后一个诚实的建议:如果你的数据库 p99 已经满足 SLA 且运维人力充足,完全不做 auto-tuning 是合理选择。自治系统是用工程复杂性换一部分 DBA 人力;这个交换在人力成本远高于复杂性成本的场景下才合算。大部分中小团队反而该花力气在基础 observability 和灾备上,auto-tuning 放到路线图后段。
2017 年 Peloton 的论文结尾写道:“A self-driving DBMS is the next grand challenge for database research.”。2026 年回头看,这句话没过时,但”grand challenge”的重心已经从算法转到了工程护栏。
八、延伸阅读:autonomy 系统的失败模式汇总
用最后一节把前面散落的踩坑汇总一下,当成一张对照表。
8.1 动作类失败
- 自动加索引 → 夜间 ETL 变慢。解决:按时间段分档评估。
- 自动 force plan → 数据增长后退化。解决:plan baseline 设 TTL,过期自动放开。
- 自动调 knob → 副作用传播。解决:建立 knob 依赖图,改一个查关联。
- 自动升级统计信息粒度 → 内存膨胀。解决:内存用量纳入代价模型。
8.2 观测类失败
- 指标口径不齐。解决:一条数据管道。
- 时间戳错乱。解决:统一 UTC + 单一时钟源。
- 采样率不够低频事件。解决:长尾事件全采样而非固定采样率。
8.3 组织类失败
- 自治系统无人负责。它不是应用、也不是数据库本身,很容易没人 own。一定要有一位”autonomy tech lead”在团队里挂名。
- 与 DBA 关系紧张。autonomy 不替代 DBA,它让 DBA 从重复操作里解放出来专注真正的设计决策。沟通时必须强调这一点。
- KPI 设置错误。如果 KPI 只是”减少多少 DBA 人力”,autonomy 系统会被逼着冒进;KPI 应该是”保持 SLA 的前提下减少多少次人工干预”。
8.4 小结
自治数据库这个命题在 2017 年看像学术假想,2026 年看是一套已经在云上规模化运行的工程实践。但规模化的代价是把所有风险点写在 runbook 里,而不是靠模型自信。每一步自动化都要问一句 “如果这步错了,谁来兜底”,有答案就前进,没答案就退回 advise-only。
九、与前后文章的衔接
这一篇是 AI-Native 主线的中段。回顾与展望一下:
- 上一篇 学习型索引 讨论的是”索引结构本身可不可以用模型替换”。
- 本篇讨论的是”运维决策本身可不可以用模型做出”。
- 下一篇 Text-to-SQL 讨论的是”查询表达本身能不能用自然语言替代”。
- 再下一篇 数据库作为 LLM 记忆体 讨论的是”数据库反过来为 LLM 服务”。
这四篇构成一张地图:从”组件被 AI 重构”到”数据库为 AI 服务”。自治数据库在这张地图上的位置是枢纽——它既受益于 learned index / learned QO 的底层能力,也为 Text-to-SQL 和 agent memory 提供可靠的运维底座。
理解这一层递进关系,有助于工程师在组织里讲清楚”为什么要投资 autonomy”:它是给未来更高层的 AI 能力搭底座,不是单纯替换 DBA。
十、一张运维姿态对照表
把本文涉及的工程建议压缩成一张可以贴在 Wiki 首页的表。
| 维度 | 过度保守 | 合理范围 | 过度激进 |
|---|---|---|---|
| Knob 调优 | 永不自动 | 白名单 auto + 回滚 | 全部 auto |
| 索引建议 | 只手动 | 低峰期 auto-apply | 不看时间窗口 |
| Plan 强制 | 禁用 | 针对慢查询 auto | 全量强制 |
| Forecasting | 不做 | 日内 + 周内 | 押突发预测 |
| 变更审批 | 人人审批 | 低风险跳过 | 全部无审批 |
| 观测与告警 | 指标过多 | SLO 为核心 | 只看 CPU |
表格的每一格都对应前文某个踩坑,把它放在团队 Wiki 能让新同事快速 onboard。
10.1 成熟度自检清单
再给一个 10 条自检清单,团队可以用来评估自己的 autonomy 成熟度:
- 是否有一条统一的观测数据管道?
- 是否把关键查询做成了回归集合?
- 每次自动动作是否写入 audit log?
- 是否有明确的 auto 白名单?
- 是否有自动回滚机制?
- 是否区分低峰 / 高峰的动作窗口?
- 是否有跨实例的灰度策略?
- 是否给 autonomy 系统建了独立的角色和权限?
- 是否订阅了厂商 / 开源社区的 CVE?
- 是否有专人每季度 review autonomy 的决策质量?
10 项全勾对中型团队已经是理想状态。勾 6–7 项算健康,勾 3 项以下说明 autonomy 系统处于”有能力但没人 own”的危险区。
十一、一个收尾观察:为什么 autonomy 是必然趋势
尽管全文一直在讲踩坑和克制,最后想表达一个更乐观的看法:autonomy 是必然趋势,只是路径曲折。
三条驱动力:
- 数据库实例爆炸:云厂商每家管理百万级实例,人工运维根本 scale 不到。
- SLA 要求提高:5 个 9 的可用性留给人类手动调优的时间窗口越来越短。
- LLM 能力溢出:让 LLM 读 runbook、读日志、给 SRE 当副驾驶,是过去十年从没有过的新可能。
这三条力量叠加,让 autonomy 从 “nice to have” 逐渐变成 “must have”。问题不是做不做,而是用多激进的姿态做。
对工程师而言,现在正是跳进去、把前面几代人踩过的坑梳理出来、贡献给下一代 autonomy 系统的最佳时机。这是本文最想传递的信号:悲观对待每一个具体动作,乐观对待整个方向。把两种态度结合好,autonomy 既不会变成口号式的承诺,也不会被一次回归事故劝退。下一篇我们换视角,从”系统自己决策”过渡到”用户用自然语言决策”,这两条线在 2026 年开始逐渐汇合。
十二、最后留一张未来图
给一个稍微放远的猜想。如果把 autonomy、learned QO、learned index、Text-to-SQL、agent memory 这五条线拼在一起,2030 年的数据库使用方式可能是这样:
- DBA 的角色 80% 转成 “autonomy 系统的训练师 + 审计员”,不再手动调优。
- 应用层绝大部分查询通过 natural language / DSL 产生,SQL 只作为底层中间表示。
- 数据库本身把 “应该如何存、索引、分区” 变成自适应决策。
- 每一次决策都有 provenance,审计能追到具体模型版本与 prompt。
这个图景里有些今天仍是梦,但每一块我们都能看到 2018–2026 年扎实的进展铺垫。数据库社区过去十年并没有像某些人说的那样”没什么新意”,它只是把创新从学术论文搬到了云产品的黑箱里。耐心一点,这些能力会在未来五年逐步暴露给工程师和用户。
参考文献
A. Pavlo et al., “Self-Driving Database Management Systems”, CIDR 2017, https://www.cidrdb.org/cidr2017/papers/p42-pavlo-cidr17.pdf.
A. Pavlo et al., “Make Your Database System Dream of Electric Sheep: Towards Self-Driving Operation”, VLDB 2021, https://www.vldb.org/pvldb/vol14/p3211-pavlo.pdf. NoisePage 的系统论文。
D. Van Aken et al., “Automatic Database Management System Tuning Through Large-scale Machine Learning”, SIGMOD 2017, https://dl.acm.org/doi/10.1145/3035918.3064029. OtterTune 原始论文。
S. Das et al., “Automatically Indexing Millions of Databases in Microsoft Azure SQL Database”, SIGMOD 2019, https://dl.acm.org/doi/10.1145/3299869.3314035.
L. Ma et al., “Query-based Workload Forecasting for Self-Driving Database Management Systems”, VLDB 2018, https://www.vldb.org/pvldb/vol11/p1497-ma.pdf. QueryBot5000。
L. Ma et al., “MB2: Decomposed Behavior Modeling for Self-Driving Database Management Systems”, SIGMOD 2021, https://dl.acm.org/doi/10.1145/3448016.3457276.
cmu-db/noisepage, GitHub, https://github.com/cmu-db/noisepage. NoisePage 源码(已 archived)。ottertune/ottertune, GitHub, https://github.com/ottertune/ottertune.Azure SQL Database Automatic Tuning 官方文档, https://learn.microsoft.com/azure/azure-sql/database/automatic-tuning-overview.
AWS Aurora Query Plan Management 官方文档, https://docs.aws.amazon.com/AmazonRDS/latest/AuroraPostgreSQLDeveloperGuide/AuroraPostgreSQL.Optimize.html.
上一篇: 学习型索引再审视:RMI、ALEX、PGM 下一篇: Text-to-SQL 与 Agentic Query:DIN-SQL、C3、DAIL-SQL 工程复盘
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【数据库研究前沿】Serverless 数据库弹性理论:Neon 与 Aurora Serverless v2
从 Aurora 的日志即数据库到 Neon 的 pageserver/safekeeper/compute 三层分离,拆解 Serverless 数据库的冷启动、细粒度伸缩与 copy-on-write 分支,并给出本地可跑的 Neon demo 指引
【数据库研究前沿】Disaggregated DB 合集:Socrates、PolarDB、Taurus 的共同模式
从 Aurora 到 Socrates、PolarDB、Taurus:系统梳理四家云数据库的存算分离架构共同点与差异——日志即数据库、页面服务器、缓存层级、故障恢复与工程踩坑
【数据库研究前沿】系列导论:从 System R 到 AI-Native 的 2026 研究地图
以 System R、Postgres、Bigtable、Spanner、Snowflake 等关键节点串起 50 年数据库史,勾勒 2026 年 AI-Native、向量检索、HTAP 云原生、新硬件、隐私计算、新范式、方法论七条主线,并给出 25 篇系列文章的完整阅读地图。
【数据库研究前沿】如何读数据库顶会论文:SIGMOD/VLDB/CIDR 阅读路线
从顶会定位、检索渠道、三遍读法到工业与学术论文的辨别方法,给出 2023–2025 年数据库领域可信必读二十篇,并配套 CMU 15-721、Stanford CS 245 等公开课清单。