【流式数据处理】流处理全景：从日志到有状态计算

读者在数据湖与开放表格式第 19 章已经看到：Flink 作业按 checkpoint 间隔把 CDC 事件写进 Iceberg，Committer 在 checkpoint 完成后再做表提交。那条链路回答的是 数据怎么落进表。但同一套实时管道里还有另一组问题：乱序到达的点击事件怎么算对「过去五分钟 UV」、作业重启后为什么不会从 offset 0 重算整个历史、状态膨胀和背压从哪来——这些属于 流计算引擎侧，lakehouse 系列刻意留空，由本系列补齐。

本文是流式数据处理系列的 第 1 篇，不教任何引擎的安装命令，而是建立三个会贯穿全系列 18 篇的心智模型：

流式数据平台 = 持久日志（Kafka）+ 有状态计算（Flink）+ 交付语义（EOS）+ 下游衔接（湖 / OLTP / 服务）。
数据流是可重放的 append-only 日志；与 lakehouse「不可变文件 + 元数据指针」在分层上对称。
批、流、微批 的差异不在「有没有窗口」，而在 延迟、吞吐、语义、状态 四个维度如何取舍。

后文默认读者具备基本分布式概念（建议 distributed 系列里日志复制相关篇），但不假设写过 Flink 算子或调过 Kafka 副本。

环境说明：本机为 WSL2（Linux 6.6.87.2）、i9-12900K / 32 GiB，未安装 JVM、Kafka、Flink。本文概念与架构结论来自 Apache Kafka / Flink 官方文档、Dataflow Model 论文（Akidau et al.）；不包含未在本机执行的 benchmark 数字或伪造的命令输出。文末给出可复现的本地实验入口。

版本锚定：Kafka 3.x（KRaft）；Flink 1.20+ / 2.x 主线。云托管 MSK / Managed Flink 的内部调度与定价不在本系列范围。

一、批处理、流处理与微批：四个维度

「批 vs 流」常被简化成「离线 vs 实时」，这个二分法在工程上不够用。同一条业务链路里，延迟目标、吞吐形态、容错语义、状态驻留方式 往往同时变化。下表用四个正交维度对比三种典型范式（来源：Flink Documentation Batch and Stream Processing；Dataflow Model 论文 Section 2–3）。

维度	批处理（Batch）	流处理（Stream）	微批（Micro-batch）
延迟	分钟～小时～天（等数据齐）	毫秒～秒（事件到达即算）	秒～分钟（按固定间隔切 mini-batch）
吞吐	高（顺序扫描、向量化、大 I/O）	中高（逐条/小批，shuffle 与状态 I/O 开销）	中高（批内向量化，批间有调度间隙）
语义	输入边界固定；失败重跑整批	无界输入；checkpoint / savepoint 界定一致性点	每 micro-batch 一个 job 或 stage；失败重跑该批
状态	通常无跨批驻留状态；每 job 重算	Keyed State、窗口 state 跨事件驻留	批间 state 可保留（Structured Streaming）或每批重建

1.1 批处理：边界清晰的输入集合

经典批 job（MapReduce、Spark batch、SQL INSERT OVERWRITE ... SELECT）假设 输入在 job 开始前已经确定：HDFS 目录里有哪些文件、分区 dt=2026-06-30 是否齐全。失败时 重跑同一输入边界，输出替换或追加到目标表。状态如果存在，多半是 中间 shuffle spill 或外部 sort，job 结束即释放。

这与 columnar-engine 系列的 OLAP 扫描模型一致：列存引擎优化的是 大表一次性读透，而不是单条记录的增量更新路径。

1.2 流处理：无界输入与持续计算

流 job 的输入 没有天然结束（除非是有界流，如读历史文件回放）。引擎把到达的 record 当作 无限序列，在 算子本地或 RocksDB 里维护状态（计数、窗口聚合、join 缓冲）。失败重启时不能「从头重扫 HDFS 目录」，而要 从 checkpoint 恢复状态 + source offset（本系列第 10 篇）。

事件时间（event time）与 watermark 解决乱序：业务时间戳为 10:00:05 的事件可能在 10:00:20 才到达网络。流引擎必须在 不完整输入 下仍输出 可解释的中间结果，并在 watermark 推进后 关闭窗口（第 2、3 篇）。

1.3 微批：用批引擎模拟流

Spark Structured Streaming（早期 DStream 已属遗留 API，本系列不展开）把无界源切成 一系列小 DataFrame，每个 trigger 间隔触发一次 micro-batch job。延迟下界是 trigger 间隔；语义上接近 at-least-once 批叠加，exactly-once 依赖 checkpoint 目录与 sink 幂等（第 18 篇引擎对照）。

微批的优势是 复用成熟批优化器（Catalyst、Whole-Stage Codegen）；代价是 亚秒级延迟 往往不如原生流引擎（Flink、Kafka Streams）直接。选型不在本篇做排名，第 18 篇给决策树。

1.4 四个维度如何一起读

业务诉求	优先看的维度	典型选择
报表 T+1	延迟可高、语义简单	批 / 湖仓 SQL
实时大屏秒级	延迟 + 状态	Flink + Kafka
近实时数仓分钟级	吞吐 + 运维复杂度	微批或 Flink 大窗口
金融对账 exactly-once	语义 + 状态	Flink EOS + Kafka 事务（第 14–15 篇）

流处理不是「更快的批」，而是 在输入无界、到达乱序的前提下，定义何时输出、如何容错、状态存哪 的另一套问题域。

二、可重放日志：流平台的核心抽象

Kafka 设计文档把 topic 描述为 commit log（来源：Kafka Documentation，Design）：分区内的 record 按 单调递增 offset append，consumer 通过 拉取 + 提交 offset 推进进度。这条 log 有三个工程性质：

持久化：副本 ISR 保证故障不丢已 ack 的数据（第 5 篇）。
可重放：同一 consumer group 换起始 offset，或新 group 从头读，log 内容不变。
解耦：producer 与 consumer 通过 log 间接通信，速率不匹配由 consumer lag 显式暴露。

flowchart LR
  P["Producer<br/>append"]
  L["Partition Log<br/>offset 0,1,2,..."]
  C1["Consumer A<br/>offset=2"]
  C2["Consumer B<br/>offset=5"]
  P --> L
  L --> C1
  L --> C2

Flink 从 Kafka Source 读数据时，消费进度与算子 state 一起写入 checkpoint（第 10 篇）。因此 log 是真相来源（source of truth），Flink 状态是 为了低延迟计算而衍生的派生数据——丢失 state 可从 log 重放重建（代价是重算时间与资源）。

2.1 与 lakehouse 的分层对称

lakehouse 系列把 对象存储上的不可变 Parquet/ORC 文件 当作真相，表格式（Iceberg / Hudi / Delta）用 元数据 snapshot 指向「哪些文件属于当前表版本」。流式入湖（lakehouse 第 19 章）是 log → 文件 → snapshot；本系列是 log → 有状态计算 → sink（湖 / 服务 / 另一 topic）。

层	Lakehouse	流处理（本系列）
持久真相	对象存储数据文件 + 表 metadata	Kafka partition log（及可选湖表）
增量指针	snapshot / commit	consumer offset + checkpoint id
计算	Spark/Flink/Trino 批扫描	Flink 持续算子 + state
一致性点	表 commit（CAS）	checkpoint 完成 + 2PC commit（第 15 篇）

读者从 lakehouse/19 进入本系列，可把 Committer 提交间隔 与 Flink checkpoint 间隔 理解为 同一旋钮的两端：前者决定湖表可见频率与小文件（第 17 篇），后者决定 状态快照频率与故障恢复 RPO。

2.2 分区内有序、分区间无序

Kafka 只保证单分区内 record 顺序与 offset 单调（来源：Kafka Documentation，Design）。跨分区没有全局顺序。流 job 若要做 全局计数，要么 单分区瓶颈，要么 keyBy 后按 key 局部有序（第 4、8 篇）。这是 水平扩展与顺序性 的经典权衡，与 distributed 系列里「复制日志有序但分片」同构。

三、Lambda 与 Kappa：架构边界，不是宗教

Lambda 架构（Marz, 2011 前后业界归纳）在工程上常表现为：

Speed layer：流引擎做低延迟近似或增量。
Batch layer：批引擎做全量校正、复杂 join。
Serving layer：合并两层结果给查询。

Kappa 架构（Kreps, 2014）主张 只用流：批处理是对 同一条 log 的历史 replay（换起始 offset、加大并行度），不维护两套代码路径。

本系列 站在「日志即真相、流引擎为主力」一侧，但不否定批式回补：

历史回填：新指标要对过去 90 天重算，从 Kafka 保留期或湖表批读往往比拉长流 state TTL 更便宜。
复杂全局 join：批扫描两张大表仍比流 join 状态缓冲更易运维。
入湖 compaction：lakehouse 第 17 章的合并是小文件治理，与 Kappa「单管道」并不冲突。

flowchart TB
  subgraph lambda ["Lambda（双路径）"]
    L1["Kafka log"] --> S["Speed: Flink"]
    L1 --> B["Batch: Spark SQL"]
    S --> V["Serving / 湖表"]
    B --> V
  end
  subgraph kappa ["Kappa（单 log 多消费模式）"]
    L2["Kafka log"] --> F["Flink 实时"]
    L2 --> R["Replay 批式读同一 log"]
    F --> OUT["下游"]
    R --> OUT
  end

工程判断：两套代码（Lambda）的维护成本 vs 单流 replay 的资源成本。本系列后续章节提供 checkpoint、state backend、EOS 工具，使 Kappa 路径在生产上可运维；不在此篇宣判某种架构「胜出」。

四、流表对偶与有状态计算

流表对偶（stream-table duality，Flink Documentation Stream Table Duality；Dataflow Model）指：

流 → 表：把无限 record 序列按 key + 时间 解释成 随时间变化的表（changelog：insert/update/delete）。
表 → 流：把表的每次变更 emit 成 record 流（CDC 即此类，第 16 篇）。

有状态流算子在做的事，往往是 维护一张不可全量物化的「动态表」：

算子	动态表语义
`keyBy` + `sum`	按 key 聚合的累加列
滚动窗口 count	每个窗口区间一行聚合结果
流式 join	两表按 join key 的临时匹配状态

状态就是这张动态表的 物理存储（内存 HashMap 或 RocksDB LSM，第 9、12 篇）。批 SQL 的 GROUP BY dt 每批重扫；流窗口 state 驻留到 watermark 关闭窗口，磁盘与 checkpoint 体积随 key 基数 × 窗口个数 增长（第 3、13 篇）。

4.1 无状态 vs 有状态算子

类型	示例	失败恢复
无状态	`map`、`filter`、无状态 `flatMap`	重放上游即可
有状态	`keyBy` 后聚合、窗口、`ProcessFunction` + ValueState	必须恢复 state + offset

无状态算子 chain 在单 Task 内 forward 传递（第 7 篇）；一旦 keyBy，state 按 KeyGroup 分片，shuffle 不可避免（第 8 篇）。

4.2 与 OLTP 的边界

postgresql-kernel 系列的行存引擎在 进程内 B-Tree 上维护事务一致性；流 state 在 分布式算子 上维护 最终一致或 exactly-once 语义下的派生视图。流处理 不替代 OLTP；CDC 把 OLTP 变更投影到 log 再算（lakehouse/19 + 本系列 16–17）。

五、全系列地图：四层栈

本系列 18 篇按 传输 → 计算 → 语义 → 衔接 四层组织（详见系列 index）：

flowchart TB
  subgraph transport ["传输层 Kafka 4–6"]
    K4["04 日志与分区"]
    K5["05 ISR 与 Consumer"]
    K6["06 事务 Producer"]
  end
  subgraph compute ["计算层 Flink 7–13"]
    F7["07 运行时"]
    F8["08 DataStream"]
    F9["09 Keyed State"]
    F10["10 Checkpoint"]
    F11["11 Savepoint"]
    F12["12 RocksDB Backend"]
    F13["13 状态调优"]
  end
  subgraph semantics ["语义层 14–15"]
    S14["14 交付语义"]
    S15["15 两阶段提交 EOS"]
  end
  subgraph integrate ["衔接层 16–18"]
    I16["16 Debezium CDC"]
    I17["17 流式入湖深化"]
    I18["18 背压与引擎对照"]
  end
  BASE["01–03 流处理基础"] --> transport
  BASE --> compute
  transport --> semantics
  compute --> semantics
  semantics --> integrate
  LH["lakehouse/19 入湖侧"] -.-> S15
  LH -.-> I17
  LSM["lsm-tree RocksDB"] -.-> F12

5.1 第一部分：流处理基础（第 1–3 篇）

篇	核心问题
本篇	批/流/微批、日志模型、Lambda/Kappa、系列地图
第 2 篇	事件时间、processing time、watermark、迟到数据
第 3 篇	滚动/滑动/会话窗口、Trigger、Evictor

读完 1–3 篇，应能回答：为什么乱序下仍要定义 watermark、窗口 state 与批式 GROUP BY 差在哪。

5.2 与先修系列的衔接

先修	本系列如何使用
lakehouse/19	入湖 Writer/Committer；本系列讲引擎侧 watermark/checkpoint
lsm-tree	MemTable/SSTable 对照 RocksDB state backend（12–13）
distributed	日志复制、一致性词汇对照 ISR / EOS

六、端到端数据流：一个 CDC 管道实例

把抽象叠到一个具体形状（不写虚构延迟数字）：

sequenceDiagram
  participant DB as MySQL
  participant DEB as Debezium
  participant K as Kafka
  participant F as Flink
  participant ICE as Iceberg

  DB->>DEB: binlog 事件
  DEB->>K: append CDC topic
  K->>F: Source 消费 partition
  Note over F: keyBy + 窗口 / 清洗<br/>state + watermark
  F->>F: checkpoint barrier 对齐
  F->>ICE: 2PC 提交 snapshot

Debezium 把行级变更写成 Kafka record（第 16 篇）。
Flink 按 事件时间 开窗或去重，状态在 RocksDB（第 12 篇）。
checkpoint 完成 后 Iceberg committer 提交新 snapshot（第 15、17 篇），与 lakehouse/19 的入湖协议对齐。

故障点分布在每一环：Kafka ISR 收缩、Flink checkpoint 超时、Iceberg commit 冲突——第 18 篇收束诊断清单。

七、交付语义预览：为什么「日志 + checkpoint」不够

Exactly-once 不是 Kafka 或 Flink 单独保证的，而是 Source 语义 × 引擎语义 × Sink 语义 的组合，端到端由 最弱环 决定（第 14 篇）：

层级	典型机制
Source	offset 提交与 checkpoint 绑定
引擎	barrier 对齐 state 快照
Sink	幂等写、事务、2PC

Kafka 事务 producer（第 6 篇）与 Flink 两阶段提交 sink（第 15 篇）衔接，才能把 「算过了」 与 「写进了」 钉在同一一致性点。本篇只建立词汇；证明与配置留到后文。

八、阅读路径建议

读者背景	建议路径
数据平台端到端	1 → 4 → 7 → 10 → 15 → 17 → 18
从 lakehouse/19 来	2 → 3 → 10 → 15 → 17
Kafka 运维转流计算	4 → 5 → 6 → 7 → 10 → 14
只关心窗口与乱序	1 → 2 → 3 → 8

九、有界流与无界流

Flink 把输入分为 bounded 与 unbounded（来源：Flink Documentation，Overview）：

类型	含义	典型 Source	作业结束
无界	持续到达，无预设 end	Kafka、MQTT、Socket	手动 cancel 或失败
有界	读完即结束	文件 batch read、有限历史 replay	`FINISHED` 状态

有界流可以用流引擎跑：读 HDFS/NAS 上固定目录，event time 仍有效——相当于 对静态数据集做流式解释。批引擎与流引擎的边界在此模糊：Flink 批模式（Batch 执行模式）与 DataStream 读有界源 共享算子库，差异在 调度与 shuffle 实现（本系列不展开 Batch 模式调优）。

无界流作业必须面对 checkpoint forever、state TTL（第 9 篇）、lag 监控（observability 系列）。Kafka log 物理上可删除旧 segment（retention），与 算子 state 保留策略 独立：offset 已 checkpoint 的数据仍可删，但 replay 窗口 受 retention 限制。

stateDiagram-v2
  [*] --> Unbounded: Kafka 持续 append
  [*] --> Bounded: 文件 Source EOF
  Unbounded --> RUNNING: 长期 RUNNING
  Bounded --> FINISHED: 读完后 FINISHED
  Unbounded --> CANCELED: 运维 cancel

Kappa 历史回补 常把 有界 replay（从旧 offset 读）与 无界 tail 接成同一作业逻辑——log retention 必须 覆盖回补区间。

十、状态、时间与语义：三维依赖

流作业设计常在三轴上同时做决策：

flowchart TB
  T["时间语义<br/>event / processing"]
  S["状态形态<br/>无 / keyed / 窗口"]
  D["交付语义<br/>ALO / EOS"]
  T --> S
  S --> D
  T --> D

组合	说明
Event time + 窗口 state + EOS	实时 KPI 对账默认路径（本系列主线）
Processing time + 无 state + at-most-once	监控探针、允许丢失
Event time + 长 session state + ALO	需下游幂等；checkpoint 仍保 state

时间语义 决定窗口边界（第 2–3 篇）；状态决定 checkpoint 体积与 RocksDB 压力（第 9–13 篇）；交付语义 决定 Kafka / 湖 sink 如何配置（第 14–15 篇）。三维 不可单独选型。

十一、本系列边界与不展开话题

与系列 index 一致，下列内容 刻意不写：

不展开	原因
Flink SQL / Kafka Streams DSL 大全	机制篇用 DataStream 钉概念
Spark DStream 遗留 API	业界迁移到 Structured Streaming，仅第 18 篇对照
云厂商 Managed Flink / MSK 内部实现	与开源内核机制无关
Pulsar / Redpanda 独立成篇	第 18 篇一句对照

承诺展开：Kafka 3.x log + ISR、Flink checkpoint + RocksDB state、EOS 与 lakehouse/19 入湖对齐、Debezium CDC（第 16 篇）、背压与故障（第 18 篇）。

十二、本地实验入口（可选）

下列步骤 未在本写作环境执行，读者可在 Docker Compose（Kafka KRaft + Flink 1.20+）下复现「日志 + 有状态计数」最小闭环：

# 1. 启动 Kafka + Flink（使用官方或 flink-docs 示例 compose，版本自行 pin）
# 2. 创建 topic
kafka-topics.sh --create --topic clicks --partitions 3 --replication-factor 1 ...

# 3. 提交 Flink WordCount 或自带 KafkaSource 的 keyBy+sum 示例
flink run -p 3 examples/streaming/WordCount.jar

# 4. 用 console producer 写入 JSON：{"user_id":"u1","ts":1710000000000}
# 5. 观察 Flink Web UI：Source subtask lag、算子背压（背压详解见第 18 篇）

实验目的：验证 log 可重放、offset 与 subtask 绑定、有状态算子重启后从 checkpoint 继续——不在此篇采集吞吐数据。

十三、术语表

术语	含义
Event time	record 业务发生时间，由字段携带
Processing time	算子机器本地时钟处理时刻
Watermark	事件时间进度标记，驱动窗口关闭（第 2 篇）
Checkpoint	分布式一致性快照，含 state + offset（第 10 篇）
Keyed State	按 key 分片的有状态存储（第 9 篇）
Consumer lag	消费 offset 与 log end 的差
EOS	End-to-end exactly-once 语义（第 14–15 篇）
Changelog	表变更流，insert/update/delete 序列

十四、常见问题

问题	简短回答	深入
流处理能否完全取代批？	否；历史回填、超大 join、低成本 ad-hoc 扫描仍偏批	第三节
Kafka 是否必须？	本系列以 Kafka 为主线；其他 log（Pulsar 等）在第 18 篇对照一句带过	第 4–6 篇
入湖小文件谁负责？	引擎 checkpoint 间隔 + 表 compaction 治理共同决定	lakehouse/17、本系列 17
Flink SQL 学不学？	本系列用 DataStream 讲机制；SQL 为表层语法，不单独成篇	index 边界说明

十五、学术谱系与研究讨论

15.1 奠基 work → 本系列主线

阶段	代表 work	本文引用点
日志即真相	Kreps et al., Kafka: a Distributed Messaging System for Log Processing（LinkedIn 技术报告，2011）；Kafka Documentation Design	commit log、分区内有序、可重放——本系列 Kafka 层（第 4–6 篇）的 A 级锚点
有状态流计算	Carbone et al., Apache Flink: Stream and Batch Processing in a Single Engine（IEEE Data Eng. Bull. 2015）；Carbone et al., State Management in Apache Flink（DEB 2015）	barrier checkpoint、KeyedState、流批统一执行——Flink 层（第 7–13 篇）
时间与窗口形式化	Akidau et al., The Dataflow Model（VLDB 2015）	event time、watermark、窗口触发——第 2–3 篇
分布式快照	Chandy & Lamport, Distributed Snapshots（1985）	一致性切点直觉——第 10 篇展开，本篇仅建立词汇
端到端语义	Flink Fault Tolerance Guarantees；Kafka Transactions（KIP-98）	三层最弱环——第 14–15 篇
增量代数路线	Budiu et al., DBSP（VLDB 2023）；McSherry, Differential Dataflow	流表对偶的 IVM/ Z-set 理论对照——db-frontier/23；本系列以 Kafka+Flink 工程主线为主，第 18 篇划边界

MillWheel（Akidau et al., VLDB 2013）是 Dataflow Model 的前身：在 Google 广告计费管道上率先工程化 watermark + 窗口。Flink 的 WatermarkStrategy 与 Dataflow 论文中的 progress marker 同构，实现细节见第 2 篇。

15.2 争论：Lambda vs Kappa vs DBSP 增量视图

立场	代表	核心主张	反例 / 局限
Lambda	Marz 归纳（B 级工程博客）；批层 Spark/Hive	速度层近似 + 批层校正	两套代码、口径漂移；批层延迟高
Kappa	Kreps, Questioning the Lambda Architecture（2014，B 级）	单 log replay 兼批流	历史回填仍常走有界 replay + 湖表批扫；超大全局 join 仍偏批
原生流 + 2PC 入湖	Flink + Iceberg sink（本系列 15、17）	checkpoint 绑定表提交	checkpoint 间隔 ↔︎ 小文件权衡
DBSP / IVM	Materialize / RisingWave / Feldera（db-frontier/23）	Z-set 增量维护 SQL 结果	与乱序 watermark 窗口问题域不同；复杂 CEP 仍多 Flink

工程结论：数据平台常见形态是 Kappa 式 log + 批式湖仓回补（Lambda 的简化变体），而非纯单引擎。本系列教的是 Kafka log + Flink state + EOS 这一默认组合如何运维；DBSP 路线是互补研究前沿，不是替代命题。

15.3 工程间隙：论文假设 vs 生产现实

教程/论文常见假设	Kafka 3.x + Flink 1.20+ 现实
「流批一体」= 同一 SQL 无差别	DataStream 与 Batch 模式调度/shuffle 仍不同；本系列用 DataStream 钉机制
全局有序 log	Kafka 仅分区内有序（§2.2）；全局序需单分区或 keyBy 局部序
checkpoint = EOS	引擎 EXACTLY_ONCE 不含无 2PC 的 JDBC sink（第 14 篇）
状态「像表」但免费	窗口 state 随 key 基数膨胀（第 13 篇）；RocksDB 有 compaction stall（rocksdb 10–12）

15.4 开放问题

Changelog v2 / ForSt（Flink 路线图）：能否在保持 EOS 的前提下降低 RocksDB state 的 compaction 与 checkpoint 写放大？与 rocksdb 第 16 篇的 ForSt 讨论联动。
流批统一执行计划：Flink 2.x 与 Spark SS 都在推「单优化器」——event-time 语义与 micro-batch 边界能否在 同一形式化 下证明等价？尚无像 Dataflow Model 对 Flink 那样统一的工业标准。
跨引擎 EOS 对账：Iceberg equality delete + Flink 2PC 下，迟到 watermark 导致的修正行与 snapshot 可见性如何自动化对账？（第 17 篇工程旋钮多，缺通用验证框架。）

十六、小结

流处理的核心不是「把批 job 跑快一点」，而是在 无界、乱序、可重放日志 上定义 何时输出、状态存哪、如何容错。Kafka 提供 分区有序的可持久 log；Flink 提供 有状态计算与 checkpoint；EOS 与入湖需要 与 lakehouse 表提交协议对齐（lakehouse/19、本系列 15、17）。

下一篇进入 事件时间、处理时间与 watermark：三种时间语义如何在同一作业里共存，以及乱序下窗口何时该关闭。

参考资料

Apache Kafka Documentation, Design（commit log、分区有序性）。A 级。
Apache Flink Documentation, Batch and Stream Processing / Stream Table Duality。A 级。
Akidau, T. et al., The Dataflow Model（VLDB 2015；事件时间、watermark、窗口抽象）。A 级。
Akidau, T. et al., MillWheel: Fault-Tolerant Stream Processing at Internet Scale（VLDB 2013）。A 级。
Carbone, P. et al., Apache Flink: Stream and Batch Processing in a Single Engine（IEEE DEB 2015）。A 级。
Kreps, J., Questioning the Lambda Architecture（Kappa 与 log replay 论述，B 级工程观点）。
Budiu, M. et al., DBSP: Automatic Incremental View Maintenance for Rich Query Languages（VLDB 2023）。A 级（对照 db-frontier/23）。
本系列 index（18 篇依赖与阅读路径）。
lakehouse 第 19 章（入湖侧与引擎侧分工）。
distributed 系列（日志复制与一致性直觉）。

返回系列目录｜上一篇：系列 index ｜下一篇：事件时间、处理时间与 Watermark

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-07-01 · database / distributed