exactly-once 标签归档

共 9 篇文章 · 返回首页

【流式数据处理】交付语义：从 at-most-once 到 exactly-once

2026-07-01 | database · distributed | #flink #delivery-semantics #exactly-once #at-least-once #at-most-once #checkpoint #kafka #idempotent #fault-tolerance

用 Source、引擎、Sink 三层模型拆解 at-most-once、at-least-once、exactly-once 的组合规则与最弱环决定律；对照 Flink checkpoint 模式、Kafka 事务与幂等 producer、重复消费/重复写入的三类修复手段，为两阶段提交 sink 铺垫。

【流式数据处理】两阶段提交与端到端 Exactly-Once

2026-07-01 | database · distributed | #flink #two-phase-commit #exactly-once #kafka-transactions #iceberg-sink #GenericTwoPhaseCommitSink #checkpoint #notifyCheckpointComplete

拆解 Flink GenericTwoPhaseCommitSink 协议：preCommit 进 checkpoint、commit 挂 notifyCheckpointComplete；对照 Kafka 事务 sink、JDBC 与 Iceberg 2PC 落点，以及 commit 前/后崩溃与重复 commit 的幂等边界——与 lakehouse/11 CAS、lakehouse/19 入湖侧对读，不重复表格式全文。

【流式数据处理】Kafka 事务与幂等 Producer

2026-07-01 | database · distributed | #kafka #transactions #idempotent-producer #pid #sequence #transactional-id #read-committed #exactly-once #two-phase-commit

从幂等 producer 的 PID 与 sequence 去重，到事务 producer 的 init/begin/commit/abort 生命周期、__transaction_state 与 read_committed 隔离，讲清 Kafka 3.x 单集群 EOS 边界及其与 Flink checkpoint 的衔接。

【流式数据处理】Checkpoint 机制：Barrier 对齐与一致性快照

2026-07-01 | database · distributed | #flink #checkpoint #chandy-lamport #barrier #kafka #exactly-once #backpressure #fault-tolerance

从 Chandy-Lamport 分布式快照到 Flink aligned/unaligned checkpoint：CheckpointCoordinator 触发—ack—完成生命周期，Kafka source 如何把 partition offset 写入 checkpoint，以及 interval、timeout、min-pause、concurrent checkpoints 的调优边界。

【流式数据处理】Kafka · Flink · 状态 · Exactly-Once

2026-07-01 | database · distributed | #kafka #flink #stream-processing #watermark #checkpoint #exactly-once #rocksdb #debezium #cdc #backpressure

承接数据湖流式入湖：从 Kafka 日志与副本语义，到 Flink 事件时间、watermark、窗口、RocksDB 状态与 checkpoint，再到端到端 exactly-once 与 Debezium CDC 入湖。面向数据平台与实时工程师，补全批式湖仓之外的实时计算层。

【数据湖与开放表格式】流式写入与 CDC 入湖

2026-06-30 | database · storage | #flink #kafka-connect #cdc #exactly-once #debezium

拆解流式数据进入 Iceberg/Delta/Hudi 的入湖侧机制：Flink/Kafka Connect/Spark sink 如何提交、exactly-once 怎样把引擎 checkpoint 与表格式的原子提交对齐、CDC 如何借 equality delete 与 record index 做 upsert，以及高频提交与小文件、compaction 的拉扯。只讲入湖侧，流处理引擎本身的窗口与状态留给后续。

【系统架构设计】消息队列架构：异步解耦的设计与陷阱

2026-04-13 | architecture | #message-queue #Kafka #RabbitMQ #Pulsar #async #at-least-once #exactly-once

在分布式系统中，服务之间的直接同步调用会导致强耦合、级联故障和性能瓶颈。消息队列（Message Queue）作为异步通信的核心基础设施，在现代架构中承担着解耦、削峰、容错等关键职责。然而，引入消息队列并非没有代价——投递语义的选择、顺序性保证、消费者组再平衡、幂等消费等问题，每一个都隐藏着工程陷阱。本文将从原理到实践…

【系统架构设计】流处理架构：从批处理到实时的范式迁移

2026-04-13 | architecture | #stream-processing #Flink #Kafka-Streams #exactly-once #windowing #event-time

流处理的 exactly-once 语义在工程上到底有多难？窗口计算的语义陷阱是什么？本文深入 Flink 的 checkpoint 机制、事件时间与处理时间的工程影响，对比 Kafka Streams 与 Flink 的架构差异。

【分布式系统百科】端到端论证：分布式系统设计的第一性原理

2026-04-13 | distributed | #end-to-end-argument #idempotency #exactly-once #distributed-systems #design-principles

Saltzer、Reed、Clark 1984 年的端到端论证解释了为什么很多'看上去合理'的中间层优化最终是错的。本文从原始论文出发，拆解端到端论证在幂等性、exactly-once 语义、E2E 加密中的现代应用，附带 Go 幂等性实现。