【操作系统百科】原子 RMW 操作

atomic_inc(&counter) 背后，不同 CPU 架构的实现天差地别。理解硬件原子原语，才能写出高性能并发代码。

一、先看图

flowchart LR
    subgraph x86
        LOCK[LOCK prefix<br/>锁总线/缓存行] --> MESI[MESI 协议<br/>保证一致性]
    end
    subgraph ARMv8_early["ARM LL/SC"]
        LDXR[LDXR 加载独占] --> STXR[STXR 存储独占<br/>可能失败 → 重试]
    end
    subgraph ARMv8_1["ARM LSE"]
        LSE_ADD[LDADD<br/>硬件原子加]
    end
    subgraph RISCV["RISC-V A"]
        AMO[AMOADD<br/>原子加]
        LR_SC[LR/SC<br/>类似 LL/SC]
    end
    classDef x86c fill:#388bfd22,stroke:#388bfd,color:#adbac7;
    classDef armc fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    classDef rvc fill:#a371f722,stroke:#a371f7,color:#adbac7;
    class LOCK,MESI x86c
    class LDXR,STXR,LSE_ADD armc
    class AMO,LR_SC rvc

二、x86：LOCK 前缀

lock add [counter], 1     ; 原子加
lock cmpxchg [ptr], rax   ; CAS
lock xadd [counter], rax  ; fetch_add

LOCK 前缀让 CPU 独占缓存行 → MESI E/M 状态 → 其他核的读必须等。

成本：

同一缓存行无竞争 → ~10-20 cycles
竞争激烈 → 100+ cycles（cache line bouncing）

三、ARM LL/SC

retry:
    ldxr  x0, [x1]       // Load-Exclusive
    add   x0, x0, #1
    stxr  w2, x0, [x1]   // Store-Exclusive
    cbnz  w2, retry       // 失败则重试

独占监视器（exclusive monitor）跟踪 cacheline。其他核写同一行 → stxr 失败 → 重试。

问题：高竞争 → 无限重试（livelock 风险）。

四、ARMv8.1 LSE

大型原子扩展（Large System Extensions）：

ldadd  x0, x1, [x2]    // 硬件原子 fetch_add
cas    x0, x1, [x2]    // 硬件 CAS
swp    x0, x1, [x2]    // 硬件 swap

硬件保证原子性，无重试循环。

性能：64 核以上 → LSE 比 LL/SC 快 10 倍以上。

内核检测 LSE → 运行时选择 LL/SC 或 LSE 路径（ALTERNATIVE 宏）。

五、RISC-V A 扩展

两种方式并存：

amoadd.w  a0, a1, (a2)   // 原子加
lr.w      a0, (a1)        // Load-Reserved
sc.w      a2, a0, (a1)    // Store-Conditional

类似 ARM 的两代方案。

六、内核 atomic API

atomic_t counter = ATOMIC_INIT(0);
atomic_inc(&counter);                          // ++
atomic_dec_and_test(&counter);                 // --，返回是否为 0
int old = atomic_fetch_add(5, &counter);       // fetch_add
bool ok = atomic_try_cmpxchg(&counter, &old, new);  // CAS

底层展开为架构对应的原子指令。

七、Cache Line Bouncing

sequenceDiagram
    participant C0 as Core 0
    participant C1 as Core 1
    participant CL as Cache Line

    C0->>CL: atomic_inc → 获取 E 状态
    C1->>CL: atomic_inc → 发送 Invalidate
    C0->>CL: 降级到 I 状态
    C1->>CL: 获取 E 状态 → 执行
    C0->>CL: 再次 atomic_inc → 又要抢

高频原子操作在同一 cacheline → 核间不断争抢 → 性能崩溃。

解决：per-CPU 计数 → 只在需要精确值时汇总。

八、Tearing

非原子宽度访问可能被拆成多次总线事务：

long x;  // 64 位
// 32 位 CPU 上，读/写可能拆成两个 32 位操作 → tearing

内核保证：atomic_long_t、READ_ONCE/WRITE_ONCE 在对齐地址上原子。

九、CAS vs fetch_add

操作	失败重试	竞争时性能	用途
CAS	需要（compare-and-swap）	高竞争退化	通用
fetch_add	无需重试	稳定	计数器、序列号

尽可能用 fetch_add 替代 CAS loop。

十、小结

x86 LOCK 前缀简单高效但竞争时代价高
ARM LL/SC 灵活但高竞争可能 livelock
ARM LSE / RISC-V AMO 提供硬件原子操作
cache line bouncing 是并发性能的头号杀手
内核 atomic API 封装了架构差异

参考文献

arch/x86/include/asm/atomic.h
arch/arm64/include/asm/atomic_lse.h
Documentation/atomic_t.txt
linux/cas-vs-helping（旧文延伸阅读）
Will Deacon, “ARM64 atomics and LSE.” 2018

工具

perf stat -e cache-misses
perf c2c（cache line false sharing 检测）
objdump -d（查看原子指令生成）

延伸阅读

上一篇：Linux 内核内存模型 下一篇：spinlock 家族

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-06-29 · linux / os

EEVDF 调度器：Linux 6.6 为什么换掉了 CFS

Linux 6.6 用 EEVDF 取代了 CFS 的 SCHED_NORMAL 选取逻辑。从 1995 年原始论文的 lag、eligibility、virtual deadline，到 commit 147f3ef 只重写 placement/pick/preempt，再到本机内核 6.6 上读 sched/debug 把每个任务的 vruntime、eligible 标志、deadline 一一对上 vd=ve+r/w，外加 nice 带宽与 base_slice 抢占两组实测，讲清换的是哪一块、延迟敏感任务凭什么先跑。

2026-06-18 · os

【操作系统百科】Windows 内核与 Linux 的关键差异

NT Executive/Kernel/HAL 分层、Object Manager 与 handle、IRP 驱动栈、IOCP 完成端口 vs epoll/io_uring、EPROCESS/KTHREAD vs task_struct、Registry vs 文件配置，以及 WSL2 为何选择 Hyper-V 轻量 VM。

2026-07-05 · os

【操作系统百科】实时 OS 巡礼

硬实时与软实时的可调度性边界、VxWorks/QNX/Zephyr 机制对照、Linux PREEMPT_RT 与主线合入、DO-178C/ISO 26262 认证语境，以及选型决策树。

2026-07-06 · os

【操作系统百科】Unikernel

Unikernel 在云上为什么没成主流？MirageOS、IncludeOS、Unikraft、OSv 的设计取舍——库操作系统、启动时间、工具链、调试困难、POSIX 兼容。