土法炼钢兴趣小组的算法知识备份

【操作系统百科】原子 RMW 操作

文章导航

分类入口
os
标签入口
#atomic#rmw#lock-prefix#ll-sc#lse#cas

目录

atomic_inc(&counter) 背后,不同 CPU 架构的实现天差地别。理解硬件原子原语,才能写出高性能并发代码。

一、先看图

flowchart LR
    subgraph x86
        LOCK[LOCK prefix<br/>锁总线/缓存行] --> MESI[MESI 协议<br/>保证一致性]
    end
    subgraph ARMv8_early["ARM LL/SC"]
        LDXR[LDXR 加载独占] --> STXR[STXR 存储独占<br/>可能失败 → 重试]
    end
    subgraph ARMv8_1["ARM LSE"]
        LSE_ADD[LDADD<br/>硬件原子加]
    end
    subgraph RISCV["RISC-V A"]
        AMO[AMOADD<br/>原子加]
        LR_SC[LR/SC<br/>类似 LL/SC]
    end
    classDef x86c fill:#388bfd22,stroke:#388bfd,color:#adbac7;
    classDef armc fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    classDef rvc fill:#a371f722,stroke:#a371f7,color:#adbac7;
    class LOCK,MESI x86c
    class LDXR,STXR,LSE_ADD armc
    class AMO,LR_SC rvc

二、x86:LOCK 前缀

lock add [counter], 1     ; 原子加
lock cmpxchg [ptr], rax   ; CAS
lock xadd [counter], rax  ; fetch_add

LOCK 前缀让 CPU 独占缓存行 → MESI E/M 状态 → 其他核的读必须等。

成本:

三、ARM LL/SC

retry:
    ldxr  x0, [x1]       // Load-Exclusive
    add   x0, x0, #1
    stxr  w2, x0, [x1]   // Store-Exclusive
    cbnz  w2, retry       // 失败则重试

独占监视器(exclusive monitor)跟踪 cacheline。其他核写同一行 → stxr 失败 → 重试。

问题:高竞争 → 无限重试(livelock 风险)。

四、ARMv8.1 LSE

大型原子扩展(Large System Extensions):

ldadd  x0, x1, [x2]    // 硬件原子 fetch_add
cas    x0, x1, [x2]    // 硬件 CAS
swp    x0, x1, [x2]    // 硬件 swap

硬件保证原子性,无重试循环。

性能:64 核以上 → LSE 比 LL/SC 快 10 倍以上。

内核检测 LSE → 运行时选择 LL/SC 或 LSE 路径(ALTERNATIVE 宏)。

五、RISC-V A 扩展

两种方式并存:

amoadd.w  a0, a1, (a2)   // 原子加
lr.w      a0, (a1)        // Load-Reserved
sc.w      a2, a0, (a1)    // Store-Conditional

类似 ARM 的两代方案。

六、内核 atomic API

atomic_t counter = ATOMIC_INIT(0);
atomic_inc(&counter);                          // ++
atomic_dec_and_test(&counter);                 // --,返回是否为 0
int old = atomic_fetch_add(5, &counter);       // fetch_add
bool ok = atomic_try_cmpxchg(&counter, &old, new);  // CAS

底层展开为架构对应的原子指令。

七、Cache Line Bouncing

sequenceDiagram
    participant C0 as Core 0
    participant C1 as Core 1
    participant CL as Cache Line

    C0->>CL: atomic_inc → 获取 E 状态
    C1->>CL: atomic_inc → 发送 Invalidate
    C0->>CL: 降级到 I 状态
    C1->>CL: 获取 E 状态 → 执行
    C0->>CL: 再次 atomic_inc → 又要抢

高频原子操作在同一 cacheline → 核间不断争抢 → 性能崩溃。

解决:per-CPU 计数 → 只在需要精确值时汇总。

八、Tearing

非原子宽度访问可能被拆成多次总线事务:

long x;  // 64 位
// 32 位 CPU 上,读/写可能拆成两个 32 位操作 → tearing

内核保证:atomic_long_tREAD_ONCE/WRITE_ONCE 在对齐地址上原子。

九、CAS vs fetch_add

操作 失败重试 竞争时性能 用途
CAS 需要(compare-and-swap) 高竞争退化 通用
fetch_add 无需重试 稳定 计数器、序列号

尽可能用 fetch_add 替代 CAS loop。

十、小结


参考文献

工具


延伸阅读


上一篇Linux 内核内存模型 下一篇spinlock 家族

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-05-06 · os

【操作系统百科】内核内存调试

内核内存 bug 是最难追的:UAF、OOB、double free、leak 都可能沉默数月。本文讲 KASAN 三种模式、KFENCE 生产采样、kmemleak、SLUB_DEBUG、UBSAN/KCSAN 联动。

2026-05-08 · os

【操作系统百科】VFS 四层抽象

Linux 的一切皆文件靠 VFS 实现——superblock、inode、dentry、file 四层抽象加 ops 表。本文讲 VFS 核心数据结构、dcache、inode cache、RCU lookup,以及文件系统如何插入 VFS。

2026-04-22 · os

操作系统百科

Linux 6.x 视角下的操作系统系列索引:110 篇覆盖调度、虚拟内存、文件系统与 I/O、并发、隔离、可观测性,按主题、阅读路径与关键问题三种入口组织。

2026-05-27 · os

【操作系统百科】用户态分配器:jemalloc vs tcmalloc

jemalloc 与 tcmalloc 都想解决多线程分配器的老问题:锁争抢、碎片、RSS 膨胀与回收抖动。但两者把优化重点放在了不同位置:tcmalloc 更激进地把热路径推到 per-CPU,jemalloc 则把 arena、extent、decay 和 profiling 做成了一套更完整的内存治理工具箱。


By .