土法炼钢兴趣小组的算法知识备份

【操作系统百科】内存回收

文章导航

分类入口
os
标签入口
#reclaim#kswapd#lru#mglru#watermark#swappiness

目录

物理内存有限;页缓存和匿名页不断增长。内核需要一套策略:谁先被回收、什么时候开始回收、回收多少。Linux 的回收子系统经历了 20 年演化,到今天 MGLRU 是新方向。

一、先看图

flowchart TD
    ALLOC[页分配请求] --> WM{watermark 检查}
    WM -->|> high| OK[直接分配]
    WM -->|< low| WAKEUP[唤醒 kswapd]
    WM -->|< min| DR[direct reclaim<br/>阻塞当前进程]
    WAKEUP --> KSWAPD[kswapd 扫描]
    DR --> SCAN[扫描 LRU / MGLRU]
    KSWAPD --> SCAN
    SCAN --> FILE{clean file page?}
    FILE -->|yes| DROP[直接丢弃]
    FILE -->|dirty| WB[writeback 后丢弃]
    SCAN --> ANON{anon page?}
    ANON -->|swappiness > 0| SWAP[swap out]
    ANON -->|swappiness = 0| SKIP[跳过]
    classDef ok fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    classDef warn fill:#f0883e22,stroke:#f0883e,color:#adbac7;
    classDef crit fill:#f8514922,stroke:#f85149,color:#adbac7;
    class OK ok
    class WAKEUP,KSWAPD,WB warn
    class DR crit

二、Watermark 三线

每个 zone 有三个水位:

还有 boost watermark(5.0+):sudden spike 时临时提高 low,让 kswapd 提前介入。

cat /proc/zoneinfo | grep -E 'min|low|high|managed'

三、经典 LRU

3.1 四条链表

每个 zone(实际按 lruvec / memcg)维护:

页首次分配进 inactive。被访问(PTE A bit)后提升到 active。

3.2 扫描

shrink_nodeshrink_lruvecshrink_list

  1. 扫描 inactive 链表尾部
  2. 检查 PTE A bit(page_referenced):有访问 → 回到 active
  3. 无访问 → 回收候选
  4. clean file → 直接丢
  5. dirty → writeback 后丢
  6. anon → swap out

3.3 swappiness

vm.swappiness = 60(默认)

控制扫描 anon vs file 的比例——不是”swap 概率”。

容器内:memory.swap.max + memory.zswap.max 也影响。

四、MGLRU(Multi-Gen LRU)

4.1 经典 LRU 的问题

4.2 MGLRU 方案(6.1 合入)

引入多代(generation):

gen 0 (最老) → gen 1 → gen 2 → gen 3 (最新)

每代是一个 FIFO。页被访问时提升到最新代;回收时从最老代扫。

关键优化:

4.3 效果

Google 在 Chromebook 和 Android 上实测:

启用:

cat /sys/kernel/mm/lru_gen/enabled     # 0x0007 = 全开
echo 7 > /sys/kernel/mm/lru_gen/enabled

五、kswapd vs direct reclaim

direct reclaim 是延迟杀手——当前进程阻塞直到回收够页。

生产诊断:

sar -B 1
# pgscank/s = kswapd scan
# pgscand/s = direct reclaim scan → 越高越危险

六、memcg 回收

cgroup v2 memory.max 限制:memcg 内存超限时触发 memcg 级回收,不影响全局。

memory.current   # 当前使用
memory.max       # 硬限
memory.high      # 软限:超过开始 throttle
memory.low       # 保护:尽量不回收
memory.min       # 绝对保护

层级继承:子 cgroup 受父限制。

七、reclaim 调优

7.1 watermark

# 提高 watermark boost,让 kswapd 更早介入
sysctl vm.watermark_boost_factor=15000
sysctl vm.watermark_scale_factor=200    # 拉大 low-high 间距

7.2 swappiness

# DB 服务器(想保留文件缓存、少 swap)
sysctl vm.swappiness=10

# 桌面/Android(zram 有效)
sysctl vm.swappiness=100

7.3 PSI

Pressure Stall Information(4.20+)检测回收压力:

cat /proc/pressure/memory
# some avg10=0.50 avg60=0.30 avg300=0.20 total=12345

systemd-oomd 基于 PSI 触发 cgroup 级 OOM。

八、compact 与回收的关系

回收释放页后可能碎片化——高阶(order>0)分配仍失败。compaction 把散落的页搬到一起,腾出连续大块。

echo 1 > /proc/sys/vm/compact_memory   # 手动触发
cat /proc/buddyinfo                      # 看各 order 空闲页数

THP 分配失败 → 触发 compaction → 如果还失败 → fallback 4K。这个链条是 THP 抖动的根源。

九、观察

vmstat 1
# si/so = swap in/out
# free = 空闲页数

cat /proc/vmstat | grep -E 'pgsteal|pgscan|pgrefill|pgactivate'
# pgsteal_kswapd  pgsteal_direct

cat /proc/meminfo | grep -E 'Active|Inactive|Slab|SReclaimable'

十、小结


参考文献

工具


延伸阅读


上一篇页缓存深入 下一篇交换

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-28 · os

【操作系统百科】交换

swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。

2026-05-03 · os

【操作系统百科】Slab/SLUB 分配器

buddy 只管页粒度(4K+),内核大多数对象只有几十到几百字节。slab/SLUB 在 buddy 之上做对象级缓存。本文讲 slab 历史、SLUB 接手、SLOB 退场、kmem_cache、per-CPU cache、KASAN 集成。

2026-05-07 · os

【操作系统百科】用户态分配器

glibc malloc、tcmalloc、jemalloc、mimalloc 各有哲学。本文讲 arena、thread cache、size class、madvise 返还策略、碎片与 RSS 膨胀、如何根据负载选分配器。

2026-05-18 · os

【操作系统百科】io_uring 内核内部

io_uring 用共享内存 ring buffer 实现零 syscall 异步 I/O——SQ/CQ、SQPOLL、IOPOLL、注册 fd/buffer、multishot、安全模型演化。本文深入内核实现与工程实践。


By .