【操作系统百科】内存回收

物理内存有限；页缓存和匿名页不断增长。内核需要一套策略：谁先被回收、什么时候开始回收、回收多少。Linux 的回收子系统经历了 20 年演化，到今天 MGLRU 是新方向。

一、先看图

flowchart TD
    ALLOC[页分配请求] --> WM{watermark 检查}
    WM -->|> high| OK[直接分配]
    WM -->|< low| WAKEUP[唤醒 kswapd]
    WM -->|< min| DR[direct reclaim<br/>阻塞当前进程]
    WAKEUP --> KSWAPD[kswapd 扫描]
    DR --> SCAN[扫描 LRU / MGLRU]
    KSWAPD --> SCAN
    SCAN --> FILE{clean file page?}
    FILE -->|yes| DROP[直接丢弃]
    FILE -->|dirty| WB[writeback 后丢弃]
    SCAN --> ANON{anon page?}
    ANON -->|swappiness > 0| SWAP[swap out]
    ANON -->|swappiness = 0| SKIP[跳过]
    classDef ok fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    classDef warn fill:#f0883e22,stroke:#f0883e,color:#adbac7;
    classDef crit fill:#f8514922,stroke:#f85149,color:#adbac7;
    class OK ok
    class WAKEUP,KSWAPD,WB warn
    class DR crit

二、Watermark 三线

每个 zone 有三个水位：

high：充裕，正常分配
low：kswapd 唤醒阈值
min：direct reclaim 阈值（分配者亲自回收）

还有 boost watermark（5.0+）：sudden spike 时临时提高 low，让 kswapd 提前介入。

cat /proc/zoneinfo | grep -E 'min|low|high|managed'

三、经典 LRU

3.1 四条链表

每个 zone（实际按 lruvec / memcg）维护：

active anon
inactive anon
active file
inactive file

页首次分配进 inactive。被访问（PTE A bit）后提升到 active。

3.2 扫描

shrink_node → shrink_lruvec → shrink_list：

扫描 inactive 链表尾部
检查 PTE A bit（page_referenced）：有访问 → 回到 active
无访问 → 回收候选
clean file → 直接丢
dirty → writeback 后丢
anon → swap out

3.3 swappiness

vm.swappiness = 60（默认）

控制扫描 anon vs file 的比例——不是”swap 概率”。

=0：几乎不回收匿名页（除非没有 file 页可回收了）
=100：同等对待 anon 和 file
=200（6.1+）：更激进回收 anon（适合 zram）

容器内：memory.swap.max + memory.zswap.max 也影响。

四、MGLRU（Multi-Gen LRU）

4.1 经典 LRU 的问题

只有 active/inactive 两代，粒度粗
A bit 扫描需要遍历 PTE（rmap），开销大
工作集估计不准——新旧混杂

4.2 MGLRU 方案（6.1 合入）

引入多代（generation）：

gen 0 (最老) → gen 1 → gen 2 → gen 3 (最新)

每代是一个 FIFO。页被访问时提升到最新代；回收时从最老代扫。

关键优化：

页表扫描：直接 walk 页表而非 rmap，更高效
bloom filter：快速判断”这个 gen 里有没有热页”
类型分离：anon 和 file 独立分代

4.3 效果

Google 在 Chromebook 和 Android 上实测：

低内存抖动减少 40%
kswapd CPU 使用降低 35%
major fault 减少

启用：

cat /sys/kernel/mm/lru_gen/enabled     # 0x0007 = 全开
echo 7 > /sys/kernel/mm/lru_gen/enabled

五、kswapd vs direct reclaim

kswapd：后台内核线程，每 zone 一个（kswapd0、kswapd1…）。low watermark 触发，回收到 high
direct reclaim：分配者自己在 __alloc_pages_slowpath 里回收。min watermark 触发

direct reclaim 是延迟杀手——当前进程阻塞直到回收够页。

生产诊断：

sar -B 1
# pgscank/s = kswapd scan
# pgscand/s = direct reclaim scan → 越高越危险

六、memcg 回收

cgroup v2 memory.max 限制：memcg 内存超限时触发 memcg 级回收，不影响全局。

memory.current   # 当前使用
memory.max       # 硬限
memory.high      # 软限：超过开始 throttle
memory.low       # 保护：尽量不回收
memory.min       # 绝对保护

层级继承：子 cgroup 受父限制。

七、reclaim 调优

7.1 watermark

# 提高 watermark boost，让 kswapd 更早介入
sysctl vm.watermark_boost_factor=15000
sysctl vm.watermark_scale_factor=200    # 拉大 low-high 间距

7.2 swappiness

# DB 服务器（想保留文件缓存、少 swap）
sysctl vm.swappiness=10

# 桌面/Android（zram 有效）
sysctl vm.swappiness=100

7.3 PSI

Pressure Stall Information（4.20+）检测回收压力：

cat /proc/pressure/memory
# some avg10=0.50 avg60=0.30 avg300=0.20 total=12345

some：至少一个任务因内存等待
full：所有任务都在等

systemd-oomd 基于 PSI 触发 cgroup 级 OOM。

八、compact 与回收的关系

回收释放页后可能碎片化——高阶（order>0）分配仍失败。compaction 把散落的页搬到一起，腾出连续大块。

echo 1 > /proc/sys/vm/compact_memory   # 手动触发
cat /proc/buddyinfo                      # 看各 order 空闲页数

THP 分配失败 → 触发 compaction → 如果还失败 → fallback 4K。这个链条是 THP 抖动的根源。

九、观察

vmstat 1
# si/so = swap in/out
# free = 空闲页数

cat /proc/vmstat | grep -E 'pgsteal|pgscan|pgrefill|pgactivate'
# pgsteal_kswapd  pgsteal_direct

cat /proc/meminfo | grep -E 'Active|Inactive|Slab|SReclaimable'

十、小结

watermark 三线控制何时回收、谁来回收
经典 LRU 四链表 + swappiness 控制 anon/file 比例
MGLRU 多代替代两代，减少扫描开销和抖动
direct reclaim 是延迟杀手——降 pgscand 是关键目标
PSI 是现代内存压力的标准度量

参考文献

Gorman, M. “Understanding the Linux Virtual Memory Manager.” §10 “Page Frame Reclaiming”
Yu Zhao, “Multi-Gen LRU Framework.” LWN.net 2022
mm/vmscan.c
Documentation/admin-guide/mm/multigen_lru.rst
Johannes Weiner, “PSI: Pressure Stall Information.” LPC 2018

工具

vmstat、sar -B
/proc/vmstat、/proc/meminfo、/proc/zoneinfo
cgroup v2 memory.stat
bpftrace + vmscan tracepoints

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-28 · os

【操作系统百科】交换

swap 还值得开吗？本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略，以及为什么现代 Android 全靠 zram 不靠磁盘。

2026-06-29 · linux / os

EEVDF 调度器：Linux 6.6 为什么换掉了 CFS

Linux 6.6 用 EEVDF 取代了 CFS 的 SCHED_NORMAL 选取逻辑。从 1995 年原始论文的 lag、eligibility、virtual deadline，到 commit 147f3ef 只重写 placement/pick/preempt，再到本机内核 6.6 上读 sched/debug 把每个任务的 vruntime、eligible 标志、deadline 一一对上 vd=ve+r/w，外加 nice 带宽与 base_slice 抢占两组实测，讲清换的是哪一块、延迟敏感任务凭什么先跑。

2026-06-18 · os

【操作系统百科】Windows 内核与 Linux 的关键差异

NT Executive/Kernel/HAL 分层、Object Manager 与 handle、IRP 驱动栈、IOCP 完成端口 vs epoll/io_uring、EPROCESS/KTHREAD vs task_struct、Registry vs 文件配置，以及 WSL2 为何选择 Hyper-V 轻量 VM。

2026-07-05 · os

【操作系统百科】实时 OS 巡礼

硬实时与软实时的可调度性边界、VxWorks/QNX/Zephyr 机制对照、Linux PREEMPT_RT 与主线合入、DO-178C/ISO 26262 认证语境，以及选型决策树。