物理内存有限;页缓存和匿名页不断增长。内核需要一套策略:谁先被回收、什么时候开始回收、回收多少。Linux 的回收子系统经历了 20 年演化,到今天 MGLRU 是新方向。
一、先看图
flowchart TD
ALLOC[页分配请求] --> WM{watermark 检查}
WM -->|> high| OK[直接分配]
WM -->|< low| WAKEUP[唤醒 kswapd]
WM -->|< min| DR[direct reclaim<br/>阻塞当前进程]
WAKEUP --> KSWAPD[kswapd 扫描]
DR --> SCAN[扫描 LRU / MGLRU]
KSWAPD --> SCAN
SCAN --> FILE{clean file page?}
FILE -->|yes| DROP[直接丢弃]
FILE -->|dirty| WB[writeback 后丢弃]
SCAN --> ANON{anon page?}
ANON -->|swappiness > 0| SWAP[swap out]
ANON -->|swappiness = 0| SKIP[跳过]
classDef ok fill:#3fb95022,stroke:#3fb950,color:#adbac7;
classDef warn fill:#f0883e22,stroke:#f0883e,color:#adbac7;
classDef crit fill:#f8514922,stroke:#f85149,color:#adbac7;
class OK ok
class WAKEUP,KSWAPD,WB warn
class DR crit
二、Watermark 三线
每个 zone 有三个水位:
- high:充裕,正常分配
- low:kswapd 唤醒阈值
- min:direct reclaim 阈值(分配者亲自回收)
还有 boost watermark(5.0+):sudden spike 时临时提高 low,让 kswapd 提前介入。
cat /proc/zoneinfo | grep -E 'min|low|high|managed'三、经典 LRU
3.1 四条链表
每个 zone(实际按 lruvec / memcg)维护:
- active anon
- inactive anon
- active file
- inactive file
页首次分配进 inactive。被访问(PTE A bit)后提升到 active。
3.2 扫描
shrink_node → shrink_lruvec →
shrink_list:
- 扫描 inactive 链表尾部
- 检查 PTE A bit(
page_referenced):有访问 → 回到 active - 无访问 → 回收候选
- clean file → 直接丢
- dirty → writeback 后丢
- anon → swap out
3.3 swappiness
vm.swappiness = 60(默认)
控制扫描 anon vs file 的比例——不是”swap 概率”。
- =0:几乎不回收匿名页(除非没有 file 页可回收了)
- =100:同等对待 anon 和 file
- =200(6.1+):更激进回收 anon(适合 zram)
容器内:memory.swap.max +
memory.zswap.max 也影响。
四、MGLRU(Multi-Gen LRU)
4.1 经典 LRU 的问题
- 只有 active/inactive 两代,粒度粗
- A bit 扫描需要遍历 PTE(rmap),开销大
- 工作集估计不准——新旧混杂
4.2 MGLRU 方案(6.1 合入)
引入多代(generation):
gen 0 (最老) → gen 1 → gen 2 → gen 3 (最新)
每代是一个 FIFO。页被访问时提升到最新代;回收时从最老代扫。
关键优化:
- 页表扫描:直接 walk 页表而非 rmap,更高效
- bloom filter:快速判断”这个 gen 里有没有热页”
- 类型分离:anon 和 file 独立分代
4.3 效果
Google 在 Chromebook 和 Android 上实测:
- 低内存抖动减少 40%
- kswapd CPU 使用降低 35%
- major fault 减少
启用:
cat /sys/kernel/mm/lru_gen/enabled # 0x0007 = 全开
echo 7 > /sys/kernel/mm/lru_gen/enabled五、kswapd vs direct reclaim
- kswapd:后台内核线程,每 zone
一个(
kswapd0、kswapd1…)。low watermark 触发,回收到 high - direct reclaim:分配者自己在
__alloc_pages_slowpath里回收。min watermark 触发
direct reclaim 是延迟杀手——当前进程阻塞直到回收够页。
生产诊断:
sar -B 1
# pgscank/s = kswapd scan
# pgscand/s = direct reclaim scan → 越高越危险六、memcg 回收
cgroup v2 memory.max 限制:memcg
内存超限时触发 memcg 级回收,不影响全局。
memory.current # 当前使用
memory.max # 硬限
memory.high # 软限:超过开始 throttle
memory.low # 保护:尽量不回收
memory.min # 绝对保护
层级继承:子 cgroup 受父限制。
七、reclaim 调优
7.1 watermark
# 提高 watermark boost,让 kswapd 更早介入
sysctl vm.watermark_boost_factor=15000
sysctl vm.watermark_scale_factor=200 # 拉大 low-high 间距7.2 swappiness
# DB 服务器(想保留文件缓存、少 swap)
sysctl vm.swappiness=10
# 桌面/Android(zram 有效)
sysctl vm.swappiness=1007.3 PSI
Pressure Stall Information(4.20+)检测回收压力:
cat /proc/pressure/memory
# some avg10=0.50 avg60=0.30 avg300=0.20 total=12345- some:至少一个任务因内存等待
- full:所有任务都在等
systemd-oomd 基于 PSI 触发 cgroup 级 OOM。
八、compact 与回收的关系
回收释放页后可能碎片化——高阶(order>0)分配仍失败。compaction 把散落的页搬到一起,腾出连续大块。
echo 1 > /proc/sys/vm/compact_memory # 手动触发
cat /proc/buddyinfo # 看各 order 空闲页数THP 分配失败 → 触发 compaction → 如果还失败 → fallback 4K。这个链条是 THP 抖动的根源。
九、观察
vmstat 1
# si/so = swap in/out
# free = 空闲页数
cat /proc/vmstat | grep -E 'pgsteal|pgscan|pgrefill|pgactivate'
# pgsteal_kswapd pgsteal_direct
cat /proc/meminfo | grep -E 'Active|Inactive|Slab|SReclaimable'十、小结
- watermark 三线控制何时回收、谁来回收
- 经典 LRU 四链表 + swappiness 控制 anon/file 比例
- MGLRU 多代替代两代,减少扫描开销和抖动
- direct reclaim 是延迟杀手——降 pgscand 是关键目标
- PSI 是现代内存压力的标准度量
参考文献
- Gorman, M. “Understanding the Linux Virtual Memory Manager.” §10 “Page Frame Reclaiming”
- Yu Zhao, “Multi-Gen LRU Framework.” LWN.net 2022
mm/vmscan.cDocumentation/admin-guide/mm/multigen_lru.rst- Johannes Weiner, “PSI: Pressure Stall Information.” LPC 2018
工具
vmstat、sar -B/proc/vmstat、/proc/meminfo、/proc/zoneinfocgroup v2 memory.statbpftrace+ vmscan tracepoints
延伸阅读
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【操作系统百科】交换
swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。
【操作系统百科】Slab/SLUB 分配器
buddy 只管页粒度(4K+),内核大多数对象只有几十到几百字节。slab/SLUB 在 buddy 之上做对象级缓存。本文讲 slab 历史、SLUB 接手、SLOB 退场、kmem_cache、per-CPU cache、KASAN 集成。
【操作系统百科】用户态分配器
glibc malloc、tcmalloc、jemalloc、mimalloc 各有哲学。本文讲 arena、thread cache、size class、madvise 返还策略、碎片与 RSS 膨胀、如何根据负载选分配器。
【操作系统百科】io_uring 内核内部
io_uring 用共享内存 ring buffer 实现零 syscall 异步 I/O——SQ/CQ、SQPOLL、IOPOLL、注册 fd/buffer、multishot、安全模型演化。本文深入内核实现与工程实践。