土法炼钢兴趣小组的算法知识备份

【操作系统百科】Slab/SLUB 分配器

文章导航

分类入口
os
标签入口
#slab#slub#kmem-cache#slub-debug#kasan

目录

内核里到处是小对象:task_struct、inode、dentry、sk_buff、bio……它们几十到几百字节,如果每次都向 buddy 要一整页太浪费。slab 层把一页切成多个”对象槽”,复用已分配的页。

一、先看图

flowchart TD
    KMALLOC[kmalloc 64 字节] --> CACHE[kmem_cache<br/>size=64]
    CACHE --> PCPU{per-CPU<br/>freelist?}
    PCPU -->|有| OBJ[返回 object]
    PCPU -->|无| PARTIAL[partial slab<br/>页]
    PARTIAL -->|有空槽| OBJ
    PARTIAL -->|无| BUDDY[buddy alloc<br/>新 slab 页]
    BUDDY --> INIT[切成 N 个<br/>64 字节 slot]
    INIT --> OBJ
    classDef fast fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    classDef slow fill:#f0883e22,stroke:#f0883e,color:#adbac7;
    class PCPU,OBJ fast
    class BUDDY,INIT slow

二、slab → SLUB → SLOB 简史

2.1 slab(1994)

Solaris 启发:per-cache 的 full / partial / empty 三链表 + coloring。复杂、管理结构占用大。

2.2 SLUB(2.6.22,2007)

Christoph Lameter 重写:

6.x 唯一主力。

2.3 SLOB(已删除 6.4)

极简分配器,面向 <64KB RAM 嵌入式。6.4 后删除。

三、kmem_cache

每种对象类型一个 kmem_cache

struct kmem_cache *task_struct_cache;
task_struct_cache = kmem_cache_create("task_struct",
    sizeof(struct task_struct), __alignof__(struct task_struct),
    SLAB_PANIC|SLAB_ACCOUNT, NULL);

// 分配
struct task_struct *p = kmem_cache_alloc(task_struct_cache, GFP_KERNEL);
// 释放
kmem_cache_free(task_struct_cache, p);

kmalloc

通用分配器——底层是一组按 size class 的 kmem_cache:

kmalloc-8, kmalloc-16, kmalloc-32, ..., kmalloc-8192
void *p = kmalloc(100, GFP_KERNEL);  // 实际从 kmalloc-128 分配
kfree(p);

四、SLUB 内部

4.1 slab page

一个 slab 页(通常 order-0 或 order-1)被切成若干对象:

[ obj0 | obj1 | obj2 | ... | objN ]

空闲对象串成 freelist(在对象内部存 next 指针)。

4.2 per-CPU freelist

每 CPU 缓存一个”当前 slab”+ freelist。分配只需读 freelist 头——无锁(this_cpu_cmpxchg)。

4.3 partial 链表

CPU freelist 空了 → 从 node 的 partial 链表取一个 slab。SLUB_CPU_PARTIAL 控制缓存多少 partial。

4.4 冻结

partial slab 从 node 链表移到 CPU 本地时被”冻结”——其他 CPU 不能碰。减少争抢。

五、对齐与着色

六、KASAN 集成

KASAN(Kernel Address SANitizer)在 SLUB 级别检测 UAF 和 OOB:

CONFIG_KASAN=y
CONFIG_KASAN_GENERIC=y     # 基于 shadow memory
CONFIG_KASAN_SW_TAGS=y     # arm64 tag-based
CONFIG_KASAN_HW_TAGS=y     # arm64 MTE

SLUB 分配时 poison 对象,释放后再 poison → 访问已释放内存触发 KASAN report。

七、SLUB_DEBUG

编译期 CONFIG_SLUB_DEBUG=y + 启动参数 slub_debug=FZPU

生产一般不开(性能惩罚 2-10x)。调试时通过 slub_debug=FZP,kmalloc-64 只对特定 cache 开。

八、memcg 感知

cgroup v2 下 SLUB 支持 SLAB_ACCOUNT flag → 内核对象计入 memcg。

cat /sys/fs/cgroup/myapp/memory.stat | grep slab
# slab 12345678
# slab_reclaimable 8765432
# slab_unreclaimable 3580246

九、观察

# 所有 slab cache
cat /proc/slabinfo | head

# 或更友好的
slabtop -o

# 特定 cache
cat /sys/kernel/slab/kmalloc-256/objs_per_slab
cat /sys/kernel/slab/kmalloc-256/cpu_partial
cat /sys/kernel/slab/kmalloc-256/total_objects

# slab 总内存
cat /proc/meminfo | grep Slab
# Slab:           456000 kB
# SReclaimable:   300000 kB
# SUnreclaim:     156000 kB

十、常见问题

A:Slab 占用很高 检查 slabtop 看哪个 cache 大——常见:dentry_cache、inode_cache(文件系统 cache)。echo 2 > /proc/sys/vm/drop_caches 可回收,但不推荐生产常用。

B:slab leak kmemleak 工具扫描 slab 中没有引用指向的对象 → 可能泄漏。

C:KASAN report UAF in slab 看 report 的 alloc/free stack trace,定位生命周期管理 bug。

十一、小结


参考文献

工具


延伸阅读


上一篇Buddy 系统 下一篇vmalloc/kmap/ioremap

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-05-06 · os

【操作系统百科】内核内存调试

内核内存 bug 是最难追的:UAF、OOB、double free、leak 都可能沉默数月。本文讲 KASAN 三种模式、KFENCE 生产采样、kmemleak、SLUB_DEBUG、UBSAN/KCSAN 联动。

2026-04-27 · os

【操作系统百科】内存回收

Linux 内存回收是 VM 最复杂的子系统之一。本文讲 active/inactive LRU、kswapd 与 direct reclaim、watermark 三线、swappiness 的真实含义、MGLRU 改造、memcg 回收与 PSI。

2026-04-28 · os

【操作系统百科】交换

swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。

2026-05-07 · os

【操作系统百科】用户态分配器

glibc malloc、tcmalloc、jemalloc、mimalloc 各有哲学。本文讲 arena、thread cache、size class、madvise 返还策略、碎片与 RSS 膨胀、如何根据负载选分配器。


By .