内核提供 mmap/brk,用户态分配器在上面管理堆:切小块、复用释放块、还页给内核。glibc ptmalloc2、Google tcmalloc、Facebook jemalloc、Microsoft mimalloc 四家各有侧重。
一、先看图
flowchart TD
APP[malloc 请求] --> ALLOC[分配器<br/>thread cache]
ALLOC -->|小块 < 256K| TCACHE[thread-local cache<br/>→ arena → sbrk/mmap]
ALLOC -->|大块 ≥ 256K| MMAP[直接 mmap]
FREE[free 释放] --> BACK[归还 thread cache]
BACK -->|积累够了| MADV[madvise DONTNEED/FREE<br/>返还 OS]
classDef fast fill:#3fb95022,stroke:#3fb950,color:#adbac7;
classDef slow fill:#f0883e22,stroke:#f0883e,color:#adbac7;
class TCACHE,BACK fast
class MMAP,MADV slow
二、glibc ptmalloc2
2.1 核心概念
- arena:每个线程可能绑定不同 arena(默认 arena 数量 = 8 × core 数)
- chunk:分配单元;inline metadata(size + flags)
- bins:按大小的空闲链表(fast bins、small bins、large bins、unsorted bin)
- fast bins:小块单链表,不合并,最快路径
2.2 大小分界
- < 128KB:从 arena heap(brk/mmap 的连续区域)
- ≥ 128KB(
M_MMAP_THRESHOLD):直接 mmap,free 时 munmap
2.3 弱点
- arena 锁争抢(多线程密集 malloc)
- 碎片化严重(合并不够及时)
- 内存不及时返还 OS → RSS 膨胀
2.4 调参
mallopt(M_ARENA_MAX, 4); // 限制 arena 数
mallopt(M_MMAP_THRESHOLD, 65536); // 降 mmap 阈值
malloc_trim(0); // 手动缩 heap三、tcmalloc(Google)
3.1 哲学
per-thread cache 消除锁争抢。三层:
- thread cache:每线程按 size class 的空闲链表
- central cache:全局按 size class 的 span 管理
- page heap:按页管理底层
3.2 size class
把所有大小归为 ~88 个 class(8, 16, 32, 48, 64, … 262144)。减少碎片。
3.3 优势
- 小块分配几乎无锁
- 碎片控制好
- 自动返还(
MallocExtension::ReleaseMemoryToSystem)
3.4 使用
LD_PRELOAD=/usr/lib/libtcmalloc.so ./app
# 或 链接时 -ltcmalloc环境变量调优:TCMALLOC_MAX_TOTAL_THREAD_CACHE_BYTES。
四、jemalloc(Facebook/FreeBSD)
4.1 哲学
多 arena + 细粒度 size class + 积极返还。FreeBSD 默认分配器。
4.2 结构
- arena:默认 4 × core 数
- bin:每 arena 按 size class;每个 bin 管理 slab
- extent:大块管理(对标 tcmalloc 的 span)
4.3 碎片治理
- size class 更密集(~200+ 个),内部碎片更小
- decay:定时把空闲 dirty page 用
madvise(MADV_FREE)返还 OS - muzzy:中间态——
MADV_FREE后内核还没真回收的页
4.4 使用
LD_PRELOAD=/usr/lib/libjemalloc.so ./app
# mallctl 接口
export MALLOC_CONF="background_thread:true,dirty_decay_ms:1000"Redis、Rust(默认分配器)都用 jemalloc。
五、mimalloc(Microsoft)
5.1 哲学
简单 + 极致性能。per-thread 的 page 管理(不是 arena)。
5.2 特点
- 对象分配 1-2 条指令
- free-list 紧凑(in-page free list)
- 碎片低
- 安全模式:double-free 检测、guard page
5.3 性能
在多线程小对象工作负载下经常比 tcmalloc/jemalloc 快 5-15%。
六、MADV_FREE vs MADV_DONTNEED
分配器返还内存给 OS 的两种方式:
- MADV_DONTNEED:立即释放物理页;下次访问触发零页 fault
- MADV_FREE(4.5+):标记”可回收”;如果 OS 需要内存就收走,否则保留
jemalloc 默认用 MADV_FREE(lazy 返还,减少 fault)。tcmalloc 也支持。
glibc 的 malloc_trim 用 MADV_DONTNEED。
七、碎片与 RSS 膨胀
7.1 症状
进程 RSS 远大于”活跃堆大小”。free 了但 RSS 不降。
7.2 原因
- 内部碎片:size class 不够密
- 外部碎片:空闲块散布,无法合并成可返还的整页
- 返还不及时:分配器 hold 住空闲页
7.3 诊断
# jemalloc
MALLOC_CONF="stats_print:true" ./app
# tcmalloc
# pprof 或 MallocExtension::GetStats
# 通用
pmap -x $PID | tail -1 # total RSS
cat /proc/$PID/smaps_rollup7.4 缓解
- 换分配器(tcmalloc/jemalloc 通常比 glibc 碎片低)
- 调 decay/trim 参数
- 对象池(application-level arena)
八、选择指南
| 场景 | 推荐 |
|---|---|
| 通用 Linux 服务 | jemalloc(碎片控制 + 返还) |
| Google 生态 / Go runtime | tcmalloc |
| 高频小对象 | mimalloc |
| 嵌入式 / 最小依赖 | glibc ptmalloc |
| Rust 默认 | jemalloc(可换) |
| Redis | jemalloc(官方推荐) |
| PostgreSQL | glibc(内部有自己的 MemoryContext) |
九、观察
# 当前使用哪个分配器
ldd ./app | grep -E 'malloc|jemalloc|tcmalloc'
# glibc malloc stats
MALLOC_STATS=1 ./app
# jemalloc 实时统计
MALLOC_CONF="stats_print:true"
# tcmalloc 页级统计
pprof --text ./app heap.prof十、小结
- 四大分配器各有哲学:ptmalloc2(标准)、tcmalloc(per-thread)、jemalloc(arena+decay)、mimalloc(极简)
- MADV_FREE/DONTNEED 是分配器返还 OS 的关键
- 碎片/RSS 膨胀靠换分配器 + 调参 + 对象池
- 生产选 jemalloc 或 tcmalloc 一般优于默认 glibc
至此子系列 E(内核内存分配器)完结,共 6 篇(41-46)。下一子系列 F:文件系统与 VFS(8 篇,47-54)将讲 VFS 四层抽象、路径解析、ext4 深入、btrfs/XFS、overlayfs、IO_uring 文件操作。
参考文献
- Berger et al. “Hoard: A Scalable Memory Allocator for Multithreaded Applications.” ASPLOS 2000
- Jason Evans, “jemalloc.” 2006
- Sanjay Ghemawat & Paul Menage, “TCMalloc: Thread-Caching Malloc.” 2005
- Daan Leijen, “mimalloc: Free List Sharding in Action.” MSR 2019
- glibc malloc internals wiki
工具
LD_PRELOADpprof(tcmalloc/Go)jemalloc_statsmalloc_info(0, stdout)(glibc)valgrind --tool=massif
延伸阅读
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
内存分配器擂台:jemalloc vs tcmalloc vs mimalloc vs glibc
分配器的 micro-benchmark 全是骗人的。真正的差距在碎片率和尾延迟。我们把四个分配器塞进一个真实的 HTTP 服务器,跑 24 小时,看谁先崩。
内存分配器对决:jemalloc vs tcmalloc vs mimalloc
你的服务在线上跑了三天,RSS 从 2GB 涨到了 6GB,free 显示内存快爆了,但业务量没变。你重启'修好了',然后下周又涨回去。问题不在你的代码里——问题在 malloc 里。
【操作系统百科】内存回收
Linux 内存回收是 VM 最复杂的子系统之一。本文讲 active/inactive LRU、kswapd 与 direct reclaim、watermark 三线、swappiness 的真实含义、MGLRU 改造、memcg 回收与 PSI。
【操作系统百科】交换
swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。