【操作系统百科】perf 子系统

perf stat、perf record、perf top——这些命令背后是内核的 perf_event 子系统，一个统一的性能事件框架。

一、先看图

flowchart TD
    USER[perf 工具] -->|perf_event_open| KERNEL[perf_event 子系统]
    KERNEL --> HW[硬件 PMU<br/>cycles, cache-misses]
    KERNEL --> SW[软件事件<br/>context-switches, page-faults]
    KERNEL --> TP[Tracepoints<br/>sched, block, net]
    KERNEL --> RB[Ring Buffer<br/>per-CPU mmap]
    RB --> USER

    classDef hw fill:#388bfd22,stroke:#388bfd,color:#adbac7;
    classDef sw fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    class HW hw
    class SW,TP sw
    class USER,KERNEL,RB hw

二、perf_event_open

int fd = perf_event_open(&attr, pid, cpu, group_fd, flags);

核心系统调用 → 创建性能事件 → 返回 fd。

attr 指定事件类型、采样周期、输出格式。

三、事件类型

3.1 硬件事件

perf stat -e cycles,instructions,cache-misses ./my_app

通过 PMU（Performance Monitoring Unit）硬件计数器。

3.2 软件事件

perf stat -e context-switches,page-faults ./my_app

内核在关键路径上计数。

3.3 Tracepoints

perf stat -e sched:sched_switch ./my_app
perf record -e block:block_rq_issue -a sleep 5

四、Sampling vs Counting

模式	用途	开销
counting	`perf stat` — 精确计数	极低
sampling	`perf record` — 每 N 事件采样一次	低-中

采样：PMU 每 N 个 cycles 触发 NMI → 记录 IP（instruction pointer）→ 事后分析热点。

五、Ring Buffer

void *mmap_addr = mmap(NULL, size, PROT_READ, MAP_SHARED, perf_fd, 0);

perf 通过 mmap 共享 ring buffer → 内核写、用户态读 → 零拷贝。

六、perf record / report

perf record -g -F 99 ./my_app       # 采样 + 调用栈
perf report                           # 交互式分析
perf annotate                         # 源码级热点

6.1 调用栈

perf record --call-graph dwarf ./my_app   # DWARF unwind
perf record --call-graph fp ./my_app      # frame pointer
perf record --call-graph lbr ./my_app     # Last Branch Record

七、Processor Trace（Intel PT）

perf record -e intel_pt// ./my_app
perf script --itrace=i0ns

硬件记录完整的指令流 → 精确重放执行路径 → overhead 低于采样。

八、cgroup perf

perf stat -e cycles -G my_cgroup ./my_app

限定只统计特定 cgroup 内的事件 → 容器级性能分析。

九、观察

perf list                     # 可用事件
perf top                      # 实时热点
perf stat -d ./my_app         # 详细统计
perf bench sched all          # 内置 benchmark

# 火焰图
perf record -g -F 99 -a sleep 10
perf script | stackcollapse-perf.pl | flamegraph.pl > flame.svg

十、小结

perf_event_open 是统一的性能事件接口
硬件 PMU + 软件事件 + tracepoints
counting 极低开销，sampling 低-中开销
ring buffer mmap 零拷贝
Intel PT 提供完整指令流记录

参考文献

kernel/events/core.c
man 2 perf_event_open
Brendan Gregg, “perf Examples.” 2015
Documentation/admin-guide/perf-security.rst

工具

perf stat/record/report/top/annotate
perf script
FlameGraph

上一篇：ftrace 下一篇：eBPF 核心

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-06-29 · linux / os

EEVDF 调度器：Linux 6.6 为什么换掉了 CFS

Linux 6.6 用 EEVDF 取代了 CFS 的 SCHED_NORMAL 选取逻辑。从 1995 年原始论文的 lag、eligibility、virtual deadline，到 commit 147f3ef 只重写 placement/pick/preempt，再到本机内核 6.6 上读 sched/debug 把每个任务的 vruntime、eligible 标志、deadline 一一对上 vd=ve+r/w，外加 nice 带宽与 base_slice 抢占两组实测，讲清换的是哪一块、延迟敏感任务凭什么先跑。

2026-06-18 · os

【操作系统百科】Windows 内核与 Linux 的关键差异

NT Executive/Kernel/HAL 分层、Object Manager 与 handle、IRP 驱动栈、IOCP 完成端口 vs epoll/io_uring、EPROCESS/KTHREAD vs task_struct、Registry vs 文件配置，以及 WSL2 为何选择 Hyper-V 轻量 VM。

2026-07-05 · os

【操作系统百科】实时 OS 巡礼

硬实时与软实时的可调度性边界、VxWorks/QNX/Zephyr 机制对照、Linux PREEMPT_RT 与主线合入、DO-178C/ISO 26262 认证语境，以及选型决策树。

2026-07-06 · os

【操作系统百科】Unikernel

Unikernel 在云上为什么没成主流？MirageOS、IncludeOS、Unikraft、OSv 的设计取舍——库操作系统、启动时间、工具链、调试困难、POSIX 兼容。