hardirq 要快——关中断时间越短越好。延迟工作交给下半部(bottom half)。Linux 有三条路。
一、先看图
flowchart TD
HARDIRQ[硬中断 handler<br/>最小化工作] --> RAISE[raise_softirq<br/>或 schedule_work]
RAISE --> SOFTIRQ[softirq<br/>静态 10 个<br/>原子上下文]
RAISE --> TASKLET[tasklet<br/>基于 softirq<br/>退役中]
RAISE --> WQ[workqueue<br/>内核线程<br/>可睡眠]
SOFTIRQ --> KSD[ksoftirqd<br/>长尾时接管]
classDef hard fill:#f85149,stroke:#f85149,color:#adbac7;
classDef soft fill:#388bfd22,stroke:#388bfd,color:#adbac7;
classDef wq fill:#3fb95022,stroke:#3fb950,color:#adbac7;
class HARDIRQ hard
class RAISE,SOFTIRQ,TASKLET,KSD soft
class WQ wq
二、softirq
2.1 静态编号
enum {
HI_SOFTIRQ,
TIMER_SOFTIRQ,
NET_TX_SOFTIRQ,
NET_RX_SOFTIRQ,
BLOCK_SOFTIRQ,
IRQ_POLL_SOFTIRQ,
TASKLET_SOFTIRQ,
SCHED_SOFTIRQ,
HRTIMER_SOFTIRQ,
RCU_SOFTIRQ,
};只有 10 个固定编号——不能动态添加。
2.2 执行
hardirq 返回时检查 pending softirq →
__do_softirq() 处理。
特点:
- 原子上下文(不能睡眠)
- 同一 softirq 可以在多个 CPU 并行
- 高优先级
2.3 ksoftirqd
softirq 处理时间过长 → 避免饿死用户进程 → 切换到
ksoftirqd 内核线程(以 nice 19 运行)。
三、tasklet
DECLARE_TASKLET(my_tasklet, my_func);
tasklet_schedule(&my_tasklet);基于 TASKLET_SOFTIRQ,动态创建。
特点:
- 同一 tasklet 不会在多 CPU 并行(串行化)
- 原子上下文
退役趋势:内核社区正在移除 tasklet,替换为 workqueue 或 threaded IRQ。
四、workqueue
DECLARE_WORK(my_work, my_func);
schedule_work(&my_work); // 系统默认 workqueue
queue_work(my_wq, &my_work); // 自定义 workqueue4.1 类型
| 类型 | 特点 |
|---|---|
| bound | 绑定到提交 CPU |
| unbound | 可在任意 CPU 运行 |
| ordered | 串行执行 |
| WQ_POWER_EFFICIENT | 低功耗(可能迁移) |
4.2 线程池
workqueue 使用 kworker 线程池——不是每
workqueue 一个线程。
ps aux | grep kworker4.3 可睡眠
workqueue handler 可以睡眠 → 可以分配内存、做 I/O、获取 mutex。
五、threaded NAPI
网络收包高频 → softirq 长尾 → ksoftirqd 延迟高。
Threaded NAPI(5.x+):每 NAPI 实例一个内核线程 → 可调度、可设优先级。
echo 1 > /sys/class/net/eth0/threaded六、选择指南
| 场景 | 推荐 |
|---|---|
| 网络收发 | softirq(NET_RX/TX) |
| 块 I/O 完成 | softirq(BLOCK) |
| 设备驱动通用 | workqueue 或 threaded IRQ |
| 需要睡眠 | workqueue |
| 旧代码 tasklet | 迁移到 workqueue |
七、softirq 长尾问题
# 观察 softirq CPU 占用
cat /proc/softirqs
mpstat -P ALL 1 | grep -i softNET_RX 占用过高 → 考虑:
- 增加 NIC 队列数
- 开启 busy polling
- 使用 threaded NAPI
八、delayed_work
DECLARE_DELAYED_WORK(my_dwork, my_func);
schedule_delayed_work(&my_dwork, msecs_to_jiffies(100));延迟执行 + workqueue 能力。
九、观察
cat /proc/softirqs # per-CPU softirq 计数
cat /proc/interrupts # hardirq 计数
ps -eo pid,comm | grep kworker # workqueue 线程
perf top -e irq:softirq_entry # softirq 热点十、小结
- softirq:静态 10 个、高性能、原子上下文
- tasklet:退役中,迁移到 workqueue
- workqueue:灵活、可睡眠、线程池
- ksoftirqd 处理 softirq 长尾
- threaded NAPI 是网络场景的新方向
参考文献
kernel/softirq.ckernel/workqueue.cDocumentation/core-api/workqueue.rst- Tejun Heo, “Concurrency Managed Workqueue.” 2010
工具
/proc/softirqsmpstatperfsoftirq tracepointsbpftrace
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【操作系统百科】内存回收
Linux 内存回收是 VM 最复杂的子系统之一。本文讲 active/inactive LRU、kswapd 与 direct reclaim、watermark 三线、swappiness 的真实含义、MGLRU 改造、memcg 回收与 PSI。
【操作系统百科】交换
swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。
【操作系统百科】Slab/SLUB 分配器
buddy 只管页粒度(4K+),内核大多数对象只有几十到几百字节。slab/SLUB 在 buddy 之上做对象级缓存。本文讲 slab 历史、SLUB 接手、SLOB 退场、kmem_cache、per-CPU cache、KASAN 集成。
【操作系统百科】用户态分配器
glibc malloc、tcmalloc、jemalloc、mimalloc 各有哲学。本文讲 arena、thread cache、size class、madvise 返还策略、碎片与 RSS 膨胀、如何根据负载选分配器。