io_uring 是 Linux 5.1 引入的异步 I/O 框架——用共享内存 ring buffer 避免 syscall 开销,支持几乎所有文件和网络操作。
一、先看图
flowchart LR
subgraph 用户态
APP[应用程序]
SQ[SQ Ring<br/>提交队列]
CQ[CQ Ring<br/>完成队列]
end
subgraph 内核态
SQTHREAD[SQPOLL 线程<br/>可选]
IOWQ[io-wq<br/>工作线程]
SUBSYS[文件/网络/块层]
end
APP -->|写 SQE| SQ
SQ -->|io_uring_enter<br/>或 SQPOLL| SQTHREAD
SQTHREAD --> SUBSYS
SUBSYS -->|完成| CQ
CQ -->|读 CQE| APP
SQTHREAD -->|可能阻塞| IOWQ
IOWQ --> SUBSYS
classDef user fill:#3fb95022,stroke:#3fb950,color:#adbac7;
classDef kern fill:#388bfd22,stroke:#388bfd,color:#adbac7;
class APP,SQ,CQ user
class SQTHREAD,IOWQ,SUBSYS kern
二、核心数据结构
2.1 io_uring_setup
struct io_uring_params p = { .flags = IORING_SETUP_SQPOLL };
int ring_fd = io_uring_setup(4096, &p);
// mmap SQ ring, CQ ring, SQEs返回的 fd 上 mmap 三块共享内存:SQ ring、CQ ring、SQE 数组。
2.2 SQE(Submission Queue Entry)
struct io_uring_sqe {
__u8 opcode; // IORING_OP_READ, IORING_OP_WRITE, ...
__u8 flags;
__u16 ioprio;
__s32 fd;
__u64 off;
__u64 addr; // buf 地址
__u32 len;
// ... union 字段
__u64 user_data; // 用户标识
};2.3 CQE(Completion Queue Entry)
struct io_uring_cqe {
__u64 user_data; // 对应 SQE
__s32 res; // 结果(字节数或 -errno)
__u32 flags;
};三、提交与完成
3.1 普通模式
// 1. 填 SQE
sqe->opcode = IORING_OP_READ;
sqe->fd = fd;
sqe->addr = (unsigned long)buf;
sqe->len = 4096;
// 2. 更新 SQ tail
// 3. io_uring_enter(ring_fd, 1, 0, 0)
// 4. 读 CQ head → CQE → res3.2 SQPOLL 模式
io_uring_setup(entries, &p); // p.flags |= IORING_SETUP_SQPOLL内核 io_sq_thread 线程持续轮询 SQ ring →
用户态提交 零 syscall。
空闲超时后线程睡眠,用户需要
io_uring_enter() 唤醒。
3.3 IOPOLL 模式
p.flags |= IORING_SETUP_IOPOLL;用户主动轮询完成(io_uring_enter(IORING_ENTER_GETEVENTS)),不等中断。
适用于 NVMe 低延迟场景。
四、注册优化
4.1 注册 fd
io_uring_register(ring_fd, IORING_REGISTER_FILES, fds, nr_fds);
// SQE 用 IOSQE_FIXED_FILE + fixed_file_index避免每次 fdget/fdput 的原子操作。
4.2 注册 buffer
io_uring_register(ring_fd, IORING_REGISTER_BUFFERS, iovs, nr_iovs);
// SQE 用 IORING_OP_READ_FIXED预先 pin 用户页 → 避免每次 get_user_pages。
五、io-wq 工作线程
不能内联完成的操作(buffered I/O、可能阻塞的 connect 等)交给 io-wq 线程池:
- bounded 线程:受
RLIMIT_NPROC限制 - unbounded 线程:用于网络等可能长时间阻塞的操作
六、multishot 操作
sqe->opcode = IORING_OP_RECV;
sqe->flags |= IOSQE_MULTISHOT;一次提交 → 多次完成。适用于 accept、recv 等重复操作。减少 SQE 提交频率。
七、安全模型
io_uring 曾有多个安全问题:
- 早期无 SECCOMP 集成 → 绕过 syscall 审计
- 5.13:
IORING_REGISTER_RESTRICTIONS限制 opcode - 6.0: seccomp 可以阻止
io_uring_setup - Android/ChromeOS 长期禁用 io_uring
当前状态:生产环境建议限制非特权用户(io_uring_disabled
sysctl)。
八、liburing
#include <liburing.h>
struct io_uring ring;
io_uring_queue_init(256, &ring, 0);
struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
io_uring_prep_read(sqe, fd, buf, 4096, 0);
io_uring_sqe_set_data(sqe, user_data);
io_uring_submit(&ring);
struct io_uring_cqe *cqe;
io_uring_wait_cqe(&ring, &cqe);
int res = cqe->res;
io_uring_cqe_seen(&ring, cqe);九、观察
# io_uring 实例
cat /proc/<pid>/fdinfo/<ring_fd> | grep -i uring
# 系统级
cat /proc/sys/kernel/io_uring_disabled # 0=允许 1=非特权禁用 2=全禁
# perf
perf trace -e io_uring:*
bpftrace -e 'tracepoint:io_uring:io_uring_submit_sqe { @[comm] = count(); }'十、小结
- io_uring = 共享内存 ring + 零 syscall 提交/完成
- SQPOLL 和 IOPOLL 进一步减少内核交互
- 注册 fd/buffer 避免重复 setup 开销
- io-wq 处理阻塞操作
- 安全模型仍在演进——生产环境注意限制
参考文献
- Jens Axboe, “Efficient IO with io_uring.” 2019
io_uring/(6.x 内核独立目录)man 7 io_uring- linux/iouring-production(旧文延伸阅读)
- 存储百科 io_uring 系列
工具
liburingio_uring_register(2)fio --ioengine=io_uringbpftraceio_uring tracepoints
延伸阅读
上一篇:POSIX AIO 与 libaio 下一篇:epoll 内部
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【操作系统百科】POSIX AIO 与 libaio
Linux 有两套异步 I/O——glibc POSIX AIO(线程池伪装)和内核 libaio(io_submit/io_getevents,限制重重)。本文讲两者实现、O_DIRECT 约束、io_cancel 不可用性、与 epoll 的不可组合问题。
【操作系统百科】异步 I/O 模型 benchmark
epoll、io_uring、libaio、阻塞线程池——四种异步模型的真实性能对比。本文用统一 workload 量化 echo server、静态文件服务、数据库 I/O 场景下的吞吐、延迟与 CPU 开销。
【操作系统百科】FUSE
FUSE 把文件系统实现搬到用户态——开发快、崩溃不影响内核。本文讲 FUSE 协议、/dev/fuse 通信、FUSE_PASSTHROUGH、virtio-fs、io_uring FUSE、性能天花板与优化策略。
【存储工程】Linux 异步 I/O:从 POSIX AIO 到 io_uring
在高吞吐存储系统中,同步 I/O 是性能的天花板。本文系统梳理 Linux 下三代异步 I/O 方案——POSIX AIO、Linux Native AIO(libaio)和 io_uring——的设计原理、编程接口、性能特征与工程实践,帮助你在实际项目中做出正确的技术选型。