土法炼钢兴趣小组的算法知识备份

【操作系统百科】io_uring 内核内部

文章导航

分类入口
os
标签入口
#io-uring#sqpoll#async-io#ring-buffer#iopoll

目录

io_uring 是 Linux 5.1 引入的异步 I/O 框架——用共享内存 ring buffer 避免 syscall 开销,支持几乎所有文件和网络操作。

一、先看图

flowchart LR
    subgraph 用户态
        APP[应用程序]
        SQ[SQ Ring<br/>提交队列]
        CQ[CQ Ring<br/>完成队列]
    end
    subgraph 内核态
        SQTHREAD[SQPOLL 线程<br/>可选]
        IOWQ[io-wq<br/>工作线程]
        SUBSYS[文件/网络/块层]
    end
    APP -->|写 SQE| SQ
    SQ -->|io_uring_enter<br/>或 SQPOLL| SQTHREAD
    SQTHREAD --> SUBSYS
    SUBSYS -->|完成| CQ
    CQ -->|读 CQE| APP

    SQTHREAD -->|可能阻塞| IOWQ
    IOWQ --> SUBSYS

    classDef user fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    classDef kern fill:#388bfd22,stroke:#388bfd,color:#adbac7;
    class APP,SQ,CQ user
    class SQTHREAD,IOWQ,SUBSYS kern

二、核心数据结构

2.1 io_uring_setup

struct io_uring_params p = { .flags = IORING_SETUP_SQPOLL };
int ring_fd = io_uring_setup(4096, &p);
// mmap SQ ring, CQ ring, SQEs

返回的 fd 上 mmap 三块共享内存:SQ ring、CQ ring、SQE 数组。

2.2 SQE(Submission Queue Entry)

struct io_uring_sqe {
    __u8  opcode;        // IORING_OP_READ, IORING_OP_WRITE, ...
    __u8  flags;
    __u16 ioprio;
    __s32 fd;
    __u64 off;
    __u64 addr;          // buf 地址
    __u32 len;
    // ... union 字段
    __u64 user_data;     // 用户标识
};

2.3 CQE(Completion Queue Entry)

struct io_uring_cqe {
    __u64 user_data;     // 对应 SQE
    __s32 res;           // 结果(字节数或 -errno)
    __u32 flags;
};

三、提交与完成

3.1 普通模式

// 1. 填 SQE
sqe->opcode = IORING_OP_READ;
sqe->fd = fd;
sqe->addr = (unsigned long)buf;
sqe->len = 4096;
// 2. 更新 SQ tail
// 3. io_uring_enter(ring_fd, 1, 0, 0)
// 4. 读 CQ head → CQE → res

3.2 SQPOLL 模式

io_uring_setup(entries, &p);  // p.flags |= IORING_SETUP_SQPOLL

内核 io_sq_thread 线程持续轮询 SQ ring → 用户态提交 零 syscall

空闲超时后线程睡眠,用户需要 io_uring_enter() 唤醒。

3.3 IOPOLL 模式

p.flags |= IORING_SETUP_IOPOLL;

用户主动轮询完成(io_uring_enter(IORING_ENTER_GETEVENTS)),不等中断。

适用于 NVMe 低延迟场景。

四、注册优化

4.1 注册 fd

io_uring_register(ring_fd, IORING_REGISTER_FILES, fds, nr_fds);
// SQE 用 IOSQE_FIXED_FILE + fixed_file_index

避免每次 fdget/fdput 的原子操作。

4.2 注册 buffer

io_uring_register(ring_fd, IORING_REGISTER_BUFFERS, iovs, nr_iovs);
// SQE 用 IORING_OP_READ_FIXED

预先 pin 用户页 → 避免每次 get_user_pages。

五、io-wq 工作线程

不能内联完成的操作(buffered I/O、可能阻塞的 connect 等)交给 io-wq 线程池:

六、multishot 操作

sqe->opcode = IORING_OP_RECV;
sqe->flags |= IOSQE_MULTISHOT;

一次提交 → 多次完成。适用于 accept、recv 等重复操作。减少 SQE 提交频率。

七、安全模型

io_uring 曾有多个安全问题:

当前状态:生产环境建议限制非特权用户(io_uring_disabled sysctl)。

八、liburing

#include <liburing.h>
struct io_uring ring;
io_uring_queue_init(256, &ring, 0);

struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
io_uring_prep_read(sqe, fd, buf, 4096, 0);
io_uring_sqe_set_data(sqe, user_data);

io_uring_submit(&ring);

struct io_uring_cqe *cqe;
io_uring_wait_cqe(&ring, &cqe);
int res = cqe->res;
io_uring_cqe_seen(&ring, cqe);

九、观察

# io_uring 实例
cat /proc/<pid>/fdinfo/<ring_fd> | grep -i uring

# 系统级
cat /proc/sys/kernel/io_uring_disabled  # 0=允许 1=非特权禁用 2=全禁

# perf
perf trace -e io_uring:*
bpftrace -e 'tracepoint:io_uring:io_uring_submit_sqe { @[comm] = count(); }'

十、小结


参考文献

工具


延伸阅读


上一篇POSIX AIO 与 libaio 下一篇epoll 内部

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-05-17 · os

【操作系统百科】POSIX AIO 与 libaio

Linux 有两套异步 I/O——glibc POSIX AIO(线程池伪装)和内核 libaio(io_submit/io_getevents,限制重重)。本文讲两者实现、O_DIRECT 约束、io_cancel 不可用性、与 epoll 的不可组合问题。

2026-05-23 · os

【操作系统百科】异步 I/O 模型 benchmark

epoll、io_uring、libaio、阻塞线程池——四种异步模型的真实性能对比。本文用统一 workload 量化 echo server、静态文件服务、数据库 I/O 场景下的吞吐、延迟与 CPU 开销。

2026-05-15 · os

【操作系统百科】FUSE

FUSE 把文件系统实现搬到用户态——开发快、崩溃不影响内核。本文讲 FUSE 协议、/dev/fuse 通信、FUSE_PASSTHROUGH、virtio-fs、io_uring FUSE、性能天花板与优化策略。

2025-08-20 · storage

【存储工程】Linux 异步 I/O:从 POSIX AIO 到 io_uring

在高吞吐存储系统中,同步 I/O 是性能的天花板。本文系统梳理 Linux 下三代异步 I/O 方案——POSIX AIO、Linux Native AIO(libaio)和 io_uring——的设计原理、编程接口、性能特征与工程实践,帮助你在实际项目中做出正确的技术选型。


By .