土法炼钢兴趣小组的算法知识备份

【操作系统百科】splice/tee/vmsplice

文章导航

分类入口
os
标签入口
#splice#tee#vmsplice#zero-copy#dirty-pipe

目录

网络代理、日志分流、文件传输——数据从一个 fd 到另一个 fd,不需要经过用户态缓冲区。splice 家族就是做这件事的。

一、先看图

flowchart LR
    subgraph 传统
        FD1_T[fd_in] -->|read| UBUF[用户缓冲区]
        UBUF -->|write| FD2_T[fd_out]
    end
    subgraph splice
        FD1_S[fd_in] -->|splice| PIPE[pipe buffer<br/>内核页引用]
        PIPE -->|splice| FD2_S[fd_out]
    end
    subgraph sendfile
        FD1_F[file_in] -->|sendfile| FD2_F[socket_out<br/>内核直接传输]
    end

    classDef old fill:#f0883e22,stroke:#f0883e,color:#adbac7;
    classDef new fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    class FD1_T,UBUF,FD2_T old
    class FD1_S,PIPE,FD2_S,FD1_F,FD2_F new

二、splice

2.1 API

ssize_t splice(int fd_in, loff_t *off_in,
               int fd_out, loff_t *off_out,
               size_t len, unsigned int flags);

至少一端必须是 pipe。数据在内核 pipe buffer 中以页引用方式传递。

2.2 工作原理

  1. fd_in 读页到 pipe buffer(或引用页缓存页)
  2. 从 pipe buffer 传到 fd_out(socket/file)

不复制数据——只移动页引用。

2.3 flags

2.4 典型模式

// 文件 → socket(替代 sendfile)
int pipefd[2];
pipe(pipefd);
splice(file_fd, &off, pipefd[1], NULL, len, SPLICE_F_MOVE);
splice(pipefd[0], NULL, sock_fd, NULL, len, SPLICE_F_MOVE | SPLICE_F_MORE);

三、tee

ssize_t tee(int fd_in, int fd_out, size_t len, unsigned int flags);

pipe → pipe 的零拷贝复制(只增加页引用计数)。

用途:日志分流——一份写文件,一份发网络。

tee(pipe_in, pipe_out, len, 0);   // 复制引用
splice(pipe_in, NULL, file_fd, NULL, len, 0);   // 原始数据写文件
splice(pipe_out, NULL, sock_fd, NULL, len, 0);  // 副本发网络

四、vmsplice

ssize_t vmsplice(int fd, const struct iovec *iov, unsigned long nr_segs, unsigned int flags);

用户内存 → pipe buffer(零拷贝,传页引用)。

危险:用户可能在数据还没被消费时修改内存 → 数据损坏。SPLICE_F_GIFT 让内核接管页所有权。

实际使用极少,安全隐患大。

五、sendfile

ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

sendfile 是 splice 的前身(2.2 引入)。file → socket 直传。

内核 2.6.23+ sendfile 内部实现用 splice。

限制:in_fd 必须支持 mmap(普通文件),out_fd 必须是 socket。

六、pipe buffer 内部

struct pipe_buffer {
    struct page *page;
    unsigned int offset, len;
    const struct pipe_buf_operations *ops;
    unsigned int flags;
};

pipe 有固定数量的 slot(默认 16 × 4KB = 64KB),每个 slot 引用一个 page。

splice 的”零拷贝”本质:操作 pipe_buffer 的 page 指针,不复制数据。

七、CVE-2022-0847 Dirty Pipe

7.1 漏洞

splice 把文件页缓存页引用到 pipe buffer → pipe buffer 的 PIPE_BUF_FLAG_CAN_MERGE 标志没有正确清除 → 后续 write(pipe) 直接修改了页缓存中的只读文件页

7.2 影响

7.3 修复

// 清除 merge 标志
buf->flags &= ~PIPE_BUF_FLAG_CAN_MERGE;

教训:pipe buffer 标志管理的复杂性。

八、性能

splice 的收益取决于场景:

场景 splice 收益
大文件 → socket 显著(省一次 copy)
小消息网络代理 不明显(syscall 开销占主)
pipe tee 分流 显著(零拷贝)

对比 io_uring:io_uring 的 IORING_OP_SPLICE 可以避免 splice 的额外 syscall。

九、观察

strace -e splice,tee,vmsplice,sendfile <command>

# pipe buffer 大小
cat /proc/sys/fs/pipe-max-size    # 默认 1048576
fcntl(pipefd, F_GETPIPE_SZ)      # 获取当前 pipe 大小

十、小结


参考文献

工具


延伸阅读


上一篇fd 化抽象 下一篇异步通知 benchmark

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-17 · os

【操作系统百科】管道、FIFO、socketpair

管道是 Unix 最古老的 IPC。但内核里它不是一条 FIFO 字节流——它是一个环形页缓冲(pipe_buffer 数组),支持 splice/vmsplice 零拷贝。本文讲 pipe/pipe2、PIPE_BUF 原子写边界、O_NONBLOCK 与 SIGPIPE、命名管道 FIFO、socketpair 与 SCM_RIGHTS 传 fd、splice/tee 的数据平面优化。

2026-04-17 · os

【操作系统百科】关于 OS 的工程常识错觉

\"微内核更安全\"、\"零拷贝零开销\"、\"实时 OS 等于高性能\"、\"Docker 很轻因为没有 OS\"……工程界流传许多关于 OS 的简化叙事,其中不少在深入语境下是错的。本文把十二条典型错觉逐一拆开看。

2026-04-27 · os

【操作系统百科】内存回收

Linux 内存回收是 VM 最复杂的子系统之一。本文讲 active/inactive LRU、kswapd 与 direct reclaim、watermark 三线、swappiness 的真实含义、MGLRU 改造、memcg 回收与 PSI。

2026-04-28 · os

【操作系统百科】交换

swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。


By .