【操作系统百科】splice/tee/vmsplice

网络代理、日志分流、文件传输——数据从一个 fd 到另一个 fd，不需要经过用户态缓冲区。splice 家族就是做这件事的。

一、先看图

flowchart LR
    subgraph 传统
        FD1_T[fd_in] -->|read| UBUF[用户缓冲区]
        UBUF -->|write| FD2_T[fd_out]
    end
    subgraph splice
        FD1_S[fd_in] -->|splice| PIPE[pipe buffer<br/>内核页引用]
        PIPE -->|splice| FD2_S[fd_out]
    end
    subgraph sendfile
        FD1_F[file_in] -->|sendfile| FD2_F[socket_out<br/>内核直接传输]
    end

    classDef old fill:#f0883e22,stroke:#f0883e,color:#adbac7;
    classDef new fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    class FD1_T,UBUF,FD2_T old
    class FD1_S,PIPE,FD2_S,FD1_F,FD2_F new

二、splice

2.1 API

ssize_t splice(int fd_in, loff_t *off_in,
               int fd_out, loff_t *off_out,
               size_t len, unsigned int flags);

至少一端必须是 pipe。数据在内核 pipe buffer 中以页引用方式传递。

2.2 工作原理

从 fd_in 读页到 pipe buffer（或引用页缓存页）
从 pipe buffer 传到 fd_out（socket/file）

不复制数据——只移动页引用。

2.3 flags

SPLICE_F_MOVE：尝试移动页而非拷贝（实际很少生效）
SPLICE_F_NONBLOCK：非阻塞
SPLICE_F_MORE：后面还有数据（类似 MSG_MORE）

2.4 典型模式

// 文件 → socket（替代 sendfile）
int pipefd[2];
pipe(pipefd);
splice(file_fd, &off, pipefd[1], NULL, len, SPLICE_F_MOVE);
splice(pipefd[0], NULL, sock_fd, NULL, len, SPLICE_F_MOVE | SPLICE_F_MORE);

三、tee

ssize_t tee(int fd_in, int fd_out, size_t len, unsigned int flags);

pipe → pipe 的零拷贝复制（只增加页引用计数）。

用途：日志分流——一份写文件，一份发网络。

tee(pipe_in, pipe_out, len, 0);   // 复制引用
splice(pipe_in, NULL, file_fd, NULL, len, 0);   // 原始数据写文件
splice(pipe_out, NULL, sock_fd, NULL, len, 0);  // 副本发网络

四、vmsplice

ssize_t vmsplice(int fd, const struct iovec *iov, unsigned long nr_segs, unsigned int flags);

用户内存 → pipe buffer（零拷贝，传页引用）。

危险：用户可能在数据还没被消费时修改内存 → 数据损坏。SPLICE_F_GIFT 让内核接管页所有权。

实际使用极少，安全隐患大。

五、sendfile

ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

sendfile 是 splice 的前身（2.2 引入）。file → socket 直传。

内核 2.6.23+ sendfile 内部实现用 splice。

限制：in_fd 必须支持 mmap（普通文件），out_fd 必须是 socket。

六、pipe buffer 内部

struct pipe_buffer {
    struct page *page;
    unsigned int offset, len;
    const struct pipe_buf_operations *ops;
    unsigned int flags;
};

pipe 有固定数量的 slot（默认 16 × 4KB = 64KB），每个 slot 引用一个 page。

splice 的”零拷贝”本质：操作 pipe_buffer 的 page 指针，不复制数据。

七、CVE-2022-0847 Dirty Pipe

7.1 漏洞

splice 把文件页缓存页引用到 pipe buffer → pipe buffer 的 PIPE_BUF_FLAG_CAN_MERGE 标志没有正确清除 → 后续 write(pipe) 直接修改了页缓存中的只读文件页。

7.2 影响

任何用户可以覆写任意可读文件的内容（不改变文件权限）
提权：覆写 /etc/passwd 或 SUID 二进制
CVSS 7.8

7.3 修复

// 清除 merge 标志
buf->flags &= ~PIPE_BUF_FLAG_CAN_MERGE;

教训：pipe buffer 标志管理的复杂性。

八、性能

splice 的收益取决于场景：

场景	splice 收益
大文件 → socket	显著（省一次 copy）
小消息网络代理	不明显（syscall 开销占主）
pipe tee 分流	显著（零拷贝）

对比 io_uring：io_uring 的 IORING_OP_SPLICE 可以避免 splice 的额外 syscall。

九、观察

strace -e splice,tee,vmsplice,sendfile <command>

# pipe buffer 大小
cat /proc/sys/fs/pipe-max-size    # 默认 1048576
fcntl(pipefd, F_GETPIPE_SZ)      # 获取当前 pipe 大小

十、小结

splice：fd → pipe → fd 的内核零拷贝（至少一端必须是 pipe）
tee：pipe → pipe 的引用复制
vmsplice：用户内存 → pipe（少用，有安全问题）
sendfile：file → socket 直传（内部用 splice）
Dirty Pipe 漏洞提醒：pipe buffer 标志管理是安全关键路径

参考文献

man 2 splice、man 2 tee、man 2 vmsplice、man 2 sendfile
fs/splice.c
Max Kellermann, “The Dirty Pipe Vulnerability.” 2022
linux/zero-copy-dirty-truth（旧文延伸阅读）
linux/splice-dataflow（旧文延伸阅读）

工具

strace
/proc/sys/fs/pipe-*
bpftrace -e 'kprobe:do_splice { @[comm] = count(); }'

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-17 · os

【操作系统百科】管道、FIFO、socketpair

管道是 Unix 最古老的 IPC。但内核里它不是一条 FIFO 字节流——它是一个环形页缓冲（pipe_buffer 数组），支持 splice/vmsplice 零拷贝。本文讲 pipe/pipe2、PIPE_BUF 原子写边界、O_NONBLOCK 与 SIGPIPE、命名管道 FIFO、socketpair 与 SCM_RIGHTS 传 fd、splice/tee 的数据平面优化。

2026-07-08 · os / security

【操作系统百科】机密计算

TEE 保护什么、不保护什么？从 Intel SGX、AMD SEV-SNP、Intel TDX 到 ARM CCA，对照威胁模型、远程认证、Confidential Containers 与 Gramine/Occlum 软件栈，说明机密计算如何改变 Guest 与 Hypervisor 的信任关系，以及与容器隔离的互补边界。