网络代理、日志分流、文件传输——数据从一个 fd 到另一个 fd,不需要经过用户态缓冲区。splice 家族就是做这件事的。
一、先看图
flowchart LR
subgraph 传统
FD1_T[fd_in] -->|read| UBUF[用户缓冲区]
UBUF -->|write| FD2_T[fd_out]
end
subgraph splice
FD1_S[fd_in] -->|splice| PIPE[pipe buffer<br/>内核页引用]
PIPE -->|splice| FD2_S[fd_out]
end
subgraph sendfile
FD1_F[file_in] -->|sendfile| FD2_F[socket_out<br/>内核直接传输]
end
classDef old fill:#f0883e22,stroke:#f0883e,color:#adbac7;
classDef new fill:#3fb95022,stroke:#3fb950,color:#adbac7;
class FD1_T,UBUF,FD2_T old
class FD1_S,PIPE,FD2_S,FD1_F,FD2_F new
二、splice
2.1 API
ssize_t splice(int fd_in, loff_t *off_in,
int fd_out, loff_t *off_out,
size_t len, unsigned int flags);至少一端必须是 pipe。数据在内核 pipe buffer 中以页引用方式传递。
2.2 工作原理
- 从
fd_in读页到 pipe buffer(或引用页缓存页) - 从 pipe buffer 传到
fd_out(socket/file)
不复制数据——只移动页引用。
2.3 flags
SPLICE_F_MOVE:尝试移动页而非拷贝(实际很少生效)SPLICE_F_NONBLOCK:非阻塞SPLICE_F_MORE:后面还有数据(类似 MSG_MORE)
2.4 典型模式
// 文件 → socket(替代 sendfile)
int pipefd[2];
pipe(pipefd);
splice(file_fd, &off, pipefd[1], NULL, len, SPLICE_F_MOVE);
splice(pipefd[0], NULL, sock_fd, NULL, len, SPLICE_F_MOVE | SPLICE_F_MORE);三、tee
ssize_t tee(int fd_in, int fd_out, size_t len, unsigned int flags);pipe → pipe 的零拷贝复制(只增加页引用计数)。
用途:日志分流——一份写文件,一份发网络。
tee(pipe_in, pipe_out, len, 0); // 复制引用
splice(pipe_in, NULL, file_fd, NULL, len, 0); // 原始数据写文件
splice(pipe_out, NULL, sock_fd, NULL, len, 0); // 副本发网络四、vmsplice
ssize_t vmsplice(int fd, const struct iovec *iov, unsigned long nr_segs, unsigned int flags);用户内存 → pipe buffer(零拷贝,传页引用)。
危险:用户可能在数据还没被消费时修改内存
→ 数据损坏。SPLICE_F_GIFT
让内核接管页所有权。
实际使用极少,安全隐患大。
五、sendfile
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);sendfile 是 splice 的前身(2.2 引入)。file → socket 直传。
内核 2.6.23+ sendfile 内部实现用 splice。
限制:in_fd 必须支持 mmap(普通文件),out_fd 必须是 socket。
六、pipe buffer 内部
struct pipe_buffer {
struct page *page;
unsigned int offset, len;
const struct pipe_buf_operations *ops;
unsigned int flags;
};pipe 有固定数量的 slot(默认 16 × 4KB = 64KB),每个 slot 引用一个 page。
splice 的”零拷贝”本质:操作 pipe_buffer 的 page 指针,不复制数据。
七、CVE-2022-0847 Dirty Pipe
7.1 漏洞
splice 把文件页缓存页引用到 pipe buffer → pipe buffer 的
PIPE_BUF_FLAG_CAN_MERGE 标志没有正确清除 → 后续
write(pipe)
直接修改了页缓存中的只读文件页。
7.2 影响
- 任何用户可以覆写任意可读文件的内容(不改变文件权限)
- 提权:覆写
/etc/passwd或 SUID 二进制 - CVSS 7.8
7.3 修复
// 清除 merge 标志
buf->flags &= ~PIPE_BUF_FLAG_CAN_MERGE;教训:pipe buffer 标志管理的复杂性。
八、性能
splice 的收益取决于场景:
| 场景 | splice 收益 |
|---|---|
| 大文件 → socket | 显著(省一次 copy) |
| 小消息网络代理 | 不明显(syscall 开销占主) |
| pipe tee 分流 | 显著(零拷贝) |
对比 io_uring:io_uring 的 IORING_OP_SPLICE
可以避免 splice 的额外 syscall。
九、观察
strace -e splice,tee,vmsplice,sendfile <command>
# pipe buffer 大小
cat /proc/sys/fs/pipe-max-size # 默认 1048576
fcntl(pipefd, F_GETPIPE_SZ) # 获取当前 pipe 大小十、小结
- splice:fd → pipe → fd 的内核零拷贝(至少一端必须是 pipe)
- tee:pipe → pipe 的引用复制
- vmsplice:用户内存 → pipe(少用,有安全问题)
- sendfile:file → socket 直传(内部用 splice)
- Dirty Pipe 漏洞提醒:pipe buffer 标志管理是安全关键路径
参考文献
man 2 splice、man 2 tee、man 2 vmsplice、man 2 sendfilefs/splice.c- Max Kellermann, “The Dirty Pipe Vulnerability.” 2022
- linux/zero-copy-dirty-truth(旧文延伸阅读)
- linux/splice-dataflow(旧文延伸阅读)
工具
strace/proc/sys/fs/pipe-*bpftrace -e 'kprobe:do_splice { @[comm] = count(); }'
延伸阅读
上一篇:fd 化抽象 下一篇:异步通知 benchmark
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【操作系统百科】管道、FIFO、socketpair
管道是 Unix 最古老的 IPC。但内核里它不是一条 FIFO 字节流——它是一个环形页缓冲(pipe_buffer 数组),支持 splice/vmsplice 零拷贝。本文讲 pipe/pipe2、PIPE_BUF 原子写边界、O_NONBLOCK 与 SIGPIPE、命名管道 FIFO、socketpair 与 SCM_RIGHTS 传 fd、splice/tee 的数据平面优化。
【操作系统百科】关于 OS 的工程常识错觉
\"微内核更安全\"、\"零拷贝零开销\"、\"实时 OS 等于高性能\"、\"Docker 很轻因为没有 OS\"……工程界流传许多关于 OS 的简化叙事,其中不少在深入语境下是错的。本文把十二条典型错觉逐一拆开看。
【操作系统百科】内存回收
Linux 内存回收是 VM 最复杂的子系统之一。本文讲 active/inactive LRU、kswapd 与 direct reclaim、watermark 三线、swappiness 的真实含义、MGLRU 改造、memcg 回收与 PSI。
【操作系统百科】交换
swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。