【存储工程】小文件问题：为什么文件数量比文件大小更致命

存储系统处理 1 个 10 GB 的大文件，和 1000 万个 1 KB 的小文件——两者的数据总量相同，但行为天差地别。大文件几分钟就能读写完毕；小文件可能让文件系统元数据服务崩溃、让磁盘 IOPS 耗尽、让运维半夜被告警叫醒。更麻烦的是，小文件问题很少在设计阶段被考虑到，它通常是在系统跑了一段时间后，以”磁盘明明还有空间，但写入越来越慢”的形式悄然出现。

本文从块分配、元数据管理、磁盘寻道和网络协议四个层面拆解小文件为什么”小就是贵”，用数据量化每层开销，最后给出应用层聚合和对象存储归档两种工程方案。

测试环境说明 本文 §2.3 的 slack space 脚本在 Linux 6.8、/tmp（ext4，4 KB 块）上实测。§6.1–6.2 的 fio / mdtest 命令为可复现模板，文中标注「示意输出」的数值随磁盘与文件系统变化，不作为跨环境对比结论。§6.3 的 strace 统计口径为按路径 openat 读文件，不含目录遍历。

一、什么叫”小”

“小文件”没有一个绝对的数字定义。同一个 64 KB 的文件，对 HDD 来说已经是”小”（一次寻道比一次读数据还贵），对 NVMe SSD 来说还不算（一次 I/O 就能搬完），对对象存储来说不管多大都是”小”（HTTP 请求开销与数据量无关）。

更实用的定义方式是从开销结构出发：当一个文件的元数据开销超过其数据本身的开销时，它就算小文件。 按照这个标准：

存储介质 / 系统	“小”的阈值	原因
HDD（ext4/XFS）	< 256 KB	寻道时间（~8 ms）超过顺序读 256 KB 的时间
SATA SSD（ext4/XFS）	< 64 KB	一次 NAND 页读取（~100 μs）的开销占比开始显著
NVMe SSD（ext4/XFS）	< 16 KB	低于此阈值时 syscall + 文件系统遍历开销占比超过 30%
S3 / 对象存储	< 1 MB	PUT/GET 请求的 HTTP 往返延迟（~10–50 ms）是主要开销
HDFS / GFS	< 128 MB	默认块大小 64–128 MB，小于此值的文件导致块碎片

上表除 HDFS/GFS 块大小外，其余阈值为工程经验值（结合介质延迟与 syscall 成本估算），非基准测试结论；介质选型可参考本站存储介质选型指南。

这不是精确的科学划分，而是一个工程判断框架。关键不是找一个”安全阈值”，而是理解为什么小文件贵——它的开销结构和大文件完全不同。

二、块分配浪费：slack space 的复利效应

小文件在四个层面的放大效应可以用下图概括；下文按层展开。

flowchart TB
    subgraph layers["小文件开销四层放大"]
        A["块分配：slack space"]
        B["元数据：inode / dentry / extent"]
        C["物理 I/O：寻道或页读取放大"]
        D["协议层：HTTP / RPC 固定延迟"]
    end
    A --> B --> C --> D

2.1 块对齐与内部碎片

文件系统以块（Block）为单位分配空间。ext4 默认块大小 4 KB，意味着一个 1 KB 的文件实际占用 4 KB 磁盘空间——额外的 3 KB 被浪费了。这种浪费称为内部碎片（Internal Fragmentation），也叫 slack space。

块对齐示意（ext4，4 KB 块）：

  文件 1 KB          文件 5 KB
  ┌────┬───┐         ┌────┬────┬───┐
  │1KB │slack│         │5KB │slack│
  └────┴───┘         └────┴────┴───┘
   4 KB 分配           8 KB 分配

单个小文件的 slack space：

  文件大小 1 KB → 分配 4 KB（1 个块）→ slack = 3 KB (75% 浪费)
  文件大小 5 KB → 分配 8 KB（2 个块）→ slack = 3 KB (37.5% 浪费)
  文件大小 1 MB → 分配 1 MB（256 个块）→ slack = 0 KB（对齐边界）

若文件大小在 \([1, B]\) 内近似均匀分布（\(B\) 为块大小），平均 slack 约为 \(B/2\)。总量近似为：

\[\text{slack 总量} \approx N \times \frac{B}{2}\]

其中 \(N\) 为文件数量。

对于 1000 万个平均大小为 2 KB 的文件（ext4 4 KB 块）：

总数据量：10M × 2 KB = 20 GB
总分配量：10M × 4 KB = 40 GB（最少；部分文件跨块）
slack space ≈ 20 GB（约 100% 的空间浪费）

这只是磁盘空间的浪费。更严重的是，每个块都需要对应的 inode 和元数据结构来追踪它。

2.2 各文件系统的块开销

文件系统	默认块大小	子块分配	对小文件的意义
ext4	4 KB	不支持	1 KB 文件占 4 KB
XFS	4 KB	不支持	同上
Btrfs	4 KB（数据）	内联（inline）小文件数据存入元数据块	< 2 KB 文件零额外数据块
ZFS	可变（recordsize）	小文件直接存在 dnode 中	< 512 B 文件可能内联存储
ReiserFS	4 KB	尾打包（tail packing）	多个小文件尾打包到同一块

Btrfs 和 ZFS 的内联（inline）机制值得单独说明。当文件足够小（Btrfs 默认 < 2 KB，取决于元数据块剩余空间），文件数据直接存储在 inode 所在的元数据块中，不需要额外的数据块分配。这对小文件场景是巨大优势——文件系统层面的块分配浪费被消除了。

但内联存储不是银弹。inode 本身的大小是有限的（ext4 默认 256 字节，XFS 默认 256 字节，Btrfs 可变但受限于 leaf 大小）。文件数据稍有增长就需要迁移到独立数据块，这次迁移本身就是一次写放大。

2.3 实测：小文件的磁盘空间效率

用以下脚本可以在 ext4 上测量 slack space：

#!/bin/bash
# 测量小文件的 slack space
# 环境：ext4, 4KB block size

TEST_DIR="/tmp/small-file-test"
mkdir -p "$TEST_DIR"

# 创建 10000 个 1KB 文件
for i in $(seq 1 10000); do
    dd if=/dev/urandom of="$TEST_DIR/file_$i" bs=1K count=1 2>/dev/null
done

echo "=== 磁盘使用情况 ==="
echo "实际数据总量: $(du -sb "$TEST_DIR" | cut -f1) bytes"
echo "磁盘占用: $(du -sk "$TEST_DIR" | cut -f1) KB"
echo "文件数量: $(find "$TEST_DIR" -type f | wc -l)"

# 清理
rm -rf "$TEST_DIR"

实测输出（Linux 6.8，/tmp ext4，4 KB block）：

实际数据总量: 10240000 bytes  (10 MB)
磁盘占用: 40000 KB             (40 MB)
文件数量: 10000

10 MB 的数据占用了 40 MB 磁盘——4 倍放大。换成 1000 万个这样的文件，10 GB 数据就会吃掉 40 GB 磁盘。

三、元数据放大：inode、目录项与 extents

3.1 inode：每个文件的固定税

每个文件至少需要一个 inode。inode 存储文件的元数据：权限、时间戳、文件大小、数据块指针。在 ext4 上，每个 inode 占 256 字节（默认 inode_size）。一个 100 GB 的文件系统如果创建时使用了默认参数（inode_ratio = 16384，即每 16 KB 分配一个 inode），可以容纳约 625 万个 inode。

# 查看文件系统 inode 信息
tune2fs -l /dev/sda1 | grep -E "Inode count|Inode size"

# 输出示例：
# Inode count:              6553600
# Inode size:               256

1000 万个文件需要 1000 万个 inode，总 inode 开销 2.5 GB。如果文件系统的 inode 数量不够，即使数据块还有大量空闲空间，创建新文件也会失败（ENOSPC，但报错的原因是 No space left on device——这个错误信息在此场景下极具误导性）。

3.2 目录项（Directory Entry）

每个文件还需要在父目录中有一个目录项（dentry），记录文件名和对应的 inode 号。ext4 使用 HTree 索引目录，每个目录项占用的空间为：

ext4_dir_entry_2 结构（可变长度）：
  4 bytes: inode 号
  2 bytes: 条目总长度（rec_len）
  1 byte:  文件名长度
  1 byte:  文件类型
  N bytes: 文件名（\0 结尾，对齐到 4 字节边界）

一个名为 access_20250611_143052.log（28 字符）的文件，其目录项约占 40 字节。1000 万个文件意味着 400 MB 的目录项数据——而这些数据在目录遍历（ls、find、du）时都会被读入内存。

HTree 索引能加速单个文件的查找（open("access_20250611_143052.log") 是 O(log N)），但对全目录扫描（ls -l）没有帮助——全目录扫描仍然是 O(N)，而且 1000 万个目录项的 readdir() 需要数千次磁盘 I/O。

3.3 extents 与块位图的碎片化

每个文件还需要 extent 映射来记录哪些块属于它。ext4 的单个 extent 结构占 12 字节，能映射一段连续块。一个 1 KB 小文件通常只需要 1 个 extent（12 字节），但如果文件系统的空闲空间是碎片化的，文件数据分散在多个不连续的块中，extent 数量就会膨胀。

更隐蔽的是块位图（Block Bitmap）的开销：分配和释放块时都需要更新块位图。1000 万个小文件意味着至少 1000 万次块位图更新——每次更新都涉及一次位图块的读写，这些读写全部是 4 KB 随机 I/O。

3.4 各文件系统的元数据开销对比

开销项	ext4	XFS	Btrfs	ZFS
inode 大小	256 B 固定	256 B（可配至 512 B）	可变（内联在 leaf 中）	可变（dnode，最大 512 B）
inode 总数限制	创建时固定（inode_ratio）	动态分配	动态	动态
目录索引	HTree (B-tree)	B+tree	B-tree	ZAP（可扩展哈希）
小文件内联	不支持	不支持	支持（inline）	支持（embedded）
块分配位图	块位图（固定位置）	AG 内的 B+tree	extent allocation tree	space map

XFS 的动态 inode 分配意味着不会出现 ext4 的”数据空间够但 inode 不够”问题——但动态分配本身在 inode 数量极大时也会产生性能开销。XFS 为每个分配组（Allocation Group，AG）维护独立的 inode B+tree，如果 inode 数量极大而 AG 数量较少，单个 AG 的 B+tree 会变得很高，查找开销增加。

Btrfs 和 ZFS 对小文件的优势在于内联存储：文件数据直接嵌入 inode 所在的元数据块，读一个字节的小文件可能只需要读一个元数据块，而不是一个元数据块加一个数据块。

四、物理层的寻道惩罚

4.1 HDD：每次小文件读都是一次寻道

机械硬盘（HDD）处理小文件的开销不在数据量，而在磁头寻道（Seek）和盘片旋转延迟（Rotational Latency）。7200 RPM HDD 的平均寻道时间约 8 ms，旋转延迟约 4 ms，合计约 12 ms 的”固定成本”。

一次 4 KB 随机读的延迟：~12 ms（寻道+旋转）+ ~0.02 ms（数据传输）= ~12 ms。读取 1 个 10 MB 顺序大文件的延迟：~12 ms（首次寻道）+ ~50 ms（数据传输）= ~62 ms。

读 10000 个小文件 vs 1 个大文件（10 MB 数据总量，HDD）：

10000 个小文件（每个 1 KB）：
  10000 × 12 ms ≈ 120 秒（2 分钟）

1 个大文件（10 MB）：
  1 × 12 ms + 50 ms ≈ 62 毫秒

差距：~2000 倍

这不是理论推算——用 fio 可以直观验证。

4.2 SSD：没有寻道不代表没问题

SSD 没有机械寻道，但小文件仍然带来两个问题。

第一，读取放大。NAND Flash 的读取单位是页（Page），通常 4 KB 或 16 KB。读 1 KB 数据，SSD 控制器实际上从 NAND 读了一个完整的页（4 KB），然后只返回其中的 1 KB 给主机。就这次读而言，4 倍的读放大。

第二，syscall 开销成为瓶颈。当每次 I/O 操作的延迟从毫秒级（HDD）降到微秒级（NVMe SSD），应用程序和内核之间的上下文切换开销就浮出水面了。一次 open() + read() + close() 的系统调用成本在 2–5 μs 量级。1000 万个文件意味着 1000 万次系统调用——仅 syscall 开销就达到 20–50 秒。

NVMe SSD 上读 10000 个小文件 vs 1 个大文件：

10000 个小文件（4 KB random read, 单线程）：
  每个文件: open() + read() + close()
  syscall 开销: ~3 μs per syscall × 3 × 10000 ≈ 90 ms
  I/O 延迟: ~100 μs × 10000 = 1 s
  合计: ~1.1 s

1 个大文件（40 MB, sequential read）：
  syscall 开销: ~3 μs × 3 ≈ 9 μs
  I/O 延迟: ~40 MB / 3 GB/s ≈ 13 ms
  合计: ~13 ms

差距: ~85 倍（即使在 NVMe 上）

4.3 实测：用 fio 对比小文件和大文件 I/O

# HDD 环境：1 个大文件顺序读（基线）
fio --name=big-seq-read \
    --filename=/mnt/hdd/bigfile \
    --size=10G --bs=1M --rw=read --direct=1 \
    --ioengine=libaio --iodepth=1 --numjobs=1 \
    --runtime=30 --time_based --group_reporting

# HDD 环境：模拟小文件随机读
# 使用 filesetup 创建 10000 个 4KB 文件，随机选文件读 4KB
fio --name=small-rand-read \
    --directory=/mnt/hdd/smallfiles \
    --nrfiles=10000 --filesize=4k --rw=randread \
    --bs=4k --direct=1 --ioengine=libaio \
    --iodepth=1 --numjobs=1 --runtime=30 \
    --time_based --group_reporting --file_service_type=random

# 关注输出中的 IOPS 和带宽差异
# 大文件场景：高带宽（100+ MB/s），低 IOPS
# 小文件场景：低带宽（<5 MB/s），高 IOPS（受寻道限制）

关键指标不是总数据量，而是 IOPS 消耗。一个小文件读写场景可能 IOPS 已经打满，但带宽利用率和磁盘空间利用率都远未触及上限——这就是”磁盘还有 50% 空闲空间，但系统已经不可用”的典型特征。

五、应用层的增殖场景

小文件很少是刻意设计的产物。更多时候，它们是业务逻辑的副产品——某个模块把日志按分钟切分了，另一个模块把用户头像存成了独立文件，CDN 把瓦片地图拆成了 256×256 的网格。下面列出几种最常见的小文件增殖场景。

5.1 日志轮转

Logrotate 或应用自带的日志轮转机制，按小时或按大小切分日志文件。一个中等规模的 Web 服务，每天可能产生 24–96 个日志文件。一年下来 8000–35000 个文件。如果日志进一步被按服务、按容器拆分，每个容器每天产生几十个日志文件，文件数量会以”容器数 × 日志轮转数 × 天数”的速度增长。

单个日志文件可能 10–100 MB，不算小。但许多应用还生成辅助日志（访问日志、错误日志、慢查询日志、GC 日志），每个都可能被单独轮转。所有这些文件共享一个日志目录，而这个目录的 readdir() 成本随文件数量线性增长。

5.2 用户生成内容（UGC）

用户头像、附件缩略图、文档预览图——每个用户都可能产生几十个小文件。以典型的 SaaS 产品为例：

10 万用户 × 每个用户 20 个小文件（头像 + 缩略图 + 附件）= 200 万文件

这些文件通常 < 100 KB，磁盘占用约 200 GB（含 slack），
但元数据开销（inode + dentry + extent）额外增加约 5 GB。

如果文件系统是 ext4 且创建时使用了默认的 inode_ratio = 16384，200 万文件需要至少 32 GB 的”inode 配额”——在 200 GB 的分区上，这个配额可能不够（取决于创建时的参数选择）。

5.3 瓦片地图与静态资源

Web 地图应用的瓦片服务器（Tile Server）是小文件问题的经典受害者。一个全球地图的缩放级别 15，瓦片数量是 4^15 ≈ 10 亿个 256×256 像素的 PNG 图片，每个 1–20 KB。即使只覆盖中国大陆区域，也是数千万个文件。

把这么多文件放在传统文件系统上是灾难性的。MBTiles 格式（SQLite 数据库内存储瓦片）和 S3 对象存储是这一场景的标准解决方案。

5.4 容器镜像层

容器镜像由多层 tar 归档组成。每一层可能包含数千个小文件（系统配置文件、动态链接库、证书文件）。拉取镜像的过程本质上是下载 tar 归档并逐个文件解压的过程，小文件密度极高。

这就是为什么 docker pull 在某些存储驱动（如 overlay2）上比在其他驱动（如 devicemapper）上快得多——overlay2 的元数据操作更轻量，小文件创建的开销更低。

六、Benchmark 方法：分离元数据和数据 I/O

小文件场景的 benchmark 需要同时测量数据面和元数据面。只用 fio 测数据 I/O 会漏掉最贵的部分——open()、stat()、unlink() 这些元数据操作。

6.1 fio：数据 I/O 面

# 模拟 10000 个小文件的随机读写
# 每个文件 4KB，总共约 40MB 数据
fio --name=smallfile-test \
    --directory=/mnt/test/smallfiles \
    --nrfiles=10000 --filesize=4k \
    --rw=randrw --rwmixread=70 \
    --bs=4k --direct=1 --ioengine=libaio \
    --iodepth=32 --numjobs=4 \
    --runtime=60 --time_based \
    --group_reporting --file_service_type=random

# 关注：
#   IOPS —— 是否触碰了设备的 IOPS 上限
#   clat percentiles —— P99/P999 延迟是否出现长尾
#   BW —— 带宽可能极低（正常现象，因为块太小）

6.2 mdtest：元数据 I/O 面

mdtest 是专门测量文件系统元数据性能的工具，能单独测量 create、stat、remove 等元数据操作的速率：

# 安装 mdtest（通常包含在 ior 软件包中）
# apt-get install mdtest 或从源码编译

# 测试：创建 100 万个文件，测量元数据 ops
mpirun --allow-run-as-root -np 1 \
    mdtest -d /mnt/test/mdtest-dir -n 1000000 -i 3 -F

# 示意输出（数值随文件系统与磁盘变化）：
# File creation     :   45000 ops/sec
# File stat         :  120000 ops/sec
# File removal      :   38000 ops/sec
# Tree creation     :   82000 ops/sec
# Tree removal      :   55000 ops/sec

# 关注 create 和 stat 的 ops/sec
# 对比大文件场景：create 速率应该相似，但实际操作为空

mdtest 测的是纯粹的元数据操作速率——数据块几乎不参与 I/O（文件大小为零或接近零）。这个数字告诉你文件系统的元数据吞吐上限。当你的业务在这个指标上接近饱和时，无论磁盘还有多少带宽，系统都已经不可用了。

6.3 strace：测量系统调用开销

# 统计一个小文件读取场景的系统调用分布
strace -c -f python3 -c "
import os
for i in range(10000):
    fd = os.open(f'/mnt/test/smallfiles/file_{i}', os.O_RDONLY)
    data = os.read(fd, 4096)
    os.close(fd)
"

# 示意输出（截断，按路径 open 不含 readdir）：
# % time     seconds  usecs/call     calls    errors syscall
# ------ ----------- ----------- --------- --------- ----------------
#  72.10    1.234567         123     10000           openat
#  19.30    0.333333          33     10000           read
#   8.60    0.146789          14     10000           close

openat 通常占主导——开销在路径解析与权限检查，而非数据传输。这解释了为什么大文件场景的瓶颈在带宽，而小文件场景的瓶颈在 IOPS 和元数据操作。

七、补救方案：应用层聚合

小文件问题的根在应用层，所以最有效的补救也在应用层。文件系统层的调优（换文件系统、调 block size）只能缓解症状，不能根治。

7.1 打包 + 索引

把多个小文件合并成一个大文件，维护一个内存索引记录每个小文件在大文件中的偏移（offset）和长度（length）。这是磁带备份（tar）、容器镜像（OCI layers）、游戏资源包（WAD/PAK）和 CDN 瓦片存储（MBTiles）的共同模式。

打包文件结构示例：

+------------------+
| Header            |  ← 魔数、版本、文件总数
+------------------+
| Index Entry 0     |  ← 文件名哈希 + offset + length (12-24 B)
| Index Entry 1     |
| ...               |
| Index Entry N-1   |
+------------------+
| File Data 0       |  ← 原始文件内容
| File Data 1       |
| ...               |
| File Data N-1     |
+------------------+

读写接口：

import struct
import mmap
import hashlib
from dataclasses import dataclass
from typing import Optional


@dataclass
class IndexEntry:
    filename_hash: int  # 64-bit，用于查找
    offset: int         # 数据在包文件中的偏移
    length: int         # 数据长度


class FileBundle:
    """简单的小文件打包实现。仅用于演示原理。"""

    HEADER_FMT = ">4s Q"       # magic(4B) + file_count(8B)
    ENTRY_FMT = ">Q Q Q"       # hash(8B) + offset(8B) + length(8B)
    MAGIC = b"FB01"

    def __init__(self, path: str):
        self._path = path
        with open(path, "rb") as f:
            magic, file_count = struct.unpack(
                self.HEADER_FMT, f.read(12))
            if magic != self.MAGIC:
                raise ValueError("不是有效的 bundle 文件")

            self._index: dict[int, IndexEntry] = {}
            for _ in range(file_count):
                h, off, length = struct.unpack(
                    self.ENTRY_FMT, f.read(24))
                self._index[h] = IndexEntry(h, off, length)

    @staticmethod
    def _hash(filename: str) -> int:
        return int.from_bytes(
            hashlib.blake2b(
                filename.encode(), digest_size=8).digest(),
            byteorder="big")

    def read(self, filename: str) -> Optional[bytes]:
        h = self._hash(filename)
        entry = self._index.get(h)
        if entry is None:
            return None
        with open(self._path, "rb") as f:
            f.seek(entry.offset)
            return f.read(entry.length)

这种方案把 N 次 open() + read() + close() 压缩为 1 次 open() + 1 次索引查找 + 1 次 read()。索引可以在启动时一次性读入内存（假设 100 万个文件，索引约 24 MB），后续所有文件访问都不需要遍历目录。

7.2 嵌入式存储引擎

对于需要频繁更新的小数据场景，嵌入式键值存储（LMDB、RocksDB、SQLite）是比文件系统更好的选择。存储引擎把大量小键值对合并到有限的几个 SST 文件或 B-Tree 文件中，消除了 per-file 的系统调用和元数据开销。

Bitcask（Riak 的存储引擎）是一个极端例子：它在日志文件中按顺序追加写入，内存中维护一个全局哈希索引映射 key 到文件偏移。所有数据存在少量大文件中，文件系统上的文件数量与数据量无关。

文件系统 vs 嵌入式存储引擎（100 万条 1 KB 记录）：

文件系统方案：
  - 100 万个文件（每个 1 KB）
  - 100 万个 inode（~250 MB）
  - 100 万个目录项（~40 MB）
  - 磁盘占用（含 slack）：~4 GB

嵌入式引擎方案（以 LMDB 为例）：
  - 1 个数据文件（mmap 映射）
  - 1 个 inode
  - 内存中的 B+Tree 索引
  - 磁盘占用（含内部碎片）：~1.5 GB

这就是为什么几乎没有数据库选择”每个 key 存成一个文件”——哪怕是最简单的键值存储也会先做一个日志结构的合并层。

7.3 对象存储

S3 和兼容的对象存储（MinIO、GCS、Azure Blob）天然消除了文件系统的 inode 和目录树限制。对象存储用扁平的键空间替代了层级目录结构，元数据开销按对象数量线性增长而不是在单个目录上瓶颈。

但是：对象存储的每次 GET/PUT 是一次 HTTP 请求。对于一个 1 KB 的对象，请求延迟（通常 10–50 ms）是数据本身传输时间的数千倍。这意味着：

对象存储解决的是文件数量上限的问题，不是小文件的延迟问题。
如果业务需要毫秒级的小文件读取，仍然需要在对象存储前面加一层本地缓存（如 AlluxIO、MinIO 的网关缓存）。
对于归档类数据（一年读一次），对象存储是最理想的小文件归宿——文件数量没有上限，每对象的计费模式清晰，不需要维护本地文件系统的 inode 配额。

参考本站对象存储模型和 MinIO 架构与实现了解对象存储的底层设计。

八、不应该做的事

8.1 调小文件系统的 block size

一个常见的直觉是：“既然 slack space 是 block size 造成的，那把 block size 调小不就好了？”

ext4 的最低 block size 是 1024 字节。把 block size 从 4 KB 降到 1 KB：

优势：
  - slack space 减少：平均从 2 KB/file 降到 512 B/file
  - 1000 万文件可节省约 15 GB 空间

代价：
  - inode 体内直接存放的 extent 项仍有限（ext4 默认 4 项）；更大映射靠 extent tree，块变小后树深度可能增加
  - 单文件最大大小从 16 TB（4 KB 块）降到 4 TB（1 KB 块）
  - 块位图大小增加 4 倍——管理开销增大
  - 每次 I/O 的块数量增加 4 倍——文件系统层遍历变慢
  - 与页缓存（4 KB page）不对齐——每次 I/O 需要额外处理

对于大多数场景，调小 block size 的代价远超收益。真正该做的是不让小文件以独立文件的形式存在，而不是让文件系统的块变小。

8.2 禁用 atime

noatime 挂载选项确实能减少小文件场景下的元数据写操作（每次 read() 不再更新 atime），但这不是解决小文件问题的方案，只是一个普遍适用的优化。用 noatime 能减少几毫秒的延迟，但对 1000 万个文件的结构性开销无能为力。

8.3 换文件系统而应用层不改

从 ext4 换成 Btrfs 或 ZFS 确实能通过内联存储和内建校验和获得一些缓解——但这是边际改善，不是解决。如果一个应用把 1000 万个 1 KB 文件写到 Btrfs 上，Btrfs 仍然需要维护 1000 万个 inode、1000 万个目录项和 extent 映射。内联存储让每个文件省了 4 KB 的数据块，但每个文件的元数据开销（~200 字节）乘以 1000 万仍然是 2 GB。

九、选型决策框架

文件数量        每个文件大小     推荐方案
────────────────────────────────────────────────
< 1 万          > 1 MB         传统文件系统（ext4/XFS），问题不大
1 万–10 万      < 100 KB       考虑应用层打包或 SQLite
10 万–100 万    < 100 KB       应用层打包（LMDB/SQLite/tar)
> 100 万        任意            对象存储（S3/MinIO）或嵌入式引擎
> 1000 万       任意            对象存储（唯一选择）

这个框架不是绝对的——如果你的 100 万个文件永远是顺序访问、从不列举目录、不需要修改，传统文件系统也完全够用。关键是理解开销来源并做有意识的工程权衡，而不是等到文件系统不可用了才被动应对。

参考资料

Mathur, A., Cao, M., Bhattacharya, S., Dilger, A., Tomas, A., & Vivier, L. (2007). “The New Ext4 Filesystem: Current Status and Future Plans.” Proceedings of the Linux Symposium 2007. 描述了 ext4 的 inode 结构、extent 格式和块分配器设计。
Sweeney, A., Doucette, D., Hu, W., Anderson, C., Nishimoto, M., & Peck, G. (1996). “Scalability in the XFS File System.” Proceedings of the USENIX 1996 Annual Technical Conference. XFS 的 AG 设计和动态 inode 分配的最早文档。
Rodeh, O., Bacik, J., & Mason, C. (2013). “BTRFS: The Linux B-tree Filesystem.” ACM Transactions on Storage, 9(3). Btrfs 内联存储（inline extent）的机制说明。
Bonwick, J., & Ahrens, M. (2006). “The Zettabyte File System.” Proceedings of the 2nd International Workshop on Storage Security and Survivability. ZFS 的 dnode 结构和内联小文件机制。
Linux 内核源码：fs/ext4/ext4.h（inode 结构定义）、fs/ext4/namei.c（HTree 目录索引）、fs/xfs/libxfs/xfs_alloc.c（XFS 块分配器）、fs/btrfs/inode.c（Btrfs 内联存储路径）。
fio 文档：Filesetup 与 File Service Type。https://fio.readthedocs.io/
mdtest 文档：Metadata Benchmarking。https://github.com/hpc/ior

上一篇: 存储技术展望 下一篇: 磁盘空间耗尽：从 70% 到 ENOSPC 的行为退化链

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2025-08-27 · storage

存储工程系列导航

文章导航

目录