传统 Unix:要么是 root(全部权限),要么不是(受限)。Capabilities 把 root 的权限拆成 40+ 个独立能力。
一、先看图
flowchart TD
ROOT[传统 root<br/>全部权限] --> SPLIT[拆分为 capabilities]
SPLIT --> NET[CAP_NET_BIND_SERVICE<br/>绑定低端口]
SPLIT --> RAW[CAP_NET_RAW<br/>原始套接字]
SPLIT --> ADMIN[CAP_SYS_ADMIN<br/>杂项管理]
SPLIT --> KILL_C[CAP_KILL<br/>发送信号]
SPLIT --> CHOWN[CAP_CHOWN<br/>改变文件所有者]
classDef old fill:#f8514922,stroke:#f85149,color:#adbac7;
classDef cap fill:#3fb95022,stroke:#3fb950,color:#adbac7;
class ROOT old
class NET,RAW,ADMIN,KILL_C,CHOWN cap
二、Capability Sets
每个进程有 5 个 capability set:
| Set | 含义 |
|---|---|
| Permitted (P) | 允许拥有的上限 |
| Effective (E) | 当前生效的 |
| Inheritable (I) | execve 时可传递的 |
| Bounding | 限制 permitted 的天花板 |
| Ambient | execve 时自动传递(不需要 file caps) |
三、File Capabilities
# 给 ping 绑定 CAP_NET_RAW(代替 setuid)
setcap cap_net_raw=ep /usr/bin/ping
getcap /usr/bin/ping
# /usr/bin/ping cap_net_raw=ep存储在文件的
xattr(security.capability)中。
四、常用 Capabilities
| Capability | 用途 |
|---|---|
| CAP_NET_BIND_SERVICE | 绑定 < 1024 端口 |
| CAP_NET_RAW | 原始套接字(ping) |
| CAP_SYS_ADMIN | 杂项管理(mount 等) |
| CAP_SYS_PTRACE | ptrace 其他进程 |
| CAP_DAC_OVERRIDE | 忽略文件权限 |
| CAP_SETUID/CAP_SETGID | 切换 UID/GID |
| CAP_BPF | 加载 BPF 程序 |
| CAP_PERFMON | 使用 perf_event |
五、Ambient Capabilities
传统问题:非 root 用户 execve 后 capabilities 丢失。
Ambient set 解决:
prctl(PR_CAP_AMBIENT, PR_CAP_AMBIENT_RAISE, CAP_NET_BIND_SERVICE, 0, 0);
execve("/usr/bin/my_server", ...);
// my_server 自动获得 CAP_NET_BIND_SERVICE六、容器中的 Capabilities
Docker 默认 drop 大部分 capabilities:
docker run --cap-drop=ALL --cap-add=NET_BIND_SERVICE my_app容器安全的核心之一 → 即使 root 也只有有限能力。
七、CAP_SYS_ADMIN 的问题
CAP_SYS_ADMIN ≈ mini-root
太多操作被塞进 CAP_SYS_ADMIN → 实际上接近 root → 违背了 capabilities 的初衷。
趋势:逐步拆分(如 CAP_BPF、CAP_PERFMON、CAP_CHECKPOINT_RESTORE)。
八、No New Privileges
prctl(PR_SET_NO_NEW_PRIVS, 1, 0, 0, 0);一旦设置 → execve 不能获得新权限(忽略 setuid、file caps)→ seccomp 的前提。
九、观察
# 当前进程 capabilities
cat /proc/self/status | grep Cap
# CapInh CapPrm CapEff CapBnd CapAmb
# 解码
capsh --decode=00000000a80425fb
# 查看进程
getpcaps $$
# 文件 capabilities
getcap -r /usr/bin/ 2>/dev/null十、小结
- Capabilities 把 root 权限拆成 40+ 独立能力
- 5 个 capability set 控制权限的获取和传递
- File capabilities 替代 setuid
- Ambient capabilities 解决 execve 后丢失问题
- CAP_SYS_ADMIN 太大 → 逐步被拆分
参考文献
man 7 capabilitiesinclude/uapi/linux/capability.hsecurity/commoncap.c- Michael Kerrisk, “Capabilities.” LWN 2009
工具
capshsetcap/getcapgetpcaps
上一篇:/proc 与 /sys 下一篇:seccomp
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【操作系统百科】seccomp-bpf 与 Landlock
进程自限如何实现最小权限?seccomp strict mode、filter mode(BPF 过滤器)、user notify、Landlock 文件访问控制、syscall user dispatch——本文讲 Linux 的系统调用过滤。
【操作系统百科】内存回收
Linux 内存回收是 VM 最复杂的子系统之一。本文讲 active/inactive LRU、kswapd 与 direct reclaim、watermark 三线、swappiness 的真实含义、MGLRU 改造、memcg 回收与 PSI。
【操作系统百科】交换
swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。
【操作系统百科】Slab/SLUB 分配器
buddy 只管页粒度(4K+),内核大多数对象只有几十到几百字节。slab/SLUB 在 buddy 之上做对象级缓存。本文讲 slab 历史、SLUB 接手、SLOB 退场、kmem_cache、per-CPU cache、KASAN 集成。