土法炼钢兴趣小组的算法知识备份

【操作系统百科】POSIX capabilities

文章导航

分类入口
os
标签入口
#capabilities#cap-set#ambient#setuid#least-privilege

目录

传统 Unix:要么是 root(全部权限),要么不是(受限)。Capabilities 把 root 的权限拆成 40+ 个独立能力。

一、先看图

flowchart TD
    ROOT[传统 root<br/>全部权限] --> SPLIT[拆分为 capabilities]
    SPLIT --> NET[CAP_NET_BIND_SERVICE<br/>绑定低端口]
    SPLIT --> RAW[CAP_NET_RAW<br/>原始套接字]
    SPLIT --> ADMIN[CAP_SYS_ADMIN<br/>杂项管理]
    SPLIT --> KILL_C[CAP_KILL<br/>发送信号]
    SPLIT --> CHOWN[CAP_CHOWN<br/>改变文件所有者]

    classDef old fill:#f8514922,stroke:#f85149,color:#adbac7;
    classDef cap fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    class ROOT old
    class NET,RAW,ADMIN,KILL_C,CHOWN cap

二、Capability Sets

每个进程有 5 个 capability set:

Set 含义
Permitted (P) 允许拥有的上限
Effective (E) 当前生效的
Inheritable (I) execve 时可传递的
Bounding 限制 permitted 的天花板
Ambient execve 时自动传递(不需要 file caps)

三、File Capabilities

# 给 ping 绑定 CAP_NET_RAW(代替 setuid)
setcap cap_net_raw=ep /usr/bin/ping
getcap /usr/bin/ping
# /usr/bin/ping cap_net_raw=ep

存储在文件的 xattr(security.capability)中。

四、常用 Capabilities

Capability 用途
CAP_NET_BIND_SERVICE 绑定 < 1024 端口
CAP_NET_RAW 原始套接字(ping)
CAP_SYS_ADMIN 杂项管理(mount 等)
CAP_SYS_PTRACE ptrace 其他进程
CAP_DAC_OVERRIDE 忽略文件权限
CAP_SETUID/CAP_SETGID 切换 UID/GID
CAP_BPF 加载 BPF 程序
CAP_PERFMON 使用 perf_event

五、Ambient Capabilities

传统问题:非 root 用户 execve 后 capabilities 丢失。

Ambient set 解决:

prctl(PR_CAP_AMBIENT, PR_CAP_AMBIENT_RAISE, CAP_NET_BIND_SERVICE, 0, 0);
execve("/usr/bin/my_server", ...);
// my_server 自动获得 CAP_NET_BIND_SERVICE

六、容器中的 Capabilities

Docker 默认 drop 大部分 capabilities:

docker run --cap-drop=ALL --cap-add=NET_BIND_SERVICE my_app

容器安全的核心之一 → 即使 root 也只有有限能力。

七、CAP_SYS_ADMIN 的问题

CAP_SYS_ADMIN ≈ mini-root

太多操作被塞进 CAP_SYS_ADMIN → 实际上接近 root → 违背了 capabilities 的初衷。

趋势:逐步拆分(如 CAP_BPF、CAP_PERFMON、CAP_CHECKPOINT_RESTORE)。

八、No New Privileges

prctl(PR_SET_NO_NEW_PRIVS, 1, 0, 0, 0);

一旦设置 → execve 不能获得新权限(忽略 setuid、file caps)→ seccomp 的前提。

九、观察

# 当前进程 capabilities
cat /proc/self/status | grep Cap
# CapInh CapPrm CapEff CapBnd CapAmb

# 解码
capsh --decode=00000000a80425fb

# 查看进程
getpcaps $$

# 文件 capabilities
getcap -r /usr/bin/ 2>/dev/null

十、小结


参考文献

工具


上一篇/proc 与 /sys 下一篇seccomp

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-06-26 · os

【操作系统百科】seccomp-bpf 与 Landlock

进程自限如何实现最小权限?seccomp strict mode、filter mode(BPF 过滤器)、user notify、Landlock 文件访问控制、syscall user dispatch——本文讲 Linux 的系统调用过滤。

2026-04-27 · os

【操作系统百科】内存回收

Linux 内存回收是 VM 最复杂的子系统之一。本文讲 active/inactive LRU、kswapd 与 direct reclaim、watermark 三线、swappiness 的真实含义、MGLRU 改造、memcg 回收与 PSI。

2026-04-28 · os

【操作系统百科】交换

swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。

2026-05-03 · os

【操作系统百科】Slab/SLUB 分配器

buddy 只管页粒度(4K+),内核大多数对象只有几十到几百字节。slab/SLUB 在 buddy 之上做对象级缓存。本文讲 slab 历史、SLUB 接手、SLOB 退场、kmem_cache、per-CPU cache、KASAN 集成。


By .