containers 分类归档 | 土法炼钢兴趣小组的算法知识备份

【从零造容器】Cgroups v2：让容器不能吃掉整台机器

你给容器设了 512MB 内存限制，结果宿主机上的数据库被 OOM-kill 了。Cgroups 不是'加个限制'那么简单 — v1 的设计是个历史错误，v2 才是正确答案。本文用 C 代码从 mkdir 开始，手动创建 cgroup，设 CPU/内存/IO 限制，压测，看它怎么把进程关进笼子。

容器用 namespace 隔离，microVM 用硬件虚拟化。AWS Lambda 背后的 Firecracker 去掉了 BIOS、ACPI、PCI，只用 virtio-mmio，125ms 启动一个 VM。两种隔离模型到底差在哪？安全性差多少？开销差多少？

手把手用 Firecracker REST API 与 config-file 拉起 KVM microVM；实测 WSL2 启动时延，对比 unshare 容器隔离；附 Firecracker、gVisor、Kata、Cloud Hypervisor 选型表。

用 C 和 Go 从零实现一个 OCI 兼容的迷你容器运行时，逐篇拆解 Linux 内核的隔离机制。不是讲 Docker 怎么用，而是理解容器到底是什么。

容器不是魔法。它就是几个系统调用。本文用 C 从 clone() 开始，逐个开启 PID/UTS/Mount/IPC namespace，看隔离到底是怎么回事。50 行代码，你就拥有了一个'容器'的雏形。

上一篇我们用 clone() 隔离了 PID、主机名和挂载点，但那个'容器'连 lo 都 ping 不通。本文从 CLONE_NEWNET 出发，用 veth pair + bridge + iptables MASQUERADE，一步步给容器接上网。

chroot 不是安全边界——10 行 C 就能逃出去。本文用 pivot_root 构建真正隔离的容器根文件系统：从 Alpine minirootfs 到设备节点，从 mount propagation 到只读根，一步步把容器的'地基'打牢。

Docker 镜像为什么能分层？pull 一个 100MB 的镜像为什么只下载 3MB？答案是 OverlayFS 的 copy-on-write。本文手工构建分层镜像，实测 COW 的性能代价。

五篇文章攒了一堆内核积木：namespace、netns、rootfs、cgroup、overlayfs。现在是时候用 Go 把它们拼成一个能跑的容器运行时了。不到 500 行代码，create/start/exec/kill/delete，五个命令走完容器的一生。

我们的迷你容器运行时能跑了，但没人能用它——因为 containerd、Kubernetes 不认识它。OCI Runtime Spec 就是容器世界的通用语言。本文拆解规范的每个关键字段，把迷你运行时改造成 containerd 能调用的标准运行时。

你的容器能调用 reboot()。是的，现在就能。除非有人拦住它。Capabilities 拆分 root 权限，Seccomp-BPF 过滤系统调用——两道防线，缺一不可。本文用 C 代码拆解这两套机制，看看 Docker 到底替你挡住了什么。

容器运行时需要 root 权限？不一定。User namespace 让普通用户也能创建容器——容器内是 root，容器外是你自己。Podman 就是这么干的。但 rootless 不是免费午餐，限制比你想象的多。

容器网络为什么比裸机慢？veth + bridge 每个包经过两次 netfilter，macvlan 跳过了 bridge，Cilium 用 eBPF 替掉了 iptables。到底慢多少？我们用 iperf3、wrk 和自定义 echo server 实测。

我们的迷你运行时有 500 行，runc 有 15000 行。多出来的代码在干什么？本文拆解 runc 的核心流程：从 runc create 到容器 init 进程，libcontainer 的设计，nsenter 里那段神秘的 C 代码，以及 Go runtime fork 的天坑。