linux-kernel 标签归档 | 土法炼钢兴趣小组的算法知识备份

io_uring 在生产环境翻车实录：内核 bug、资源泄漏和你不知道的限制

2027-02-25 | linux · io_uring · high-performance | #io_uring #linux-kernel #sqpoll #production #debugging #kernel-bug #memory-leak

SQPOLL 烧 CPU、fixed buffer 内存泄漏、CQE overflow 丢事件、内核版本兼容性噩梦——io_uring 在生产中踩过的坑，逐个拆解。

【WireGuard】内核代码路径：从 wg_xmit 到加解密 worker

2026-07-19 | network · kernel | #wireguard #linux-kernel #allowedips #netlink #noise #datapath #linux-6.6

基于 Linux 6.6 drivers/net/wireguard：wg_xmit 与 AllowedIPs trie、noise 握手入口、encrypt/decrypt worker、messages.h 常量与 netlink 配置面。与 network/89 全景文互补。

EEVDF 调度器：Linux 6.6 为什么换掉了 CFS

2026-06-29 | linux · os | #eevdf #cfs #scheduler #linux-kernel #vruntime #latency #base-slice

Linux 6.6 用 EEVDF 取代了 CFS 的 SCHED_NORMAL 选取逻辑。从 1995 年原始论文的 lag、eligibility、virtual deadline，到 commit 147f3ef 只重写 placement/pick/preempt，再到本机内核 6.6 上读 sched/debug 把每个任务的 vruntime、eligible 标志、deadline 一一对上 vd=ve+r/w，外加 nice 带宽与 base_slice 抢占两组实测，讲清换的是哪一块、延迟敏感任务凭什么先跑。

Linux 异步 I/O：epoll 与 io_uring 对比

2026-06-21 | linux · io_uring · performance | #epoll #io_uring #liburing #async-io #c #linux-kernel

从就绪通知到完成通知：梳理 epoll 与 io_uring 的架构差异、系统调用开销、适用场景，并附最小可运行 C 示例与示意图。

【eBPF 内核实现深度拆解】BPF 指令集解码：寄存器机器、调用约定与指令编码

2026-06-12 | kernel · ebpf | #ebpf #bpf-isa #bpf-insn #registers #calling-convention #bytecode #linux-kernel

从 eBPF 虚拟机的 11 个 64-bit 寄存器和 struct bpf_insn 出发，逐条拆解 ALU64/ALU32、跳转、加载存储、call 四类指令的字段语义与编码格式，建立后续 verifier 和 JIT 讨论的精确基础。

【eBPF 内核实现深度拆解】验证器框架：从 BPF_PROG_LOAD 到 do_check()

2026-06-12 | kernel · ebpf | #ebpf #bpf-verifier #do_check #bpf_prog_load #check_cfg #control-flow-graph #linux-kernel

跟踪 BPF_PROG_LOAD 系统调用的内核执行路径，逐层拆解 bpf_prog_load()→bpf_check()→do_check_main() 的调用链，建立 verifier 执行全景——这是理解 verifier 安全保证的入口。

【eBPF 内核实现深度拆解】JIT 编译器后端：x86-64 与 ARM64 的 BPF→Native 翻译管线

2026-06-12 | kernel · ebpf | #ebpf #bpf-jit #x86-64 #arm64 #jit-compiler #bpf_prog #linux-kernel

从 bpf_jit_compile() 入口出发，拆解 BPF 字节码到 x86-64/ARM64 本地指令的翻译过程——寄存器映射策略、ALU 指令的 one-to-one/many-to-one 翻译、尾调用与 call 的本地实现、JIT 镜像的 kallsyms 集成，以及 JIT 与 interpreter 的性能边界。

【eBPF 内核实现深度拆解】Map 内核实现（上）：hash / array / per-CPU 的数据结构与并发模型

2026-06-12 | kernel · ebpf | #ebpf #bpf-maps #hash-map #array-map #per-cpu #rcu #spinlock #linux-kernel

从 bpf_map_ops 虚函数表出发，逐层拆解 BPF_MAP_TYPE_HASH、BPF_MAP_TYPE_ARRAY、per-CPU 变体的内核实现——htab 的 bucket 链表与 prealloc、bpf_array 的零拷贝共享、per-CPU 分配器的无锁语义。

【eBPF 内核实现深度拆解】Map 内核实现（下）：ringbuf / perfbuf / bloom / queue-stack / LPM

2026-06-12 | kernel · ebpf | #ebpf #bpf-maps #ringbuf #bloom-filter #lpm-trie #devmap #perf-event #linux-kernel

拆解性能关键的 ring buffer（mmap 双缓冲与 record 提交语义）、perf event array（perf_event_output 路径）、bloom filter（N_HASH 位图）、queue/stack（链式辅助结构）、LPM trie（前缀树），以及 devmap/cpumap 等重定向 map。

【eBPF 内核实现深度拆解】Helper 函数子系统：注册、类型检查与参数传递

2026-06-12 | kernel · ebpf | #ebpf #bpf-helpers #bpf-verifier #bpf_func_proto #arg-type #linux-kernel

从 bpf_func_proto 结构体出发，讲解 helper 函数的注册机制（BPF_CALL_n 宏链）、参数类型编码（ARG_PTR_TO_MAP_KEY 等枚举）、返回值策略，以及 verifier 在 check_helper_call() 中对每个参数的类型与边界检查。

【eBPF 内核实现深度拆解】程序生命周期：load、attach、detach、pin 与引用计数

2026-06-12 | kernel · ebpf | #ebpf #bpf-prog #lifecycle #refcount #bpf-link #bpffs #linux-kernel

完整跟踪一个 BPF 程序从加载到销毁的全生命周期——aux->refcnt 引用计数模型、BPF_PROG_LOAD 验证与 JIT 之后发生了什么、各种 attach 类型的差异、bpffs 持久化与 FD 泄露的坑。

【eBPF 内核实现深度拆解】BTF 格式规范与内核类型系统

2026-06-12 | kernel · ebpf | #ebpf #btf #type-system #co-re #pahole #btf_dedup #func-info #line-info #linux-kernel

从 BTF 的二进制编码格式（btf_header + type entries + string table）出发，讲清 BTF 如何编码基本类型、结构体、联合体、函数原型与 typedef——BTF.ext 节的 func_info/line_info 记录，以及内核 pahole 的 BTF 生成与去重算法 btf_dedup。

【eBPF 内核实现深度拆解】CO-RE 重定位引擎：libbpf 的运行时指令修补

2026-06-12 | kernel · ebpf | #ebpf #co-re #relocation #btf #libbpf #preserve_access_index #clang #bpf_core_read #linux-kernel

从 clang 内置函数 __builtin_preserve_access_index 出发，追踪 BPF_CORE_READ 等宏如何生成 BTF.ext CO-RE 重定位记录，再到 libbpf 加载时 bpf_core_apply_relo() 根据目标内核 BTF 计算正确字段偏移量并修补 BPF 指令——可移植 BPF 的核心引擎。

【eBPF 内核实现深度拆解】BPF 程序调试与测试：verifier log、bpftool、test runner 与内核自测

2026-06-12 | kernel · ebpf | #ebpf #debugging #verifier-log #bpftool #selftests #test_progs #bpf_printk #production #linux-kernel

从 verifier log 的级别控制（log_level 1/2/自选寄存器）出发，覆盖 bpftool prog dump xlated/jited 的反汇编、bpftool map dump 运行时检查、bpftool btf 类型查阅、BPF selftests 结构与编写，以及生产环境下的 BPF 排障方法论。

【eBPF 内核实现深度拆解】蹦床（Trampoline）与 fentry / fexit：零开销内核追踪

2026-06-12 | kernel · ebpf | #ebpf #fentry #fexit #trampoline #bpf_trampoline #kprobe #struct_ops #fentry-fexit #linux-kernel

fentry/fexit 通过 BPF 蹦床机制在目标函数的 nop 位置直接替换为 call 指令进入 BPF，避免了 kprobe 的 int3 中断开销。本文拆解 bpf_trampoline 内核实现、arch_prepare_bpf_trampoline 的架构相关栈帧构造、struct_ops 与蹦床的协作——以及蹦床在什么条件下开销并不为零。

【eBPF 内核实现深度拆解】BPF 并发模型：spinlock、RCU 与 per-CPU 模式

2026-06-12 | kernel · ebpf | #ebpf #concurrency #spinlock #rcu #percpu #bpf_atomic #smp #linux-kernel

BPF 程序在内核上下文中并发执行——同一程序可能在多个 CPU 同时运行。本文讲清 BPF 环境下的内存模型（BPF_ATOMIC 指令的语义）、bpf_spin_lock 的实现限制、RCU 保护的 map 读取、per-CPU map 的免锁读写，以及中断上下文与进程上下文的执行语义差异。

【eBPF 内核实现深度拆解】eBPF 安全模型：capabilities、非特权 BPF 与 Spectre 缓解

2026-06-12 | kernel · ebpf | #ebpf #security #capabilities #unprivileged-bpf #spectre #bpf_lsm #hardening #linux-kernel

BPF 程序在内核态执行——安全不只是 verifier 的事。本文讲清 CAP_BPF 与 CAP_SYS_ADMIN 的权限梯度、unprivileged BPF 的历史沿革与现状、Spectre v2 的 bpf_jit_harden 缓解（常数盲化与 retpoline）、Spectre v4 的 speculation_barrier、以及 BPF_LSM 的安全策略可编程性。

【eBPF 内核实现深度拆解】sched_ext 深度：用 BPF 写内核调度器

2026-06-12 | kernel · ebpf | #ebpf #sched-ext #scheduler #scx #struct_ops #dsq #scx_layered #scx_rustland #linux-kernel

从 struct sched_ext_ops 的 10+ 回调语义出发，拆解 select_cpu/enqueue/dispatch/tick 等核心回调、scx_bpf_dispatch/scx_bpf_kick_cpu 等 kfunc 的内核实现、ext 调度类与 CFS/EEVDF 的共存策略（SCX_OPS_SWITCH_PARTIAL），以及 scx_layered 和 scx_rustland 的用户态调度器参考实现。

【eBPF 内核实现深度拆解】非 Linux eBPF：Windows eBPF 平台、ubpf 与 rbpf 用户态运行时

2026-06-12 | kernel · ebpf | #ebpf #windows-ebpf #ubpf #rbpf #bpf-isa #ietf #cross-platform #linux-kernel

eBPF 不只是 Linux 的技术——Windows eBPF (ebpf-for-windows) 如何把 BPF 字节码挂载到 Windows 内核的 NetBufferList 和 System Call、ubpf 的用户态 VM 实现（JIT 与解释器双模）、rbpf 的 Rust 生态、以及 IETF BPF ISA 标准化草案的进展。

【eBPF 内核实现深度拆解】实战：构建微型 eBPF 可观测 Agent

2026-06-12 | kernel · ebpf | #ebpf #libbpf #co-re #ring-buffer #map-pinning #verifier #agent #linux-kernel

把 01--17 的知识串成一条实践线——从 libbpf skeleton 写第一个 BPF 程序、加载到内核、用 ring buffer 回传事件、用 CO-RE 实现跨内核版本兼容、map pinning 实现热升级、配上半自动化的 verifier 错误排障流程——构建一个麻雀虽小五脏俱全的 eBPF 可观测 Agent。

【eBPF 内核实现深度拆解】从验证器到 JIT，从 BTF 到调度器

2026-06-12 | kernel · ebpf | #ebpf #bpf-verifier #bpf-jit #btf #co-re #libbpf #xdp #bpf-maps #sched-ext #fentry #trampoline #linux-kernel

eBPF 内核虚拟机内部实现系统讲解：BPF 指令集与寄存器机器、验证器的抽象解释与状态裁剪、JIT 编译器后端、Map 各类型的并发与内存模型、helper 函数注册与类型检查、BTF 格式规范与 CO-RE 重定位引擎、libbpf 加载器工程、fentry/fexit 蹦床机制、sched_ext 调度器内核接口。面向想读懂 eBPF 内核源码、写生产级 BPF 程序的系统工程师。

操作系统百科

2026-04-22 | os | #operating-system #linux-kernel #scheduling #virtual-memory #filesystem #index

Linux 6.x 视角下的操作系统系列索引：110 篇覆盖调度、虚拟内存、文件系统与 I/O、并发、隔离、可观测性，按主题、阅读路径与关键问题三种入口组织。

操作系统百科

2026-04-17 | os | #operating-system #linux-kernel #index #series #encyclopedia

110 篇长文，从操作系统的基础抽象到调度、虚拟内存、文件系统、并发、安全、前沿方向。以 Linux 6.x 主线为实现参照，辅以 FreeBSD、XNU、Windows NT、实时 OS 的对照。

【可观测性工程】eBPF 可观测性全景：bcc、bpftrace、libbpf 的工程路径

2026-04-22 | architecture · observability | #ebpf #bcc #bpftrace #libbpf #co-re #btf #kprobe #uprobe #tracepoint #pixie #deepflow #observability #linux-kernel

eBPF 如何实现零侵入、内核级、低开销的可观测性：从 kprobe/uprobe/tracepoint/fentry 钩子机制，到 bcc 工具集、bpftrace 脚本语言、libbpf+CO-RE 可移植编程，再到 Pixie、DeepFlow、Grafana Beyla 等商业化工具，结合内核版本兼容性与生产部署实战。

【Linux 网络子系统深度拆解】邻居子系统与 ARP：L2 地址解析的内核实现

2026-04-20 | linux · networking | #neighbor #arp #linux-kernel #ndp #nud-state #neigh-table #proxy-arp #gc #l2-resolution #bpftrace

IP 层知道下一跳是 10.0.0.1，但网卡发帧需要 MAC 地址。ARP 解析只是表面——底层是邻居子系统（neighbour subsystem）的完整状态机：NUD_INCOMPLETE → NUD_REACHABLE → NUD_STALE → NUD_DELAY → NUD_PROBE → NUD_FAILED。本文从 Linux 6.6 内核源码拆解 struct neighbour、neigh_table 双哈希表、ARP 请求/响应处理、NDP（IPv6）、Proxy ARP、GC 回收机制，以及 neigh_connected_output 快路径的 L2 头缓存优化。

【Linux 网络子系统深度拆解】Socket 层内核实现：从 VFS 到协议栈的桥梁

2026-04-20 | linux · networking | #socket #linux-kernel #vfs #proto-ops #reuseport #epoll #sock-alloc #inet-create #bpftrace

你调用 socket(AF_INET, SOCK_STREAM, 0) 创建一个 TCP 连接，底层发生了什么？内核分配了两个核心对象——VFS 层的 struct socket 和协议层的 struct sock，通过 proto_ops 和 proto 两张分发表，把文件系统语义的 read/write 翻译成协议语义的 tcp_sendmsg/tcp_recvmsg。本文从 Linux 6.6 内核源码拆解 socket 创建、双层分发、SO_REUSEPORT 多核分发、epoll 集成的完整实现。

【Linux 网络子系统深度拆解】UDP 内核实现与 socket lookup 优化

2026-04-20 | linux · networking | #udp #linux-kernel #socket-lookup #reuseport #udp-gro #recvmmsg #early-demux #encapsulation #bpftrace

UDP 简单？在内核中它一点都不简单。双哈希表 socket 查找、SO_REUSEPORT 多核分发、Early Demux 路由缓存、UDP GRO 聚合、reader_queue 无锁读、forward allocation 内存管理、UDP 封装（ESP/L2TP/VXLAN）——本文从 Linux 6.6 内核源码拆解 UDP 的每一个优化细节。

【Linux 网络子系统深度拆解】TCP 内核实现（下）：数据传输与拥塞控制

2026-04-20 | linux · networking | #tcp #linux-kernel #congestion-control #tcp-sendmsg #tcp-write-xmit #tsq #pacing #rack-tlp #cubic #bbr #bpftrace

tcp_sendmsg 把用户数据拷到 sk_buff 就完事了？远没有。后面还有 Nagle 合并、TSQ 限流、cwnd/rwnd 双窗口门控、RACK-TLP 丢包检测、拥塞状态机五态跳转、sk_pacing_rate 软件限速。本文从 Linux 6.6 内核源码拆解 TCP 数据传输的完整路径——从 send() 到 ACK 处理——以及拥塞控制框架 tcp_congestion_ops 的可插拔架构。

【Linux 网络子系统深度拆解】TCP 内核实现（上）：连接管理与状态机

2026-04-20 | linux · networking | #tcp #linux-kernel #syn-queue #accept-queue #request-sock #tcp-fast-open #syn-cookie #time-wait #tcp-state-machine #bpftrace

TCP 连接在内核中不只是一个状态机——它是一组精心设计的数据结构和队列。本文从 Linux 6.6 内核源码出发，拆解 TCP 连接建立的 SYN Queue / Accept Queue 二级队列模型、request_sock 半连接对象、tcp_sock 全连接对象、SYN Cookie 无状态防御、TCP Fast Open 零 RTT 机制、inet_timewait_sock 轻量级 TIME_WAIT 实现，以及完整的 TCP 状态机在内核中的真实转换路径。

【Linux 网络子系统深度拆解】IP 层内核实现：路由查找、分片与转发

2026-04-20 | linux · networking | #ip-layer #linux-kernel #fib #routing #lc-trie #ip-fragment #netfilter #pmtu #ecmp #bpftrace

IP 层是 Linux 网络栈的中枢——收包时决定本地投递还是转发，发包时查路由、过 Netfilter、做分片。本文从 Linux 6.6 内核源码出发，拆解 ip_rcv → 路由决策 → ip_local_deliver / ip_forward 的完整路径，深入 FIB 表的 LC-trie 实现、策略路由 ip rule 选表机制、IP 分片/重组状态机、PMTU 发现与 FNHE 缓存，以及 Netfilter 五个钩子点的实际调用时机。

【Linux 网络子系统深度拆解】软中断与 ksoftirqd：网络包处理的调度引擎

2026-04-20 | linux · networking | #softirq #ksoftirqd #net_rx_action #net_tx_action #threaded-napi #preempt-rt #bpftrace #linux-kernel #network-stack

网络包到达网卡后，真正消耗 CPU 的处理全部发生在软中断上下文。本文从 Linux 6.6 内核源码出发，拆解 softirq 10 向量优先级体系、__do_softirq() 主循环与 MAX_SOFTIRQ_RESTART 放弃策略、ksoftirqd 调度时机、Threaded NAPI 替代方案，以及 CONFIG_PREEMPT_RT 下的行为变化。最后用 bpftrace/perf 实测软中断延迟和 time_squeeze 饥饿。

【Linux 网络子系统深度拆解】发包路径全解：从 send() 到网线

2026-04-20 | linux · networking | #tx-path #linux-kernel #tcp-sendmsg #qdisc #gso #tso #dev_queue_xmit #ndo_start_xmit #bql #bpftrace

一个用户态 send() 调用要走过 TCP 分段、IP 路由、Netfilter 钩子、Qdisc 排队、GSO 分段、驱动 DMA 映射六个阶段才能把数据送上网线。本文从 Linux 6.6 内核源码出发，逐函数拆解完整的 TX 发包路径，深入 TSQ 限流、Qdisc 调度、BQL 防膨胀、GSO/TSO 分段决策等核心机制。

【Linux 网络子系统深度拆解】收包路径全解：从 NIC 中断到 socket 接收队列

2026-04-20 | linux · networking | #rx-path #linux-kernel #napi #gro #netif_receive_skb #ip_rcv #tcp_v4_rcv #softirq #bpftrace #network-stack

一个网络包从网卡 DMA 到用户态 recvmsg()，要走过硬中断、NAPI 轮询、GRO 聚合、协议分发、IP 路由、Netfilter 钩子、TCP/UDP 处理、socket 队列八个阶段。本文从 Linux 6.6 内核源码出发，逐函数拆解完整的 RX 收包路径，量化每一跳的 CPU 开销，并用 bpftrace 实测各阶段延迟分布。

【Linux 网络子系统深度拆解】net_device 与网卡驱动模型：从硬件到内核的接口契约

2026-04-20 | linux · networking | #net_device #linux-kernel #napi #nic-driver #ring-buffer #dma #multi-queue #network-stack

net_device 是 Linux 内核中一切网络设备的抽象——物理网卡、虚拟 veth、隧道设备都实现同一套接口。本文从 Linux 6.6 源码出发，拆解 net_device 的结构体布局、net_device_ops 驱动操作表、NAPI 轮询模型、多队列架构、DMA ring buffer 与中断机制。

【Linux 网络子系统深度拆解】sk_buff 全解：内核网络包的终极容器

2026-04-20 | linux · networking | #sk_buff #linux-kernel #network-stack #skb_shared_info #page-pool #bpftrace #zero-copy #NAPI

sk_buff 是 Linux 内核网络栈的通用货币——每一个收到或发出的网络包，都必须装在这个容器里走完全程。本文从 Linux 6.6 内核源码出发，拆解 sk_buff 的内存布局、四大指针操作、clone 与 copy 的代价差异、skb_shared_info 的 fragment 机制，并用 bpftrace 实测 sk_buff 分配热点和生命周期。

Linux 网络子系统深度拆解

2026-04-20 | linux · networking | #linux-kernel #network-stack #sk_buff #netfilter #tcp #routing #ebpf #xdp

从 sk_buff 到 XDP，从收包路径到 TC 框架——系统拆解 Linux 内核网络子系统的每一个核心模块。基于 Linux 6.6 LTS 源码，配合 bpftrace/perf 实测追踪。

【网络工程】epoll 深度剖析：ET/LT 模式、源码分析与性能特征

2025-07-22 | network | #epoll #edge-trigger #level-trigger #linux-kernel #high-performance

epoll 是 Linux 高性能网络编程的基石。本文深入剖析 epoll 的内核数据结构（红黑树与就绪链表）、ET 和 LT 两种触发模式的行为差异与编程范式、惊群问题及 EPOLLEXCLUSIVE 的解决方案。

【网络工程】零拷贝网络：sendfile、splice 与 MSG_ZEROCOPY

2025-07-23 | network | #zero-copy #sendfile #splice #msg-zerocopy #linux-kernel #performance

数据从磁盘到网卡的传统路径涉及 4 次拷贝和多次上下文切换。本文系统剖析 sendfile、splice、vmsplice、MSG_ZEROCOPY 四种零拷贝技术的内核实现、适用场景与性能差异，并以 Kafka 和 Nginx 为案例分析零拷贝在生产系统中的工程实践。

伙伴系统与 SLUB 分配器：Linux 物理内存管理的两层架构

2026-04-06 | algorithms | #buddy-system #slub #slab #kmalloc #linux-kernel #memory-management #physical-memory #page-allocator

你调用 kmalloc(64, GFP_KERNEL)，内核在 3 微秒内给了你 64 字节。背后是两层精密的机械：伙伴系统管理物理页面，SLUB 把页面切碎成小对象。这两层如何配合？各自解决了什么问题？

文件系统的树：从 ext4 extent tree 到 btrfs CoW B-tree

2025-07-15 | algorithms | #filesystem #ext4 #btrfs #xfs #zfs #f2fs #b-tree #extent-tree #cow #linux-kernel

你的 ext4 文件系统上有一个 1TB 的数据库文件。内核如何在 O(log n) 时间内找到文件偏移量 847,293,510,144 对应的物理磁盘块？答案藏在 extent tree 里。本文逐一拆解 ext4、XFS、btrfs、ZFS、F2FS 五种文件系统的树形结构设计。

RCU：Linux 内核的读侧零开销并发

2026-04-15 | algorithms | #rcu #linux-kernel #concurrent #memory-reclamation #read-copy-update

Linux 内核如何在并发数据结构中实现读侧零开销？RCU 用一种违反直觉的方式回答了这个问题：让读者永远不等待，让写者承担一切代价。

红黑树 vs AVL：Linux 内核为什么选红黑树

2025-07-15 | algorithms | #red-black-tree #avl-tree #linux-kernel #balanced-bst #cfs #2-3-4-tree #llrb

AVL 树的平衡更严格、查找更快，为什么 Linux 内核、Java TreeMap、C++ std::map 全都选了红黑树？这个问题的答案不在教科书里——它藏在旋转次数的精确分析和 cache line 的物理约束中。

进程调度：从 CFS 到 EEVDF 的哲学演变

2025-07-15 | algorithms | #scheduler #cfs #eevdf #linux-kernel #red-black-tree #real-time

你把 nice 值设成了 -20，然后发现延迟反而更高了。你用 cgroup 限了 CPU，然后发现交互式 shell 卡成幻灯片。调度器不是'谁优先级高谁先跑'这么简单——它是操作系统中最复杂的博弈论。

I/O 调度：CFQ → mq-deadline → BFQ → kyber

2025-07-15 | algorithms | #io-scheduler #cfq #bfq #kyber #nvme #blk-mq #linux-kernel

你把数据库从 HDD 迁移到了 NVMe SSD，IOPS 涨了 100 倍——然后你发现 I/O 调度器还在用 CFQ，它正在用复杂的算法把你的 NVMe 搞慢。NVMe 时代，最好的调度器可能是'不调度'。

epoll 的数据结构：红黑树、就绪队列与回调机制

2026-04-06 | algorithms | #epoll #linux-kernel #io-multiplexing #red-black-tree #event-driven #network-programming #systems-programming

Nginx 用一个进程处理 10 万个并发连接，核心就是 epoll。但 epoll 的 O(1) 性能不是魔法——它用红黑树存储监控集合，用链表收集就绪事件，用回调避免轮询。三个数据结构各司其职，精妙得像一台钟表。

定时器算法：时间轮、最小堆与层级时间轮

2026-04-06 | algorithms | #timer #timing-wheel #min-heap #hrtimer #linux-kernel #netty #kafka #tcp

一台繁忙的 Nginx 服务器上有 100 万个活跃连接，每个连接都有 keepalive 超时定时器。如果用最小堆管理这些定时器，每次新连接到来都要 O(log n) 插入——100 万个定时器意味着 20 次比较。时间轮用 O(1) 解决了这个问题。

【从零造容器】Linux Namespaces：用 50 行 C 隔离一个进程

2026-04-01 | linux · containers | #namespace #clone #container #pid #uts #mount #ipc #linux-kernel #isolation

容器不是魔法。它就是几个系统调用。本文用 C 从 clone() 开始，逐个开启 PID/UTS/Mount/IPC namespace，看隔离到底是怎么回事。50 行代码，你就拥有了一个'容器'的雏形。

【从零造容器】Network Namespace：给你的进程接上虚拟网线

2026-04-01 | linux · containers | #namespace #network #veth #bridge #iptables #nat #netns #docker0 #clone #container #linux-kernel

上一篇我们用 clone() 隔离了 PID、主机名和挂载点，但那个'容器'连 lo 都 ping 不通。本文从 CLONE_NEWNET 出发，用 veth pair + bridge + iptables MASQUERADE，一步步给容器接上网。

【从零造容器】Mount Namespace 与 pivot_root：构建容器文件系统

2026-04-02 | linux · containers | #pivot_root #chroot #mount-namespace #rootfs #alpine #mount-propagation #container #linux-kernel #filesystem #security

chroot 不是安全边界——10 行 C 就能逃出去。本文用 pivot_root 构建真正隔离的容器根文件系统：从 Alpine minirootfs 到设备节点，从 mount propagation 到只读根，一步步把容器的'地基'打牢。

【从零造容器】Cgroups v2：让容器不能吃掉整台机器

2026-04-03 | linux · containers | #cgroups #cgroupv2 #cpu #memory #oom #io #container #resource-limits #linux-kernel #cfs

你给容器设了 512MB 内存限制，结果宿主机上的数据库被 OOM-kill 了。Cgroups 不是'加个限制'那么简单 — v1 的设计是个历史错误，v2 才是正确答案。本文用 C 代码从 mkdir 开始，手动创建 cgroup，设 CPU/内存/IO 限制，压测，看它怎么把进程关进笼子。

【从零造容器】Seccomp-BPF 与 Capabilities：容器安全的两道防线

2026-04-08 | linux · containers · security | #seccomp #bpf #capabilities #security #container #syscall #linux-kernel #cap_sys_admin #docker #defense-in-depth

你的容器能调用 reboot()。是的，现在就能。除非有人拦住它。Capabilities 拆分 root 权限，Seccomp-BPF 过滤系统调用——两道防线，缺一不可。本文用 C 代码拆解这两套机制，看看 Docker 到底替你挡住了什么。

【Kubernetes 网络深度系列】Linux 网络栈全景：一个包从网卡到用户态的完整旅程

2026-04-03 | linux · networking | #linux-kernel #network-stack #sk_buff #NAPI #netfilter #bpftrace #softirq #RPS #XPS #irqbalance #perf

从 NIC 驱动到用户态 read()，一个网络包在 Linux 内核中到底经历了什么？本文拆解 sk_buff、NAPI、softirq、netfilter 的完整收包路径，并用 bpftrace 实测追踪每一跳的延迟。

【Kubernetes 网络深度系列】Netfilter 与 iptables：Linux 防火墙的灵魂

2026-04-03 | linux · networking | #netfilter #iptables #nftables #conntrack #SNAT #DNAT #firewall #linux-kernel

Netfilter 五个 hook 点、四表五链的真实遍历顺序、conntrack 状态机与性能开销、SNAT/DNAT/MASQUERADE 辨析，再到 nftables 替代方案和 eBPF 数据面——从内核视角拆解 Linux 防火墙。

【eBPF 系列】eBPF：Linux 内核的隐藏武器

2025-01-22 | linux | #ebpf #xdp #kprobe #tracepoint #linux-kernel #networking #observability

eBPF 让你在内核里插代码而不用写内核模块。听起来很美，但验证器的限制、Map 的性能陷阱、BTF 的兼容性噩梦，这些他们不会在教程里告诉你。

【eBPF 系列】eBPF 安全监控：不改内核也能审计 syscall

2026-05-10 | linux · security · ebpf | #ebpf #lsm #seccomp #falco #tetragon #syscall #security #container-security #runtime-security #linux-kernel

Seccomp 只能说 yes or no，但攻击者早就学会了在 yes 里面做文章。是时候让 eBPF 接管安全审计了。

【eBPF 系列】XDP：在网卡驱动层就把包丢掉

2026-04-25 | linux · networking · ebpf | #xdp #ebpf #dpdk #ddos #firewall #smartnic #network-performance #linux-kernel

当 DDoS 洪水来袭，iptables 在协议栈里挣扎，而 XDP 在网卡驱动层就把垃圾包丢了。不进协议栈、不分配 skb、不走 netfilter——这才是丢包该有的样子。

io_uring vs epoll：不是你以为的那样

2025-01-30 | io_uring | #io_uring #epoll #benchmark #networking #linux-kernel #event-loop

io_uring 一定比 epoll 快？跑五个场景的实测数据告诉你：某些情况下 epoll 还是赢的。用数据打自己的脸。