bpftrace 标签归档 | 土法炼钢兴趣小组的算法知识备份

【可观测性工程】eBPF 可观测性全景：bcc、bpftrace、libbpf 的工程路径

2026-04-22 | architecture · observability | #ebpf #bcc #bpftrace #libbpf #co-re #btf #kprobe #uprobe #tracepoint #pixie #deepflow #observability #linux-kernel

eBPF 如何实现零侵入、内核级、低开销的可观测性：从 kprobe/uprobe/tracepoint/fentry 钩子机制，到 bcc 工具集、bpftrace 脚本语言、libbpf+CO-RE 可移植编程，再到 Pixie、DeepFlow、Grafana Beyla 等商业化工具，结合内核版本兼容性与生产部署实战。

【Linux 网络子系统深度拆解】网络丢包定位：从 drop_monitor 到 kfree_skb 追踪

2025-07-24 | linux · networking | #kernel #kfree_skb #drop_monitor #drop_reason #dropwatch #perf #bpftrace #packet-loss #tracepoint

从内核源码拆解 Linux 网络丢包追踪的完整体系：kfree_skb tracepoint 与 80+ 种 drop_reason 枚举、drop_monitor netlink 子系统、dropwatch 工具、perf 丢包记录、bpftrace 丢包聚合脚本，以及生产环境常见丢包点速查表。

【Linux 网络子系统深度拆解】内核网络追踪工具箱：bpftrace/perf/ftrace 实战

2025-07-23 | linux · networking | #kernel #bpftrace #perf #ftrace #tracepoint #kprobe #tcp_probe #kfree_skb #softirq #flame-graph

从内核 tracepoint 定义出发，系统讲解 bpftrace、perf、ftrace 三大工具在网络诊断中的实战用法：TCP 重传根因分析、softirq 延迟定位、收发包路径延迟剖析、conntrack 表满监控、per-function 火焰图，以及各工具的适用场景与性能开销对比。

【Linux 网络子系统深度拆解】eBPF 网络钩子全景：TC/XDP/socket/cgroup

2025-07-22 | linux · networking | #kernel #eBPF #TC-BPF #XDP #socket-ops #cgroup-BPF #sockmap #sk_msg #struct_ops #bpftrace

从内核源码全面拆解 eBPF 在网络子系统中的所有挂载点：TC BPF direct-action 模式与 bpf_mprog 多程序链、XDP 驱动级钩子回顾、socket ops 回调与 TCP 生命周期事件、cgroup BPF 策略控制、sk_msg/sk_skb 的 sockmap 重定向引擎、struct_ops 实现自定义拥塞控制，以及 bpftrace 可观测实战。

【Linux 网络子系统深度拆解】XDP 内核实现：在驱动层重编程网络栈

2025-07-21 | linux · networking | #kernel #XDP #eBPF #AF_XDP #xdp_buff #xdp_frame #devmap #cpumap #zero-copy #bpftrace

从内核源码拆解 XDP 的完整实现：xdp_buff 数据结构、驱动级钩子、五种动作路径、AF_XDP 零拷贝通道、devmap/cpumap/xskmap 重定向机制、多缓冲区支持，以及 bpftrace 可观测实战。

【Linux 网络子系统深度拆解】网络子系统内存管理：sk_buff 分配、page pool 与 NUMA

2025-07-20 | linux · networking | #kernel #memory #sk_buff #page_pool #NUMA #slab #socket #backpressure #bpftrace #truesize

从内核源码拆解网络子系统的内存管理全貌：sk_buff 分配路径与 slab 缓存、page_pool 页面回收机制、NUMA 感知分配策略、socket 内存记账与反压，以及 bpftrace 可观测实战。

【Linux 网络子系统深度拆解】多队列与流量分发：RSS/RPS/RFS/XPS

2026-04-27 | linux · networking | #rss #rps #rfs #xps #arfs #multiqueue #flow-steering #toeplitz #irq-affinity #numa #bpftrace

单队列网卡的时代早已过去，但多队列本身只是起点——如何把包分到正确的 CPU 上，才是性能的关键。本文从 Linux 6.6 内核源码拆解多队列网络的完整流量分发体系：RSS 硬件哈希与 Toeplitz 算法、RPS 软件多队列模拟与 get_rps_cpu() 路径、RFS 应用感知的 rps_sock_flow_table 机制、XPS 发送端 CPU/队列亲和、aRFS 硬件流表加速，以及 netdev_pick_tx() 发送队列选择逻辑。

【Linux 网络子系统深度拆解】隧道协议内核实现：VXLAN、IPIP、GRE 与 WireGuard

2026-04-26 | linux · networking | #vxlan #ipip #gre #wireguard #tunnel #overlay #ip-tunnel #metadata-dst #encapsulation #vtep #bpftrace

隧道是 overlay 网络的基础设施。本文从 Linux 6.6 内核源码拆解四类隧道协议的实现：ip_tunnel 通用框架与 struct ip_tunnel_key 元数据、IPIP 最小开销封装、GRE 可选头部与 ERSPAN 集成、VXLAN 的 UDP 封装路径与 FDB 转发表、metadata mode 流式隧道与 OVS/Cilium 集成、WireGuard 的 Noise 协议与加密路由模型，以及各协议的封装开销与硬件卸载能力对比。

【Linux 网络子系统深度拆解】虚拟网络设备内核实现：veth、bridge 与 macvlan

2026-04-25 | linux · networking | #veth #bridge #macvlan #ipvlan #tun #tap #virtual-device #fdb #stp #container-networking #bpftrace

容器网络不能没有虚拟设备。本文从 Linux 6.6 内核源码拆解四类核心虚拟网络设备的实现：veth pair 的 veth_xmit 零拷贝转发与 XDP native 模式、Linux bridge 的 br_handle_frame 转发路径与 FDB 学习/老化机制、macvlan 五种模式的内核实现差异、tun/tap 的内核态与用户态数据交换路径，以及各类设备的性能特征对比。

【Linux 网络子系统深度拆解】网络命名空间：内核级网络隔离的实现

2026-04-24 | linux · networking | #netns #network-namespace #struct-net #container-networking #veth #nsproxy #pernet-operations #isolation #bpftrace

容器网络的一切隔离能力，都建立在网络命名空间之上。本文从 Linux 6.6 内核源码拆解 struct net 的完整布局、possible_net_t 与 RCU 访问模式、pernet_operations 子系统注册与生命周期回调、copy_net_ns() 命名空间创建路径、per-netns 路由表/netfilter/socket 隔离机制，以及 veth pair 跨命名空间数据转发的 skb->dev 切换原理。

【Linux 网络子系统深度拆解】Traffic Control 深度拆解：qdisc、class 与 filter

2026-04-23 | linux · networking | #tc #qdisc #traffic-control #htb #fq-codel #tbf #edt #pacing #tc-bpf #multiqueue #bpftrace

dev_queue_xmit() 不是直接把包交给网卡——中间还有一层 Traffic Control。本文从 Linux 6.6 内核源码拆解 TC 框架的完整实现：struct Qdisc 与 Qdisc_ops 操作表、pfifo_fast/fq_codel/HTB/TBF 的内核实现差异、TCQ_F_CAN_BYPASS 快路径、TCQ_F_NOLOCK 无锁排队、EDT（Earliest Departure Time）调度模型、TC BPF direct-action 模式，以及 MQ 多队列根 qdisc 与 netdev_queue 的关系。

【Linux 网络子系统深度拆解】Netfilter 内核实现：钩子、conntrack 与 NAT

2026-04-22 | linux · networking | #netfilter #conntrack #nat #iptables #nftables #nf-hook #nf-conn #snat #dnat #bpftrace

iptables/nftables 只是用户态前端——真正拦截每一个网络包的是内核中的 Netfilter 框架。本文从 Linux 6.6 内核源码拆解 Netfilter 的三大核心：nf_hook_entries 钩子链的注册与遍历、nf_conn 连接跟踪的双向元组哈希表与 GC 机制、NAT 的 SNAT/DNAT 转换路径；以及 nf_tables 相比 iptables 的关键架构升级——generation-based 无锁更新和 blob 化规则存储。

【Linux 网络子系统深度拆解】路由子系统深度拆解：FIB、策略路由与路由缓存

2026-04-21 | linux · networking | #routing #fib #lc-trie #policy-routing #ecmp #nexthop #dst-entry #rtable #fnhe #fib6 #bpftrace

IP 包到了 ip_rcv_finish()，下一跳怎么选？本文深入拆解 Linux 路由子系统的完整实现：fib_table 的 LC-trie 数据结构、fib_info/fib_nh 的内存布局、fib_rules 策略路由链、ECMP 多路径哈希选路、nexthop 对象 API、FNHE 异常缓存（路由缓存的替代品）、dst_entry 与 rtable 的关系、IPv6 fib6 差异，以及 bpftrace 追踪路由决策的实战方法。

【Linux 网络子系统深度拆解】邻居子系统与 ARP：L2 地址解析的内核实现

2026-04-20 | linux · networking | #neighbor #arp #linux-kernel #ndp #nud-state #neigh-table #proxy-arp #gc #l2-resolution #bpftrace

IP 层知道下一跳是 10.0.0.1，但网卡发帧需要 MAC 地址。ARP 解析只是表面——底层是邻居子系统（neighbour subsystem）的完整状态机：NUD_INCOMPLETE → NUD_REACHABLE → NUD_STALE → NUD_DELAY → NUD_PROBE → NUD_FAILED。本文从 Linux 6.6 内核源码拆解 struct neighbour、neigh_table 双哈希表、ARP 请求/响应处理、NDP（IPv6）、Proxy ARP、GC 回收机制，以及 neigh_connected_output 快路径的 L2 头缓存优化。

【Linux 网络子系统深度拆解】Socket 层内核实现：从 VFS 到协议栈的桥梁

2026-04-20 | linux · networking | #socket #linux-kernel #vfs #proto-ops #reuseport #epoll #sock-alloc #inet-create #bpftrace

你调用 socket(AF_INET, SOCK_STREAM, 0) 创建一个 TCP 连接，底层发生了什么？内核分配了两个核心对象——VFS 层的 struct socket 和协议层的 struct sock，通过 proto_ops 和 proto 两张分发表，把文件系统语义的 read/write 翻译成协议语义的 tcp_sendmsg/tcp_recvmsg。本文从 Linux 6.6 内核源码拆解 socket 创建、双层分发、SO_REUSEPORT 多核分发、epoll 集成的完整实现。

【Linux 网络子系统深度拆解】UDP 内核实现与 socket lookup 优化

2026-04-20 | linux · networking | #udp #linux-kernel #socket-lookup #reuseport #udp-gro #recvmmsg #early-demux #encapsulation #bpftrace

UDP 简单？在内核中它一点都不简单。双哈希表 socket 查找、SO_REUSEPORT 多核分发、Early Demux 路由缓存、UDP GRO 聚合、reader_queue 无锁读、forward allocation 内存管理、UDP 封装（ESP/L2TP/VXLAN）——本文从 Linux 6.6 内核源码拆解 UDP 的每一个优化细节。

【Linux 网络子系统深度拆解】TCP 内核实现（下）：数据传输与拥塞控制

2026-04-20 | linux · networking | #tcp #linux-kernel #congestion-control #tcp-sendmsg #tcp-write-xmit #tsq #pacing #rack-tlp #cubic #bbr #bpftrace

tcp_sendmsg 把用户数据拷到 sk_buff 就完事了？远没有。后面还有 Nagle 合并、TSQ 限流、cwnd/rwnd 双窗口门控、RACK-TLP 丢包检测、拥塞状态机五态跳转、sk_pacing_rate 软件限速。本文从 Linux 6.6 内核源码拆解 TCP 数据传输的完整路径——从 send() 到 ACK 处理——以及拥塞控制框架 tcp_congestion_ops 的可插拔架构。

【Linux 网络子系统深度拆解】TCP 内核实现（上）：连接管理与状态机

2026-04-20 | linux · networking | #tcp #linux-kernel #syn-queue #accept-queue #request-sock #tcp-fast-open #syn-cookie #time-wait #tcp-state-machine #bpftrace

TCP 连接在内核中不只是一个状态机——它是一组精心设计的数据结构和队列。本文从 Linux 6.6 内核源码出发，拆解 TCP 连接建立的 SYN Queue / Accept Queue 二级队列模型、request_sock 半连接对象、tcp_sock 全连接对象、SYN Cookie 无状态防御、TCP Fast Open 零 RTT 机制、inet_timewait_sock 轻量级 TIME_WAIT 实现，以及完整的 TCP 状态机在内核中的真实转换路径。

【Linux 网络子系统深度拆解】IP 层内核实现：路由查找、分片与转发

2026-04-20 | linux · networking | #ip-layer #linux-kernel #fib #routing #lc-trie #ip-fragment #netfilter #pmtu #ecmp #bpftrace

IP 层是 Linux 网络栈的中枢——收包时决定本地投递还是转发，发包时查路由、过 Netfilter、做分片。本文从 Linux 6.6 内核源码出发，拆解 ip_rcv → 路由决策 → ip_local_deliver / ip_forward 的完整路径，深入 FIB 表的 LC-trie 实现、策略路由 ip rule 选表机制、IP 分片/重组状态机、PMTU 发现与 FNHE 缓存，以及 Netfilter 五个钩子点的实际调用时机。

【Linux 网络子系统深度拆解】软中断与 ksoftirqd：网络包处理的调度引擎

2026-04-20 | linux · networking | #softirq #ksoftirqd #net_rx_action #net_tx_action #threaded-napi #preempt-rt #bpftrace #linux-kernel #network-stack

网络包到达网卡后，真正消耗 CPU 的处理全部发生在软中断上下文。本文从 Linux 6.6 内核源码出发，拆解 softirq 10 向量优先级体系、__do_softirq() 主循环与 MAX_SOFTIRQ_RESTART 放弃策略、ksoftirqd 调度时机、Threaded NAPI 替代方案，以及 CONFIG_PREEMPT_RT 下的行为变化。最后用 bpftrace/perf 实测软中断延迟和 time_squeeze 饥饿。

【Linux 网络子系统深度拆解】发包路径全解：从 send() 到网线

2026-04-20 | linux · networking | #tx-path #linux-kernel #tcp-sendmsg #qdisc #gso #tso #dev_queue_xmit #ndo_start_xmit #bql #bpftrace

一个用户态 send() 调用要走过 TCP 分段、IP 路由、Netfilter 钩子、Qdisc 排队、GSO 分段、驱动 DMA 映射六个阶段才能把数据送上网线。本文从 Linux 6.6 内核源码出发，逐函数拆解完整的 TX 发包路径，深入 TSQ 限流、Qdisc 调度、BQL 防膨胀、GSO/TSO 分段决策等核心机制。

【Linux 网络子系统深度拆解】收包路径全解：从 NIC 中断到 socket 接收队列

2026-04-20 | linux · networking | #rx-path #linux-kernel #napi #gro #netif_receive_skb #ip_rcv #tcp_v4_rcv #softirq #bpftrace #network-stack

一个网络包从网卡 DMA 到用户态 recvmsg()，要走过硬中断、NAPI 轮询、GRO 聚合、协议分发、IP 路由、Netfilter 钩子、TCP/UDP 处理、socket 队列八个阶段。本文从 Linux 6.6 内核源码出发，逐函数拆解完整的 RX 收包路径，量化每一跳的 CPU 开销，并用 bpftrace 实测各阶段延迟分布。

【Linux 网络子系统深度拆解】sk_buff 全解：内核网络包的终极容器

2026-04-20 | linux · networking | #sk_buff #linux-kernel #network-stack #skb_shared_info #page-pool #bpftrace #zero-copy #NAPI

sk_buff 是 Linux 内核网络栈的通用货币——每一个收到或发出的网络包，都必须装在这个容器里走完全程。本文从 Linux 6.6 内核源码出发，拆解 sk_buff 的内存布局、四大指针操作、clone 与 copy 的代价差异、skb_shared_info 的 fragment 机制，并用 bpftrace 实测 sk_buff 分配热点和生命周期。

【操作系统百科】调度延迟分析：是不是调度器的锅？

2026-04-19 | os | #sched-latency #runqlat #perf-sched #bpftrace #psi #throttle

用户抱怨「慢」时第一问题：是 CPU 本身跑得慢，还是调度器让你等？本文讲 runq latency、wakeup latency、block time 三线拆分；perf sched、bpftrace runqlat、schedviz 工具链；生产案例：CFS quota throttle、NUMA 迁移、PSI 告警。

【存储工程】I/O 性能分析工具链

2025-10-13 | storage | #io-analysis #iostat #blktrace #bcc #bpftrace #ftrace #perf #biosnoop #performance-debugging

系统梳理 Linux I/O 性能分析工具——iostat、blktrace、BCC/bpftrace、ftrace、perf 的使用方法，以及 I/O 瓶颈排查流程与常见问题模式

【网络工程】BPF 网络诊断：bpftrace 与 bcc 工具实战

2025-08-15 | network | #ebpf #bpf #bpftrace #bcc #diagnostics #linux

系统讲解 eBPF 在网络诊断中的工程应用：bcc 工具集（tcplife/tcpretrans/tcpdrop）的使用场景、bpftrace 自定义网络探针编写、XDP 丢包分析、内核协议栈延迟追踪，建立基于 eBPF 的系统化网络诊断方法。

【io_uring 系列】事件驱动代码的调试艺术：当回调成为迷宫

2026-03-14 | linux · io_uring · epoll · debugging | #linux #io_uring #epoll #debugging #bpftrace #perf #gdb #rr #sanitizer #observability #opentelemetry #profiling

一份面向线上事故的事件驱动代码排障手册：从症状收敛、strace/eBPF/perf 逐层下钻，到 OpenTelemetry 集成与 Sanitizer 离线复盘。

【Kubernetes 网络深度系列】Linux 网络栈全景：一个包从网卡到用户态的完整旅程

2026-04-03 | linux · networking | #linux-kernel #network-stack #sk_buff #NAPI #netfilter #bpftrace #softirq #RPS #XPS #irqbalance #perf

从 NIC 驱动到用户态 read()，一个网络包在 Linux 内核中到底经历了什么？本文拆解 sk_buff、NAPI、softirq、netfilter 的完整收包路径，并用 bpftrace 实测追踪每一跳的延迟。

【eBPF 系列】eBPF 追踪实战：用 bpftrace 在生产环境找到那个慢请求

2026-04-10 | linux | #ebpf #bpftrace #kprobe #uprobe #tracepoint #off-cpu #latency #observability #performance

你的 P99 延迟突然飙到 500ms，但平均值只有 3ms。日志里什么都没有，Prometheus 图表一片祥和。bpftrace 一行命令，30 秒定位问题。这篇文章告诉你怎么做到的。

【eBPF 系列】eBPF 性能分析工具链：perf → BCC → bpftrace → Parca 的演化

2027-02-10 | linux · ebpf · profiling | #ebpf #profiling #perf #bpftrace #bcc #parca #flame-graph #off-cpu

你有火焰图，但它只能告诉你 CPU 在忙什么——CPU 不忙的时候呢？从 perf 到 Parca，Linux 性能分析工具链走过了 15 年，是时候搞清楚每个工具的真正定位了。