KVM 把 Linux 内核变成 hypervisor → 复用已有的调度器、内存管理、驱动 → 只添加必要的虚拟化支持。
一、先看图
flowchart TD
QEMU[QEMU<br/>用户态设备模型] -->|ioctl| KVM[/dev/kvm<br/>内核模块]
KVM --> HW[硬件<br/>VMX/SVM + EPT/NPT]
QEMU --> VHOST[vhost-net<br/>内核态网络]
QEMU --> VUSER[vhost-user<br/>用户态加速]
GUEST[Guest OS] --> VIRTIO[virtio 驱动]
VIRTIO --> VRING[vring<br/>共享内存队列]
VRING --> QEMU
classDef user fill:#3fb95022,stroke:#3fb950,color:#adbac7;
classDef kern fill:#388bfd22,stroke:#388bfd,color:#adbac7;
class QEMU,VUSER user
class KVM,HW,VHOST kern
class GUEST,VIRTIO,VRING user
二、/dev/kvm 接口
int kvm_fd = open("/dev/kvm", O_RDWR);
int vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, 0);
int vcpu_fd = ioctl(vm_fd, KVM_CREATE_VCPU, 0);
// 设置内存
struct kvm_userspace_memory_region mem = { ... };
ioctl(vm_fd, KVM_SET_USER_MEMORY_REGION, &mem);
// 运行
while (1) {
ioctl(vcpu_fd, KVM_RUN, 0);
switch (run->exit_reason) {
case KVM_EXIT_IO:
// 处理 I/O
case KVM_EXIT_MMIO:
// 处理 MMIO
}
}KVM 只负责 vCPU 执行和内存管理 → 设备模拟交给 QEMU。
三、QEMU 用户态
QEMU 提供:
- 设备模拟(磁盘、网卡、显卡、USB)
- 固件(SeaBIOS/OVMF)
- 串口、VNC/SPICE
qemu-system-x86_64 \
-enable-kvm \
-cpu host \
-m 4G \
-drive file=disk.qcow2,if=virtio \
-netdev user,id=net0 -device virtio-net-pci,netdev=net0四、virtio
半虚拟化 I/O 标准:
| 设备 | 用途 |
|---|---|
| virtio-blk | 块设备 |
| virtio-net | 网络 |
| virtio-scsi | SCSI |
| virtio-fs | 文件共享 |
| virtio-gpu | 图形 |
4.1 vring
Guest 写 descriptor → 通知 Host(doorbell)→ Host 处理 → 写 used ring → 通知 Guest
共享内存队列 → 减少数据拷贝。
五、vhost-net
网络数据路径在内核中完成 → 不经过 QEMU 用户态:
Guest virtio-net → vring → vhost-net(内核)→ tap 设备
减少用户态/内核态切换 → 网络性能大幅提升。
六、vhost-user
Guest virtio → vring → vhost-user 后端(DPDK/SPDK)
用户态进程直接访问 vring → 适合 DPDK 高性能网络。
七、eventfd / irqfd
// eventfd: QEMU 通知 KVM 注入中断
ioctl(vm_fd, KVM_IRQFD, &irqfd);
// ioeventfd: Guest I/O 通知 QEMU
ioctl(vm_fd, KVM_IOEVENTFD, &ioeventfd);基于 eventfd → 高效的异步通知 → 避免 VM-exit。
八、IOMMU / VFIO
# 设备直通
vfio-pci bind → Guest 直接访问硬件IOMMU 提供 DMA 隔离 → Guest 只能访问分配给它的内存。
九、机密计算集成
| 技术 | 厂商 | 保护 |
|---|---|---|
| SEV | AMD | 内存加密 |
| SEV-SNP | AMD | 内存完整性 |
| TDX | Intel | Trust Domain |
| CCA | ARM | Confidential Compute |
# SEV Guest
qemu-system-x86_64 -object sev-guest,id=sev0,cbitpos=47,reduced-phys-bits=1 \
-machine memory-encryption=sev0十、小结
- KVM = 内核模块 → 复用 Linux 调度器和内存管理
- QEMU = 用户态设备模型 → 通过 ioctl 控制 KVM
- virtio = 半虚拟化 I/O → vring 共享内存
- vhost-net/vhost-user 加速网络
- VFIO + IOMMU 实现设备直通
参考文献
arch/x86/kvm/Documentation/virt/kvm/api.rst- virtio specification (OASIS)
virt/kvm/vhost/
工具
qemu-system-x86_64virsh/dev/kvmvfio-pci
上一篇:虚拟化基础 下一篇:FreeBSD/OpenBSD
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【操作系统百科】内存回收
Linux 内存回收是 VM 最复杂的子系统之一。本文讲 active/inactive LRU、kswapd 与 direct reclaim、watermark 三线、swappiness 的真实含义、MGLRU 改造、memcg 回收与 PSI。
【操作系统百科】交换
swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。
【操作系统百科】Slab/SLUB 分配器
buddy 只管页粒度(4K+),内核大多数对象只有几十到几百字节。slab/SLUB 在 buddy 之上做对象级缓存。本文讲 slab 历史、SLUB 接手、SLOB 退场、kmem_cache、per-CPU cache、KASAN 集成。
【操作系统百科】用户态分配器
glibc malloc、tcmalloc、jemalloc、mimalloc 各有哲学。本文讲 arena、thread cache、size class、madvise 返还策略、碎片与 RSS 膨胀、如何根据负载选分配器。