土法炼钢兴趣小组的算法知识备份

【操作系统百科】KVM 架构

文章导航

分类入口
os
标签入口
#kvm#qemu#vhost#virtio#iommu

目录

KVM 把 Linux 内核变成 hypervisor → 复用已有的调度器、内存管理、驱动 → 只添加必要的虚拟化支持。

一、先看图

flowchart TD
    QEMU[QEMU<br/>用户态设备模型] -->|ioctl| KVM[/dev/kvm<br/>内核模块]
    KVM --> HW[硬件<br/>VMX/SVM + EPT/NPT]
    QEMU --> VHOST[vhost-net<br/>内核态网络]
    QEMU --> VUSER[vhost-user<br/>用户态加速]

    GUEST[Guest OS] --> VIRTIO[virtio 驱动]
    VIRTIO --> VRING[vring<br/>共享内存队列]
    VRING --> QEMU

    classDef user fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    classDef kern fill:#388bfd22,stroke:#388bfd,color:#adbac7;
    class QEMU,VUSER user
    class KVM,HW,VHOST kern
    class GUEST,VIRTIO,VRING user

二、/dev/kvm 接口

int kvm_fd = open("/dev/kvm", O_RDWR);
int vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, 0);
int vcpu_fd = ioctl(vm_fd, KVM_CREATE_VCPU, 0);

// 设置内存
struct kvm_userspace_memory_region mem = { ... };
ioctl(vm_fd, KVM_SET_USER_MEMORY_REGION, &mem);

// 运行
while (1) {
    ioctl(vcpu_fd, KVM_RUN, 0);
    switch (run->exit_reason) {
    case KVM_EXIT_IO:
        // 处理 I/O
    case KVM_EXIT_MMIO:
        // 处理 MMIO
    }
}

KVM 只负责 vCPU 执行和内存管理 → 设备模拟交给 QEMU。

三、QEMU 用户态

QEMU 提供:

qemu-system-x86_64 \
    -enable-kvm \
    -cpu host \
    -m 4G \
    -drive file=disk.qcow2,if=virtio \
    -netdev user,id=net0 -device virtio-net-pci,netdev=net0

四、virtio

半虚拟化 I/O 标准:

设备 用途
virtio-blk 块设备
virtio-net 网络
virtio-scsi SCSI
virtio-fs 文件共享
virtio-gpu 图形

4.1 vring

Guest 写 descriptor → 通知 Host(doorbell)→ Host 处理 → 写 used ring → 通知 Guest

共享内存队列 → 减少数据拷贝。

五、vhost-net

网络数据路径在内核中完成 → 不经过 QEMU 用户态:

Guest virtio-net → vring → vhost-net(内核)→ tap 设备

减少用户态/内核态切换 → 网络性能大幅提升。

六、vhost-user

Guest virtio → vring → vhost-user 后端(DPDK/SPDK)

用户态进程直接访问 vring → 适合 DPDK 高性能网络。

七、eventfd / irqfd

// eventfd: QEMU 通知 KVM 注入中断
ioctl(vm_fd, KVM_IRQFD, &irqfd);

// ioeventfd: Guest I/O 通知 QEMU
ioctl(vm_fd, KVM_IOEVENTFD, &ioeventfd);

基于 eventfd → 高效的异步通知 → 避免 VM-exit。

八、IOMMU / VFIO

# 设备直通
vfio-pci bind → Guest 直接访问硬件

IOMMU 提供 DMA 隔离 → Guest 只能访问分配给它的内存。

九、机密计算集成

技术 厂商 保护
SEV AMD 内存加密
SEV-SNP AMD 内存完整性
TDX Intel Trust Domain
CCA ARM Confidential Compute
# SEV Guest
qemu-system-x86_64 -object sev-guest,id=sev0,cbitpos=47,reduced-phys-bits=1 \
    -machine memory-encryption=sev0

十、小结


参考文献

工具


上一篇虚拟化基础 下一篇FreeBSD/OpenBSD

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-05-06 · os

【操作系统百科】内核内存调试

内核内存 bug 是最难追的:UAF、OOB、double free、leak 都可能沉默数月。本文讲 KASAN 三种模式、KFENCE 生产采样、kmemleak、SLUB_DEBUG、UBSAN/KCSAN 联动。

2026-05-08 · os

【操作系统百科】VFS 四层抽象

Linux 的一切皆文件靠 VFS 实现——superblock、inode、dentry、file 四层抽象加 ops 表。本文讲 VFS 核心数据结构、dcache、inode cache、RCU lookup,以及文件系统如何插入 VFS。

2026-04-22 · os

操作系统百科

Linux 6.x 视角下的操作系统系列索引:110 篇覆盖调度、虚拟内存、文件系统与 I/O、并发、隔离、可观测性,按主题、阅读路径与关键问题三种入口组织。

2026-05-27 · os

【操作系统百科】用户态分配器:jemalloc vs tcmalloc

jemalloc 与 tcmalloc 都想解决多线程分配器的老问题:锁争抢、碎片、RSS 膨胀与回收抖动。但两者把优化重点放在了不同位置:tcmalloc 更激进地把热路径推到 per-CPU,jemalloc 则把 arena、extent、decay 和 profiling 做成了一套更完整的内存治理工具箱。


By .