土法炼钢兴趣小组的算法知识备份

【操作系统百科】KVM 架构

文章导航

分类入口
os
标签入口
#kvm#qemu#vhost#virtio#iommu

目录

KVM 把 Linux 内核变成 hypervisor → 复用已有的调度器、内存管理、驱动 → 只添加必要的虚拟化支持。

一、先看图

flowchart TD
    QEMU[QEMU<br/>用户态设备模型] -->|ioctl| KVM[/dev/kvm<br/>内核模块]
    KVM --> HW[硬件<br/>VMX/SVM + EPT/NPT]
    QEMU --> VHOST[vhost-net<br/>内核态网络]
    QEMU --> VUSER[vhost-user<br/>用户态加速]

    GUEST[Guest OS] --> VIRTIO[virtio 驱动]
    VIRTIO --> VRING[vring<br/>共享内存队列]
    VRING --> QEMU

    classDef user fill:#3fb95022,stroke:#3fb950,color:#adbac7;
    classDef kern fill:#388bfd22,stroke:#388bfd,color:#adbac7;
    class QEMU,VUSER user
    class KVM,HW,VHOST kern
    class GUEST,VIRTIO,VRING user

二、/dev/kvm 接口

int kvm_fd = open("/dev/kvm", O_RDWR);
int vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, 0);
int vcpu_fd = ioctl(vm_fd, KVM_CREATE_VCPU, 0);

// 设置内存
struct kvm_userspace_memory_region mem = { ... };
ioctl(vm_fd, KVM_SET_USER_MEMORY_REGION, &mem);

// 运行
while (1) {
    ioctl(vcpu_fd, KVM_RUN, 0);
    switch (run->exit_reason) {
    case KVM_EXIT_IO:
        // 处理 I/O
    case KVM_EXIT_MMIO:
        // 处理 MMIO
    }
}

KVM 只负责 vCPU 执行和内存管理 → 设备模拟交给 QEMU。

三、QEMU 用户态

QEMU 提供:

qemu-system-x86_64 \
    -enable-kvm \
    -cpu host \
    -m 4G \
    -drive file=disk.qcow2,if=virtio \
    -netdev user,id=net0 -device virtio-net-pci,netdev=net0

四、virtio

半虚拟化 I/O 标准:

设备 用途
virtio-blk 块设备
virtio-net 网络
virtio-scsi SCSI
virtio-fs 文件共享
virtio-gpu 图形

4.1 vring

Guest 写 descriptor → 通知 Host(doorbell)→ Host 处理 → 写 used ring → 通知 Guest

共享内存队列 → 减少数据拷贝。

五、vhost-net

网络数据路径在内核中完成 → 不经过 QEMU 用户态:

Guest virtio-net → vring → vhost-net(内核)→ tap 设备

减少用户态/内核态切换 → 网络性能大幅提升。

六、vhost-user

Guest virtio → vring → vhost-user 后端(DPDK/SPDK)

用户态进程直接访问 vring → 适合 DPDK 高性能网络。

七、eventfd / irqfd

// eventfd: QEMU 通知 KVM 注入中断
ioctl(vm_fd, KVM_IRQFD, &irqfd);

// ioeventfd: Guest I/O 通知 QEMU
ioctl(vm_fd, KVM_IOEVENTFD, &ioeventfd);

基于 eventfd → 高效的异步通知 → 避免 VM-exit。

八、IOMMU / VFIO

# 设备直通
vfio-pci bind → Guest 直接访问硬件

IOMMU 提供 DMA 隔离 → Guest 只能访问分配给它的内存。

九、机密计算集成

技术 厂商 保护
SEV AMD 内存加密
SEV-SNP AMD 内存完整性
TDX Intel Trust Domain
CCA ARM Confidential Compute
# SEV Guest
qemu-system-x86_64 -object sev-guest,id=sev0,cbitpos=47,reduced-phys-bits=1 \
    -machine memory-encryption=sev0

十、小结


参考文献

工具


上一篇虚拟化基础 下一篇FreeBSD/OpenBSD

同主题继续阅读

把当前热点继续串成多页阅读,而不是停在单篇消费。

2026-04-27 · os

【操作系统百科】内存回收

Linux 内存回收是 VM 最复杂的子系统之一。本文讲 active/inactive LRU、kswapd 与 direct reclaim、watermark 三线、swappiness 的真实含义、MGLRU 改造、memcg 回收与 PSI。

2026-04-28 · os

【操作系统百科】交换

swap 还值得开吗?本文讲 swap area 基础、swap cache、zram 压缩内存、zswap 前端压缩池、swappiness 的真实含义、容器里的 swap 策略,以及为什么现代 Android 全靠 zram 不靠磁盘。

2026-05-03 · os

【操作系统百科】Slab/SLUB 分配器

buddy 只管页粒度(4K+),内核大多数对象只有几十到几百字节。slab/SLUB 在 buddy 之上做对象级缓存。本文讲 slab 历史、SLUB 接手、SLOB 退场、kmem_cache、per-CPU cache、KASAN 集成。

2026-05-07 · os

【操作系统百科】用户态分配器

glibc malloc、tcmalloc、jemalloc、mimalloc 各有哲学。本文讲 arena、thread cache、size class、madvise 返还策略、碎片与 RSS 膨胀、如何根据负载选分配器。


By .