自己动手利用KVM和Intel VT实现简单虚拟机
自己動手利用KVM和IntelVT實現(xiàn)簡單虛擬機(jī)
計劃開發(fā)一套虛擬機(jī)最小系統(tǒng)。該原型系統(tǒng)會利用Linux原生提供的內(nèi)核模塊kvm.ko,使用該模塊提供的API接口,自行開發(fā)一個用戶態(tài)程序,實現(xiàn)一個最基本的虛擬機(jī)。
這個虛擬機(jī)能夠運(yùn)行一段x86指令代碼,例如簡單的算術(shù)運(yùn)算,最終能夠?qū)⑦\(yùn)算結(jié)果通過IO端口寫入客戶機(jī)的串口設(shè)備中。這套最小系統(tǒng)能夠模擬一個串口設(shè)備,將客戶機(jī)串口設(shè)備中的數(shù)據(jù)顯示在終端屏幕上。
本章是開發(fā)實踐的基礎(chǔ)章節(jié),通過自己動手實踐本章提供的源代碼,能夠為后續(xù)高階內(nèi)容打下堅實的基礎(chǔ)。在動手開發(fā)之前,建議讀者具備如下技術(shù)能力,在本章最后會列出建議的學(xué)習(xí)資料。
通過本章的學(xué)習(xí),能夠掌握如下核心技術(shù)能力:
開發(fā)調(diào)試環(huán)境準(zhǔn)備
本節(jié)介紹開發(fā)調(diào)試環(huán)境的準(zhǔn)備工作,包括硬件和軟件的版本,操作系統(tǒng)的選型,本書的全部源代碼均在這套開發(fā)環(huán)境下編譯和運(yùn)行。
硬件環(huán)境
x86架構(gòu)的硬件虛擬化技術(shù)主要有兩種,分屬Intel和AMD兩大陣營。Intel開發(fā)出了Intel Virtualization Technology (Intel VT-x),AMD開發(fā)的是AMD Secure Virtual Machine(AMD SVM)。鑒于Intel CPU廣泛用于PC、筆記本和服務(wù)器市場,考慮到用于實驗的硬件設(shè)備需要容易獲取,讀者掌握技術(shù)后能夠廣泛實踐,本書主要以Intel的硬件虛擬化技術(shù)為基礎(chǔ)進(jìn)行講解和分析。
基本要求:
目前市面主流的PC、筆記本搭載的Intel CPU都能滿足實驗的要求。對于具體型號的CPU可以通過訪問:https://ark.intel.com?查看CPU的具體參數(shù),其中Advanced Technologies中列出了Intel? Virtualization Technology (VT-x)的支持情況。另外和Intel VT相關(guān)的幾個技術(shù),最好也能夠支持,其中包括Intel? Virtualization Technology for Directed I/O (VT-d)和Intel? VT-x with Extended Page Tables (EPT),這兩個技術(shù)能夠在處理IO請求和頁表映射時提供加速能力,可以作為高級功能進(jìn)行探索和學(xué)習(xí)。
處理最基本的配置,這里列出作者在編寫本書時用到的硬件配置。作者使用的是聯(lián)想Thinkpad T440S筆記本電腦,具體配置如下,該款筆記本已經(jīng)停產(chǎn),理論上后續(xù)的搭載了Intel CPU的Thinkpad系列都是支持Intel VT-x的。
作者配置: 1. CPU:Intel?Core? i5-4210U @1.70GHz。 2. BIOS: 需要在BIOS中支持并開啟Inte VT。 3. 內(nèi)存:8G內(nèi)存。 4. 磁盤:250 SSD磁盤。
在Intel 官網(wǎng)上的CPU參數(shù)介紹中這顆i5的CPU是支持Intel VT-x技術(shù)的。
https://ark.intel.com/content/www/us/en/ark/products/81016/intel-core-i5-4210u-processor-3m-cache-up-to-2-70-ghz.html
在BIOS中開啟Intel VT的方法如下,在開機(jī)啟動時,進(jìn)入BIOS設(shè)置界面,作者的筆記本是按F1鍵,在BIOS設(shè)置界面菜單中選擇Security,在子菜單中選擇Virtualization, 進(jìn)入子菜單后,將Intel (R) Virtualization Technology下的選項設(shè)置為[Enabled]。
操作系統(tǒng)
本書的操作系統(tǒng)使用Linux系統(tǒng),并且需要直接安裝在上一小節(jié)介紹的硬件之上,不能使用虛擬機(jī)進(jìn)行運(yùn)行和調(diào)試。因為虛擬化開發(fā)涉及很多直接同CPU、網(wǎng)卡和內(nèi)存等硬件直接交互的情況,虛擬機(jī)模擬出的客戶機(jī)在一些硬件模擬上,無法達(dá)到完全同真實硬件一致,而處理這些細(xì)微差異會分散學(xué)習(xí)精力,所以在本書的學(xué)習(xí)過程中,作者建議直接在真實硬件上進(jìn)行開發(fā)、運(yùn)行和調(diào)試。對于用戶態(tài)程序來說,在真實硬件上開發(fā)和在虛擬機(jī)中開發(fā),差別不大,但是對于后續(xù)的內(nèi)核模塊開發(fā),一個微小的錯誤就很容易引起系統(tǒng)panic,有可能導(dǎo)致文件系統(tǒng)的損害,造成開發(fā)代碼的丟失。后續(xù)章節(jié)會深入介紹內(nèi)核模塊的真機(jī)開發(fā)和調(diào)試經(jīng)驗。
作者具體使用的操作系統(tǒng)是 Centos 7.6 X86_64 1810版,最小化安裝,只有命令行環(huán)境,沒有安裝GUI界面環(huán)境,目的是最小限度安裝所需的軟件,避免對系統(tǒng)開發(fā)造成不必要的干擾。
使用的Linux內(nèi)核是有兩套,一套是官方自帶的標(biāo)準(zhǔn)內(nèi)核,該內(nèi)核包含了CentOS提供的內(nèi)核補(bǔ)丁,解決了很多安全性和穩(wěn)定性問題。
Linux diykvm 3.10.0-957.el7.x86_64 #1 SMP Thu Nov 8 23:39:32 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux
另一套是基于Linux原生4.4.2編譯出的內(nèi)核,該內(nèi)核沒有添加任何補(bǔ)丁,在后續(xù)章節(jié)中會對自編譯內(nèi)核進(jìn)行調(diào)試和分析。內(nèi)核的編譯和調(diào)試技術(shù)會在后續(xù)章節(jié)進(jìn)行介紹。
Linux diykvm 4.4.2 #1 SMP Sat Jun 15 13:53:34 CST 2019 x86_64 x86_64 x86_64 GNU/Linux
讀者可以從如下官網(wǎng)鏈接處下載CentOS操作系統(tǒng),自行安裝到開發(fā)機(jī)上。
http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1810.iso
選擇CentOS作為開發(fā)環(huán)境的操作系統(tǒng),主要考慮到CentOS相對于Ubuntu來說,廣泛應(yīng)用于生產(chǎn)環(huán)境,在穩(wěn)定性方面表現(xiàn)更出色,但是不足之處是CentOS官方的軟件源支持的軟件相對較少,版本也比較低。為了克服這些不足,后續(xù)開發(fā)過程中會針對一些軟件,直接使用源代碼進(jìn)行編譯。
下圖是CentOS的安裝界面,選擇最小化模式安裝。
開發(fā)工具
虛擬化開發(fā)技術(shù)主要涉及系統(tǒng)底層技術(shù),以C語言和匯編語言為主,使用的開發(fā)工具以gcc和nasm為主,其中g(shù)cc負(fù)責(zé)c語言的編譯,nasm負(fù)責(zé)匯編語言的編譯。其次會使用gdb進(jìn)行程序的調(diào)試和分析,在后續(xù)章節(jié)中,會介紹使用kgdb進(jìn)行內(nèi)核調(diào)試的技術(shù)要點(diǎn)。所有開發(fā)工具均通過CentOS官方的yum源進(jìn)行安裝,如下是關(guān)鍵開發(fā)工具的版本和用途介紹。
源代碼src/init/init.sh提供一份開發(fā)環(huán)境初始化配置腳本,用于全部開發(fā)工具的初始化安裝。
#!/bin/sh # Project: DIY KVM 1.0 # Description: Development Init script # Date: 2019.07.28 yum makecache # install dev tools yum install -y dosfstools vim net-tools git unzip zip strace yum group install -y "Development Tools" yum install -y epel-release # install qemu and libvirt yum install -y qemu-kvm qemu-img libvirt libvirt-python libvirt-client virt-install bridge-utils libguestfs-tools yum --disablerepo=epel -y install qemu-guest-agent systemctl start libvirtd systemctl enable libvirtd # install kernel debuginfo yum --enablerepo=base-debuginfo install -y kernel-debuginfo-$(uname -r) yum install -y kernel-devel匯編語言
虛擬化開發(fā)涉及硬件底層技術(shù),在一些情況下,使用匯編語言比C語言更適合,這里針對本書涉及的匯編知識,進(jìn)行一個簡介,內(nèi)容更偏向于實用,對于系統(tǒng)性的匯編語言知識,請參考本章最后的學(xué)習(xí)資料。
匯編語言是一種用于直接操作CPU和內(nèi)存的低級語言,作用是用一系列助記符來代替和表示CPU的特定指令, 每一條匯編代碼對應(yīng)一條或多條機(jī)器指令,省去了人工查詢機(jī)器碼的繁瑣。
如今隨著技術(shù)發(fā)展,程序員已經(jīng)不需要使用匯編語言來開發(fā)程序,但是能夠讀懂甚至編寫匯編語言仍然是程序員的高級技能。例如需要精確編寫每一條機(jī)器指令,嚴(yán)格控制CPU運(yùn)行邏輯時,只有匯編語言能夠擔(dān)當(dāng)重任。另外對編譯后的二進(jìn)制代碼進(jìn)行分析和調(diào)試,這種情況下,由于程序缺少了必要的信息,無法被還原成高級語言,就需要借助反編譯工具,將程序反編譯成匯編代碼,再進(jìn)行后續(xù)的分析。
匯編語言有兩大主流語法風(fēng)格,分別是Intel風(fēng)格和AT&T風(fēng)格。前者多用于Visual C++的匯編工具中,后者用于gcc的匯編工具中。下面將分別使用c語言和這兩種風(fēng)格的匯編語法,編寫一個兩數(shù)相加的程序。在C語言中是兩個變量相加,在匯編語言中,是兩個寄存器rax和rbx相加,最終通過Linux系統(tǒng)調(diào)用顯示在終端的標(biāo)準(zhǔn)輸出上。這里除了通過介紹兩數(shù)相加的程序讓讀者熟悉匯編語言,另外本節(jié)的虛擬機(jī)最小系統(tǒng)中,客戶機(jī)的代碼會以這個兩數(shù)相加程序作為模板。
從上面Intel和AT&T語法對比中可以看出,這兩種語法最大的區(qū)別在于賦值方向,對于Intel語法來說,是從右向左賦值,對于AT&T來說,是從左向右賦值。這一點(diǎn)在閱讀匯編代碼和調(diào)試程序時非常重要,需要明判斷匯編語言的語法種類,明確賦值的方向。
在這三個例子文件夾中,都包含了Makefile文件,使用如下命令就可以進(jìn)行編譯并運(yùn)行。
[root@diykvm intel]# make nasm -f elf64 add.asm -o add.o ld add.o -o add.elf [root@diykvm intel]# make run ./add.elf 2用戶態(tài)調(diào)試
GDB是Linux軟件開發(fā)最常用的調(diào)試器,功能非常豐富,例如能夠查看內(nèi)存,反匯編代碼,對程序的特定位置下斷點(diǎn)和單步調(diào)試。這里只針對虛擬化開發(fā)常用的gdb功能進(jìn)行介紹,更佳完善的功能請參考本章最后提供的學(xué)習(xí)資料。對于遠(yuǎn)程調(diào)試和內(nèi)核調(diào)試的技術(shù),會在后續(xù)章節(jié)進(jìn)行介紹。
無論是C語言還是匯編語言編寫的ELF程序,gdb都可以進(jìn)行調(diào)試,但是對于匯編語言編寫的程序,無法在main函數(shù)上下斷點(diǎn),這里介紹如何在ELF程序的第一條指令的位置,即程序入口點(diǎn)設(shè)置斷點(diǎn)。 在加載被調(diào)試的程序后,使用命令info files能夠顯示ELF文件的入口點(diǎn)(Entry point),然后使用break命令對該地址設(shè)置斷點(diǎn)。
[root@diykvm intel]# gdb ./add.elf This GDB was configured as "x86_64-redhat-linux-gnu". (gdb) info files Symbols from "/root/code/kvm/diykvm/src/basic/01_add/intel/add.elf". Local exec file:`/root/code/kvm/diykvm/src/basic/01_add/intel/add.elf',file type elf64-x86-64.Entry point: 0x4000780x0000000000400078 - 0x00000000004000b1 is .TEXT (gdb) break *0x400078 Breakpoint 1 at 0x400078 (gdb) r Starting program: /root/code/kvm/diykvm/src/basic/01_add/intel/./add.elfBreakpoint 1, 0x0000000000400078 in _start () (gdb) x/i $pc => 0x400078: mov $0x1,%eax (gdb)對于c語言編寫的程序,可以使用disassemble命令反匯編函數(shù)。這里對main函數(shù)進(jìn)行反匯編,gdb默認(rèn)以AT&T語法顯示出了a+b的匯編代碼。
(gdb) disassemble main Dump of assembler code for function main:0x000000000040051d <+0>: push %rbp0x000000000040051e <+1>: mov %rsp,%rbp0x0000000000400521 <+4>: sub $0x10,%rsp0x0000000000400525 <+8>: movl $0x1,-0x4(%rbp)0x000000000040052c <+15>: movl $0x1,-0x8(%rbp)0x0000000000400533 <+22>: mov -0x8(%rbp),%eax0x0000000000400536 <+25>: add %eax,-0x4(%rbp)0x0000000000400539 <+28>: mov -0x4(%rbp),%eax在上一個例子中,gdb默認(rèn)使用的是AT&T語法,可以通過命令set disassembly-flavor intel將默認(rèn)的匯編語法改為Intel語法。下面這個例子展示了相同地址上的機(jī)器指令已經(jīng)被反匯編成Intel匯編語法。
(gdb) disassemble main Dump of assembler code for function main:0x000000000040051d <+0>: push rbp0x000000000040051e <+1>: mov rbp,rsp0x0000000000400521 <+4>: sub rsp,0x100x0000000000400525 <+8>: mov DWORD PTR [rbp-0x4],0x10x000000000040052c <+15>: mov DWORD PTR [rbp-0x8],0x10x0000000000400533 <+22>: mov eax,DWORD PTR [rbp-0x8]0x0000000000400536 <+25>: add DWORD PTR [rbp-0x4],eax0x0000000000400539 <+28>: mov eax,DWORD PTR [rbp-0x4]gdb中可以使用ni和si命令進(jìn)行指令級別的單步調(diào)試,在使用時,建議配置display/i $pc在每次單步調(diào)試后,都能顯示接下來即將執(zhí)行的一條指令。下面例子展示了使用display命令后的效果。
(gdb) display/i $pc (gdb) ni 6 * */ 1: x/i $pc => 0x40052c <main+15>: mov DWORD PTR [rbp-0x8],0x1 (gdb) ni 7 #include <unistd.h> 1: x/i $pc => 0x400533 <main+22>: mov eax,DWORD PTR [rbp-0x8]本小節(jié)介紹了開發(fā)調(diào)試環(huán)境準(zhǔn)備工作,從硬件到操作系統(tǒng)再到開發(fā)工具,由底層到上層介紹了虛擬化開發(fā)所需要的資源信息,本書中所有的源代碼均可以在這個環(huán)節(jié)中進(jìn)行編譯、執(zhí)行和調(diào)試。虛擬化開發(fā)屬于系統(tǒng)底層開發(fā)技術(shù),本小節(jié)的后半部分,以一個兩數(shù)相加的程序為例,介紹了匯編語言的開發(fā)過程,最后介紹了gdb進(jìn)行調(diào)試的技術(shù)要點(diǎn)。由于本書專注于虛擬化開發(fā),無法對匯編語言和GDB調(diào)試展開更細(xì)致的介紹,請感興趣的讀者參考本章最后的學(xué)習(xí)資料進(jìn)行更全面和深入的學(xué)習(xí)。
KVM內(nèi)核API
上一小結(jié)介紹了如何準(zhǔn)備虛擬化開發(fā)調(diào)試環(huán)境,本小結(jié)將會介紹KVM API的基礎(chǔ)知識。
KVM設(shè)備
KVM API由內(nèi)核模塊kvm.ko實現(xiàn),以設(shè)備的形式暴露給用戶態(tài)程序使用,設(shè)備名稱為/dev/kvm。
在開發(fā)環(huán)境中,kvm.ko模塊默認(rèn)是自動加載的,KVM設(shè)備在模塊加載時自動創(chuàng)建。如果找不到/dev/kvm, 可以嘗試手動加載kvm模塊。x86平臺上主流的硬件虛擬化技術(shù)有兩種,Intel VT-x和 AMD svm, kvm.ko 模塊只是對這兩種硬件虛擬化的包裝,根據(jù)CPU的不同,kvm.ko模塊還依賴于 kvm-intel.ko 或者 kvm-amd.ko,分別對應(yīng)這兩種硬件虛擬化技術(shù)。
以下腳本展示了,對kvm設(shè)備和kvm內(nèi)核模塊的探測情況,在檢測到?jīng)]有啟用kvm內(nèi)核模塊時,會進(jìn)行主動加載。
TODO code
在Linux kernel 4.4.2代碼中,KVM設(shè)備注冊是在kvm_main.c文件的kvm_init()中,將kvm設(shè)備注冊成為雜項設(shè)備, 設(shè)備編號為232,并且為該設(shè)備綁定了ioctl的處理函數(shù)kvm_dev_ioctl()。
// Path: kernel/virt/kvm/kvm_main.c // 232 = /dev/kvm Kernel-based virtual machine (hardware virtualization extensions)#define KVM_MINOR 232static struct file_operations kvm_chardev_ops = {.unlocked_ioctl = kvm_dev_ioctl,.compat_ioctl = kvm_dev_ioctl,.llseek = noop_llseek, };static struct miscdevice kvm_dev = {KVM_MINOR,"kvm",&kvm_chardev_ops, };int kvm_init(void *opaque, unsigned vcpu_size, unsigned vcpu_align,struct module *module){...r = misc_register(&kvm_dev);... }ioctl調(diào)用模式
因為虛擬機(jī)的創(chuàng)建和控制均涉及用戶態(tài)(ring3)向內(nèi)核態(tài)(ring0)通信,所以無法直接使用傳統(tǒng)的函數(shù)調(diào)用方式。KVM開發(fā)者選擇了在內(nèi)核層創(chuàng)建/dev/kvm設(shè)備,然后讓用戶態(tài)程序以ioctl模式操作該設(shè)備進(jìn)行通信這種方式。
iotcl函數(shù)原型如下:
int ioctl(int fd, unsigned long request, ...);
ioctl全稱是input and output control, 是一個用于設(shè)備輸入和輸出的系統(tǒng)調(diào)用。第一個參數(shù)是文件描述符fd, 通過open()系統(tǒng)調(diào)用獲得。第二個參數(shù)是請求碼,內(nèi)核處理函數(shù)根據(jù)請求碼區(qū)分不同的請求操作,后續(xù)是一串可變數(shù)量的補(bǔ)充參數(shù)。
除了使用ioctl模式,用戶態(tài)程序和內(nèi)核通信,還可以選擇傳統(tǒng)的系統(tǒng)調(diào)用(syscall),但是系統(tǒng)調(diào)用ID是在內(nèi)核編譯時確定好的,不方便動態(tài)增加。也可以選擇/proc文件系統(tǒng)或/sys文件系統(tǒng),但是/proc文件系統(tǒng)主要用于顯示內(nèi)核狀態(tài),而/sys主要用于對內(nèi)核配置進(jìn)行簡單配置。最后還可以選擇netlink,以類似socket通信的方式同內(nèi)核進(jìn)行交互,但是這種方式和ioctl相比,調(diào)用過程更加復(fù)雜。
以下是kvm ioctl處理函數(shù)kvm_dev_ioctl()的部分實現(xiàn),主要實現(xiàn)流程是根據(jù)ioctl請求碼,分別進(jìn)行相應(yīng)的處理操作,包括返回KVM版本信息或者創(chuàng)建虛擬機(jī)等。
// Path: kernel/virt/kvm/kvm_main.cstatic long kvm_dev_ioctl(struct file *filp,unsigned int ioctl, unsigned long arg) {long r = -EINVAL;switch (ioctl) {case KVM_GET_API_VERSION:if (arg)goto out;r = KVM_API_VERSION;break;case KVM_CREATE_VM:r = kvm_dev_ioctl_create_vm(arg);break;case KVM_CHECK_EXTENSION:r = kvm_vm_ioctl_check_extension_generic(NULL, arg);break;... }核心API
介紹了KVM設(shè)備對象和通信方式后,這里會介紹KVM API的三個調(diào)用層次,并列舉說明核心的API:
- 系統(tǒng)層
最外層是系統(tǒng)層,該層能夠查詢和設(shè)置KVM全局的配置信息,客戶端通過打開/dev/kvm設(shè)備獲得文件描述符kvm_fd, 對這個全局的文件描述符使用ioctl,配合相應(yīng)的請求碼進(jìn)行系統(tǒng)層的查詢和設(shè)置操作。例如如下兩個操作都是系統(tǒng)層API。
ioctl(kvm_fd, KVM_GET_API_VERSION,0)
該請求會固定返回整數(shù)12,表示即使后續(xù)KVM API會持續(xù)改進(jìn),也會保持API的兼容性。
vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, 0)
該請求會創(chuàng)建一個新的虛擬機(jī),并返回相應(yīng)的文件描述符vm_fd,用于后續(xù)虛擬機(jī)層API的操作。
- 虛擬機(jī)層
中間層是虛擬機(jī)層,負(fù)責(zé)操作對于虛擬機(jī)的配置信息。本層API通過對系統(tǒng)層返回的虛擬機(jī)文件描述符vm_fd進(jìn)行ioctl操作,配合相應(yīng)的請求碼,負(fù)責(zé)對單個虛擬機(jī)進(jìn)行控制。其中關(guān)鍵的API有:
該API向內(nèi)核傳遞了一個region的結(jié)構(gòu)體指針,描述了虛擬機(jī)內(nèi)存的分配情況。
該結(jié)構(gòu)體中,slot 表示內(nèi)存條插槽,guest_phys_addr 表示在虛擬機(jī)中的物理地址起始位置,memory_size 表示該內(nèi)存的大小,最后的userspace_addr 傳入的是用戶層申請的內(nèi)存地址。 通過該API,用戶層將申請的一片按頁對齊的內(nèi)存提交給內(nèi)核層,用于設(shè)置虛擬機(jī)的內(nèi)存。
KVM 支持虛擬多核處理器,通過對mv_fd調(diào)用ioctl,使用KVM_CREATE_VCPU作為命令字,并且傳入vcpu序號,可以新建虛擬CPU。
vcpu->vcpu_fd = ioctl(kvm->vm_fd, KVM_CREATE_VCPU, i);
- 虛擬CPU層
最內(nèi)層是虛擬CPU層,負(fù)責(zé)對具體CPU的控制。該層API包括針對具體CPU的寄存器進(jìn)行設(shè)置和啟動虛擬CPU的操作。
以下代碼首先讀取了vcpu的段寄存器,然后對代碼段寄存器cs進(jìn)行了歸零設(shè)置。
ioctl(vcpu->vcpu_fd, KVM_GET_SREGS, &(vcpu->sregs));vcpu->sregs.cs.selector =0;vcpu->sregs.cs.base = 0;ioctl(vcpu->vcpu_fd, KVM_SET_SREGS, &(vcpu->sregs));ioctl(vcpu->vcpu_fd, KVM_RUN, 0)
通過對vcpu_fd使用ioctl調(diào)研,傳入KVM_RUN操作碼,就可以啟動當(dāng)前CPU,這次調(diào)用是一次同步調(diào)用,一旦調(diào)用開始,虛擬機(jī)就會運(yùn)行,直到遇到虛擬機(jī)退出的情況。能夠引起虛擬機(jī)退出的指令包括一些特權(quán)指令,端口IO指令等。
本段從用戶態(tài)視角介紹了KVM核心API的三個層次和一些典型的API,具體這些API在內(nèi)核層的實現(xiàn),后續(xù)會在內(nèi)核層逐步展開介紹。
虛擬機(jī)創(chuàng)建和運(yùn)行
在介紹了KVM核心API后,本段會介紹創(chuàng)建和運(yùn)行虛擬機(jī)的主要流程。這里宏觀的流程圖如下:
TODO 流程圖
串口通信原理
上一小節(jié)介紹了KVM核心API和虛擬機(jī)啟動流程,本節(jié)將會研究虛擬機(jī)和宿主機(jī)的通信方式,在眾多通信方式中,選擇最簡單有效的串口通信方式進(jìn)行介紹。
在最小系統(tǒng)的實踐中,當(dāng)虛擬機(jī)完成計算任務(wù),就會使用串口通信的方式,將計算結(jié)果輸出到串口設(shè)備中,宿主機(jī)可以接管該IO請求,接收虛擬機(jī)發(fā)出的字符結(jié)果。
串口設(shè)備介紹
不同于網(wǎng)絡(luò)通信,串口通信在x86物理平臺上使用的機(jī)會比較少,本段會介紹一些基本的串口通信的概念。
串口是串行接口(serial interface)的簡稱, 在該接口上,數(shù)據(jù)按位(bit)進(jìn)行發(fā)送和接收。盡管傳輸速度慢,但是串口通信的優(yōu)勢是硬件和上層的驅(qū)動程序?qū)崿F(xiàn)簡單,這一優(yōu)勢常用于硬件設(shè)備之間的互聯(lián)互通。另外串口設(shè)備初始化時機(jī)非常早,有利于對外輸出設(shè)備初始化信息,是操作系統(tǒng)真機(jī)調(diào)試中最穩(wěn)定和最常用的接口。
串口有非常多的代名詞。例如com1口,這里是windows操作系統(tǒng)中設(shè)備管理器的常用代號,一般是指第一個通信端口(communication port),在老式的臺式機(jī)中,com1口就是第一個串口。
這個端口一般在機(jī)箱背后,是9針的一個接口,也叫RS232接口,這里RS-232是美國電子工業(yè)聯(lián)盟(EIA)制定的串行數(shù)據(jù)通信的接口標(biāo)準(zhǔn),對電氣特性、邏輯電平和各種信號線功能都作了規(guī)定。
另外在還有資料使用UART(Universal Asynchronous Receiver/Transmitter)來代表串口,因為這個端口使用的通信方式是異步(Asynchronous)通信,通過START和STOP信號來標(biāo)明傳輸?shù)拈_始和結(jié)束,而不是像同步通信那樣,使用時鐘信號來傳輸數(shù)據(jù)。
串口通信經(jīng)常用于嵌入式開發(fā),在嵌入式領(lǐng)域,使用TTL(Transistor-transistor logic)來指代串口。在嵌入式領(lǐng)域,使用3根線路(接地、發(fā)送、接收)就可以進(jìn)行串口通信,但是TTL與RS232最大的不同是,TTL高電平1是>=2.4V,低電平0是<=0.5V, 而RS232采用-15V~-3V代表邏輯"1",+3V~+15V代表邏輯"0",這就導(dǎo)致雖然兩種接口都是串口,但是無法直接連通。
在Linux系統(tǒng)中,第一個串口設(shè)備是/dev/ttyS0, 對于沒有串口的筆記本可以購買USB轉(zhuǎn)串口的設(shè)備,這時第一個設(shè)備名稱為/dev/ttyUSB0
在串口通信中,如下參數(shù)需要通信雙方配置一致,才能夠進(jìn)行正確的通信。
以上默認(rèn)值中,傳輸一個byte,需要1bit開始位+8bit的數(shù)據(jù)位+1bit結(jié)束位共10bit,對于boud rate為9600的串口通信,傳輸速度是960 B/s( byte per second)。 對于如今以G為單位的網(wǎng)絡(luò)速度實在是太慢了,但是串口通信利用其實現(xiàn)簡單,運(yùn)行穩(wěn)定的特點(diǎn),仍然服務(wù)于嵌入式開發(fā),網(wǎng)絡(luò)設(shè)備配置和操作系統(tǒng)調(diào)試等領(lǐng)域。
本段只是對串口設(shè)備和相關(guān)概念進(jìn)行了一些簡單的介紹,方便讀者理解虛擬機(jī)和宿主機(jī)的串口通信方式,對于串口通信領(lǐng)域更深層次的探索,請參考本節(jié)最后的參考資料。
通信選擇策略
在熟悉了串口設(shè)備后,這里列舉出一些可供選擇的虛擬機(jī)和宿主機(jī)之間的其他通信方式,然后分析為什么選擇串口通信作為最小系統(tǒng)的通信方式。
綜合上面的分析,串口通信,因為其結(jié)構(gòu)簡單,容易實現(xiàn)的特點(diǎn),非常適合在最小系統(tǒng)中作為虛擬機(jī)和宿主機(jī)通信的橋梁。
虛擬串口實現(xiàn)
選定通信方式之后,本段會介紹如何在宿主機(jī)客戶層接管串口IO請求,實現(xiàn)一個虛擬串口。首先介紹在x86體系架構(gòu)中,負(fù)責(zé)串口通信的指令。然后介紹在VMM中如何處理串口通信請求。
CPU使用指令I(lǐng)N 和 OUT 來寫和讀相應(yīng)端口的數(shù)據(jù)。這里只介紹向串口寫數(shù)據(jù)的指令EE, 該指令將AL寄存器的1 byte數(shù)據(jù),寫入DX寄存器對應(yīng)的IO端口上。因為串口的IO端口是2字節(jié)地址,所以無法使用立即數(shù)直接作為IO端口,必須先設(shè)置DX寄存器。
EE OUT DX, AL Output byte in AL to I/O port address in DX.當(dāng)虛擬機(jī)執(zhí)行EE這條指令后,虛擬機(jī)會從運(yùn)行模式退出到VMM,VMM會根據(jù)返回碼判斷是否是串口通信請求,然后做相應(yīng)的處理。如下代碼顯示了將串口傳來的字節(jié)打印在宿主機(jī)的屏幕上。
int reason = vcpu->kvm_run->exit_reason;switch (reason){...case KVM_EXIT_IO://printf("KVM_EXIT_IO port:%x\n",vcpu->kvm_run->io.port);handle_IO(vcpu);break;...}首先通過判斷exit_reason是否為KVM_EXIT_IO來確定退出原因是IO端口請求。
void handle_IO(struct kvm_cpu* vcpu){if (vcpu->kvm_run->io.direction == KVM_EXIT_IO_OUT){u8* src = (u8*)vcpu->kvm_run;u64 offset = vcpu->kvm_run->io.data_offset;u64 tot_size = (vcpu->kvm_run->io.size)*(vcpu->kvm_run->io.count);write(STDERR_FILENO, src+offset, tot_size);}else{perror("unsupported io");} }其次在vcpu->kvm_run->io結(jié)構(gòu)中,包含了通信的方向(direction),數(shù)據(jù)的偏移地址(offset), 和數(shù)據(jù)大小(size)和請求次數(shù)(count).
最后將虛擬機(jī)傳入的數(shù)據(jù),寫入STDERR_FILENO中,就會在宿主機(jī)中打印出串口設(shè)備傳入的字符。
總結(jié)
本節(jié)通過對串口通信的介紹,并將串口通信和其他通信方式進(jìn)行了比較,確定了在最小系統(tǒng)中,使用串口通信作為主要的虛擬機(jī)和宿主機(jī)直接的通信方式。
最小系統(tǒng)開發(fā)
在了解KVM核心API和虛擬機(jī)運(yùn)行流程后,本小節(jié)會講解如何開發(fā)一個虛擬機(jī)的最小系統(tǒng),該系統(tǒng)能夠運(yùn)行一個支持x86算術(shù)指令的虛擬機(jī)。
運(yùn)行場景
首先展示一下這個虛擬機(jī)是如何運(yùn)行的。
最小系統(tǒng)會加載一段x86指令,然后設(shè)置好虛擬機(jī)的cs段寄存器和ip寄存器,指向第一條指令。這段指令將BL和AL兩個寄存器相加,然后結(jié)果存到AL寄存器中,然后通過串口通信輸出到串口設(shè)備中,最后在VMM中接收到IO端口的請求,吧串口數(shù)據(jù)顯示在屏幕上。運(yùn)行2+2的結(jié)果如下:
[root@diykvm basic]# make gcc -std=gnu99 main.c -g -O0 -o diykvm_basic.elf [root@diykvm basic]# make run ./diykvm_basic.elf cpu support vmx kvm version: 12 allocated 536870912 bytes from 0x7f34aeb92000 init cpu0 vcpu mmap size: 12288 task: 2 + 2 result: 4 KVM_EXIT_HLT最小系統(tǒng)模型
這里總結(jié)一下最小系統(tǒng)的模型。在下圖中,最小系統(tǒng)主要分為初始化模塊、VM裝載模塊和運(yùn)行模塊。在運(yùn)行模塊中會使用KVM API進(jìn)行虛擬機(jī)的管理,并且利用串口通信模塊和虛擬機(jī)進(jìn)行通信。
TODO 圖
核心代碼
本段介紹關(guān)鍵的核心代碼。
首先介紹main()函數(shù),負(fù)責(zé)調(diào)用各個模塊的實現(xiàn)函數(shù)。其中包括:
在深入介紹各種模塊之前,首先介紹一下最小系統(tǒng)中使用的結(jié)構(gòu)體。 TODO 需要清理一下結(jié)構(gòu)體
struct kvm {struct kvm_arch arch;struct kvm_config cfg;int sys_fd; /* For system ioctls(), i.e. /dev/kvm */int vm_fd; /* For VM ioctls() */timer_t timerid; /* Posix timer for interrupts */int nrcpus; /* Number of cpus to run */struct kvm_cpu *cpus[MAX_VCPU_NUM];u32 mem_slots; /* for KVM_SET_USER_MEMORY_REGION */u64 ram_size;void *ram_start;u64 ram_pagesize;struct list_head mem_banks;bool nmi_disabled;const char *vmlinux;struct disk_image **disks;int nr_disks;int vm_state; };在main()函數(shù)中,會按順序調(diào)用各個模塊。
int main(){struct kvm *kvm = NULL;int ret=0;kvm = (struct kvm*)malloc(sizeof(struct kvm));do{ret = kvm_init(kvm);...ret = mem_init(kvm);...ret = vcpu_init(kvm,KVM_CFG_VCPU_NUM);ret = install_code(kvm,shell_code,sizeof(shell_code));ret = reset_cpu(kvm);}while(0);kvm_cpu_run(kvm);cleanup(kvm);...return ret; }以下是各個模塊的介紹。
kvm_init()函數(shù)首先檢測CPU是否支持Intel VT-x技術(shù),即使用CPUID指令判斷是否支持vmx。接著按照KVM API調(diào)用規(guī)范,先打開/dev/kvm設(shè)備,然后判斷KVM_API版本信息。最后調(diào)用KVM_CREATE_VM API創(chuàng)建虛擬機(jī)文件描述符vm_fd, 最后是進(jìn)行一些KVM擴(kuò)展功能的判定。
int kvm_init(struct kvm *kvm){int kvm_fd = 0;int vm_fd = 0;int ret = 0;do{if (cpu_support_vmx()){printf("cpu support vmx\n");}else{printf("cpu not support vmx\n");ret = -1;break;}kvm_fd = open("/dev/kvm",O_RDWR|O_CLOEXEC);...kvm->sys_fd = kvm_fd;ret = ioctl(kvm_fd, KVM_GET_API_VERSION,0);printf("kvm version: %d\n",ret);...vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, 0);...kvm->vm_fd = vm_fd;ret = ioctl(kvm_fd ,KVM_CHECK_EXTENSION, KVM_CAP_USER_MEMORY);...//TODO other ext check}while(0);return ret; }mem_init()函數(shù)用于初始化虛擬機(jī)內(nèi)存,首先使用mmap()申請一片按頁對齊的內(nèi)存,默認(rèn)是512M(KVM_CFG_RAM_SIZE),然后將內(nèi)存地址和大小填充到kvm_userspace_memory_region 結(jié)構(gòu)體中,最后調(diào)用KVM_SET_USER_MEMORY_REGION API將虛擬機(jī)內(nèi)存和vm_fd綁定。
int mem_init(struct kvm* kvm){int ret=0;u64 ram_size = KVM_CFG_RAM_SIZE;void* ram_start=NULL;ram_start = mmap(NULL, ram_size, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANON | MAP_NORESERVE, -1,0);...madvise(ram_start, ram_size, MADV_MERGEABLE);printf("allocated %lld bytes from %p\n",ram_size,ram_start);kvm->ram_start = ram_start;kvm->ram_size = ram_size;kvm->ram_pagesize = getpagesize();struct kvm_userspace_memory_region region={.slot = 0,.guest_phys_addr = 0,.memory_size = ram_size,.userspace_addr = (u64)ram_start};ret = ioctl(kvm->vm_fd, KVM_SET_USER_MEMORY_REGION, ®ion);...return ret; }vcpu_init()函數(shù)針對每個vcpu進(jìn)行初始化,最小系統(tǒng)為了簡單,最多只支持一個vcpu。初始化過程主要分三個階段,首先調(diào)用KVM_CREATE_VCPU創(chuàng)建vcpu_fd, 其次調(diào)用KVM_GET_VCPU_MMAP_SIZE獲取每個vcpu占用的內(nèi)存大小,最后根據(jù)上一步獲取的內(nèi)存大小,為每個vcpu申請內(nèi)存,vcpu的數(shù)據(jù),例如寄存器等都保存在kvm_run這個結(jié)構(gòu)體中。
int vcpu_init(struct kvm* kvm, int vcpu_num){int ret = 0;if (vcpu_num!=1){perror("only support 1 vcpu");ret = -1;return ret;}kvm->nrcpus = vcpu_num;for (int i=0;i< kvm->nrcpus; i++){printf("init cpu%d\n",i);struct kvm_cpu * vcpu=NULL;vcpu = (struct kvm_cpu*)malloc(sizeof(struct kvm_cpu));...vcpu->kvm = kvm;vcpu->cpu_id = i;vcpu->vcpu_fd = ioctl(kvm->vm_fd, KVM_CREATE_VCPU, i);...int mmap_size = ioctl(kvm->sys_fd, KVM_GET_VCPU_MMAP_SIZE, 0);printf("vcpu mmap size: %d\n",mmap_size);...vcpu->kvm_run = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED, vcpu->vcpu_fd, 0 );...vcpu->is_running = true;kvm->cpus[i]=vcpu;}return ret; }裝載vm指令的函數(shù)install_code()比較簡單,就是將預(yù)先存好指令數(shù)組run_code,使用memcpy()復(fù)制到虛擬機(jī)內(nèi)存中的offset偏移位置,這里選擇0x1000偏移,是為了讓VM指令處于第2頁內(nèi)存中,其中一頁內(nèi)存是4K bytes(0x1000)。這個偏移值會影響后續(xù)的cpu寄存器初始化過程。
int install_code(struct kvm* kvm, u8* run_code, int size){u16 offset = 0x1000; // second pagememcpy(kvm->ram_start+offset, run_code, size);return 0; }這里詳細(xì)描述一下vm指令。首先將0x03f8賦值與dx寄存器,0x03f8是第一個串口的IO端口。然后將al和bl寄存器相加,結(jié)果存在al中。后面指令是將al中的數(shù)字通過與字符0相加,得到ASCII字符的數(shù)字表示,方便在串口設(shè)備上輸出。隨后兩次調(diào)用out指令,將al中的字符和換行符\n輸出到串口中。最后一條指令hlt是停機(jī)指令,標(biāo)志著運(yùn)行結(jié)束。
還需要介紹的是,x86指令系統(tǒng)分為很多種執(zhí)行模式,這里使用的是16位實模式(real mode), 隨著虛擬機(jī)的開發(fā),還會支持32位保護(hù)模式(protected mode), 64位長模式(long mode)。
u8 shell_code[]={0xba, 0xf8, 0x03, // mov $0x3f8, %dx0x00, 0xd8, // add %bl,$al0x04, '0', // add $'0',%al0xee, // out %al, (%dx)0xb0, '\n', // mov $'\n',%al0xee, // out %al,(%dx)0xf4 // hlt };reset_cpu()主要是初始化vcpu的cs段寄存器和ip寄存器,另外最小系統(tǒng)實現(xiàn)的是ax寄存器和bx寄存器相加的操作,這里傳入2+2的任務(wù)。還需要設(shè)置rflags為16位實模式(real mode)。
int reset_cpu(struct kvm* kvm){u16 offset = 0x1000;struct kvm_cpu* vcpu = kvm->cpus[0];ioctl(vcpu->vcpu_fd, KVM_GET_SREGS, &(vcpu->sregs));vcpu->sregs.cs.selector =0;vcpu->sregs.cs.base = 0;ioctl(vcpu->vcpu_fd, KVM_SET_SREGS, &(vcpu->sregs));vcpu->regs = (struct kvm_regs) {/* 16-bit real mode */.rflags = 0x0000000000000002ULL,.rip = offset,.rax = 2,.rbx = 2};printf("task: %d + %d\n",vcpu->regs.rax, vcpu->regs.rbx);ioctl(vcpu->vcpu_fd, KVM_SET_REGS, &(vcpu->regs));return 0; }kvm_cpu_run()函數(shù)會在一個循環(huán)中調(diào)用KVM_RUN, 根據(jù)vcpu數(shù)據(jù)結(jié)構(gòu)kvm_run中的exit_reason值來判斷KVM退出的原因。比較重要的兩個原因,第一個是KVM_EXIT_IO,需要處理IO端口的請求,在最小系統(tǒng)中就是串口通信的請求,第二個是KVM_EXIT_HLT,就是vm指令中最后一個hlt指令,這時需要退出循環(huán),結(jié)束最小系統(tǒng)的工作。
void kvm_cpu_run(struct kvm* kvm){printf("result:\n");struct kvm_cpu* vcpu = kvm->cpus[0];while(vcpu->is_running){int ret = ioctl(vcpu->vcpu_fd, KVM_RUN, 0);if (ret<0 && (ret!=EINTR && ret !=EAGAIN)){perror("KVM_RUN failed");break ;}int reason = vcpu->kvm_run->exit_reason;switch (reason){case KVM_EXIT_UNKNOWN:printf("KVM_EXIT_UNKNOWN\n"); break;case KVM_EXIT_IO://printf("KVM_EXIT_IO port:%x\n",vcpu->kvm_run->io.port);handle_IO(vcpu);break;case KVM_EXIT_HLT:printf("KVM_EXIT_HLT\n");vcpu->is_running=false;break;default:printf("KVM_EXIT unhandled reason:%d\n", reason);}}return ; }cleanup()主要負(fù)責(zé)回收虛擬機(jī)內(nèi)存。
kvm_run unmap
void cleanup(struct kvm* kvm){munmap(kvm->ram_start, kvm->ram_size); }能力提升
在完成最小系統(tǒng)后,可以對其進(jìn)行功能優(yōu)化和改造, 例如增加虛擬機(jī)加載功能,可以先將虛擬機(jī)指令編譯成一個bin文件,然后在代碼中動態(tài)加載該虛擬機(jī),這樣方便對其他x86指令集進(jìn)行實驗。還可以體驗不同的x86指令,觀察最小系統(tǒng)沒有處理的KVM退出原因,這些未處理的功能將會在后續(xù)章節(jié)進(jìn)行補(bǔ)充。
例如如下例子:
總結(jié)
本章實現(xiàn)了一個簡單的虛擬機(jī)最小系統(tǒng),希望大家繼續(xù)關(guān)注。
學(xué)習(xí)資料
參考資料
總結(jié)
以上是生活随笔為你收集整理的自己动手利用KVM和Intel VT实现简单虚拟机的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql查询自定义数据_实现自定义查询
- 下一篇: 启动kafka失败报内存不足(Canno