dpdk对虚拟化的支持调研
目錄:
- 虛擬化
- dpdk的實現(xiàn)研究
- virtio
- vhost
- SR-IOV
- 熱遷移相關(guān)
- 研究拓展
本文記錄近期對dpdk在虛擬化和云計算領(lǐng)域應(yīng)用的研究成果,內(nèi)容梳理如下。
虛擬化
虛擬化,抽象來說,就是將物理資源邏輯化。具體來說,虛擬技術(shù)的實現(xiàn)是在系統(tǒng)中加入一個虛擬化層(也就是hypervisor),將下層的物理資源(如disk,nic,cpu,memory等)抽象成另一種形式的資源,提供給上層應(yīng)用,通過空間上的分割,時間上的分時以及模擬,將一份資源抽象成多份。
虛擬化能帶來的好處不言而喻,可以顯著提高物理資源的使用效率,能夠進行動態(tài)分配、資源管理和負載的相互隔離,并提供高安全性和自動化。虛擬化還為云計算提供支持,主要提供按需的服務(wù)配置和軟件定義的資源編排等。
X86平臺的虛擬化實現(xiàn)主要有三部分:CPU虛擬化、內(nèi)存虛擬化和IO虛擬化。
- CPU虛擬化
intel引入VT-x來提升CPU虛擬化效率和虛擬機安全性(參見圖1)。VT-x擴展了傳統(tǒng)的x86處理器架構(gòu),它引入了兩種操作模式:VMX root operation(根虛擬化操作)和VMX non-root operation(非根虛擬化操作),統(tǒng)稱為VMX操作模式。 此外,還支持虛機熱遷移特性。
圖1.支持intel VT-x的虛擬化架構(gòu)
為了建立這種兩個操作模式的架構(gòu),VT-x設(shè)計了一個Virtual-Machine Control Structure(VMCS,虛擬機控制結(jié)構(gòu))的數(shù)據(jù)結(jié)構(gòu),包括了Guest-State Area(客戶狀態(tài)區(qū))和Host-State Area(主機狀態(tài)區(qū)),用來保存虛擬機以及主機的各種狀態(tài)參數(shù),并提供了VM entry和VM exit兩種操作在虛擬機與VMM之間切換,并在切換時會自動查詢和更新VMCS,加速guest狀態(tài)切換時間。這樣非根模式下敏感指令不再是直接執(zhí)行或者通過陷入再模擬的方式執(zhí)行,而是通過VM exit和VM entry這兩個操作完成切換,既解決了虛擬機的隔離問題,又解決了性能問題。
關(guān)于VT-x的詳細介紹,還可以參考這里和這里。 - 內(nèi)存虛擬化
內(nèi)存虛擬化的核心任務(wù)是實現(xiàn)地址空間虛擬化,一般的實現(xiàn)原理是這樣的:
圖2:地址空間虛擬化實現(xiàn)
通過兩次地址轉(zhuǎn)化來支持地址空間虛擬化:GVA(Guest Virtual Address)->GPA(Guest Physical Address)->GMA(Host Physical Address).其中VA->PA的轉(zhuǎn)換由guest完成,通常是通過VMCS中的客戶機狀態(tài)域CR3指向的頁表來指定;PA->MA的轉(zhuǎn)換由宿主機完成,一般在guest建立時就分配好固定的物理內(nèi)存,并采用一定的數(shù)據(jù)結(jié)構(gòu)記錄響應(yīng)的映射關(guān)系。
傳統(tǒng)的IA架構(gòu)只支持一次地址轉(zhuǎn)換,即CR3指向的頁表來實現(xiàn)虛擬地址到物理地址的轉(zhuǎn)化(即VA->PA的轉(zhuǎn)化),這和上面的過程中要求的兩次地址轉(zhuǎn)換是矛盾的,因此為解決這個問題,Intel引入了VT-x技術(shù),在原有的一次地址轉(zhuǎn)換基礎(chǔ)上,又引入了EPT頁表實現(xiàn)PA->MA的轉(zhuǎn)換,從而在硬件上支持了兩次地址轉(zhuǎn)化,大大提高了地址轉(zhuǎn)換的性能。
關(guān)于EPT的工作原理如圖3描述::
圖3:EPT工作原理
首先根據(jù)VA的地址和CR3指向的頁表計算出PA,在通過EPT頁表實現(xiàn)PA->MA的地址轉(zhuǎn)化。關(guān)于內(nèi)存虛擬化的詳細介紹,還可以參考這里和這里。 - IO虛擬化
IO虛擬化包括管理虛擬設(shè)備和物理硬件之間的IO請求的路由選擇。實現(xiàn)方式可以劃分為:全虛擬化、半虛擬化,IO透傳,SR-IOV。
其中全虛擬化是指客戶機的所有功能或總線結(jié)構(gòu)都可以在宿主機上進行模擬,宿主機通過截獲客戶機的I/O請求,通過軟件來完全模擬硬件。盡管這樣模擬得很徹底,但效率卻比較低(需要由VMM來捕獲特權(quán)指令和翻譯地址)。
半虛擬化是指客戶機能夠感知自己是虛擬機,執(zhí)行特權(quán)指令時直接向hypervisor call調(diào)用,省去指令的翻譯過程,從而提升性能。
I/O透傳是指直接將物理設(shè)備分配給虛擬使用,這種方式需要硬件平臺具備I/O透傳技術(shù),能獲取到近乎本地的性能,且CPU開銷小。透傳的使用通常結(jié)合intel VT-D來使用。
SR-IOV主要用來解決透傳時一個物理硬件只能被一臺虛擬子機訪問的問題。SR-IOV需要網(wǎng)卡硬件支持,支持SR-IOV功能的網(wǎng)卡(PF)可以在Hypervior里面注冊成多個網(wǎng)卡(VF)(每個網(wǎng)卡都獨立的中斷ID、收發(fā)隊列、QOS管理機制),每個VF可以通過pass-through方式分配給虛擬子機。
關(guān)于這塊的資料比較多,就不展開介紹,想了解的可以點這里和這里。
DPDK通過virtio和vhost PMD來實現(xiàn)IO的半虛擬化功能。此外,DPDK還支持I/O透傳,SR-IOV等特性,進一步提升IO性能。
除了X86服務(wù)器平臺的虛擬化,還有些比較重要的領(lǐng)域就是網(wǎng)絡(luò)虛擬化(NFV)和軟件定義網(wǎng)絡(luò)(SDN)。
- NFV
即網(wǎng)絡(luò)功能虛擬化,Network Function Virtualization。通過使用x86等通用性硬件以及虛擬化技術(shù),來承載很多功能的軟件處理。從而降低網(wǎng)絡(luò)昂貴的設(shè)備成本。可以通過軟硬件解耦及功能抽象,使網(wǎng)絡(luò)設(shè)備功能不再依賴于專用硬件,資源可以充分靈活共享,實現(xiàn)新業(yè)務(wù)的快速開發(fā)和部署,并基于實際業(yè)務(wù)需求進行自動部署、彈性伸縮、故障隔離和自愈等。關(guān)于NFV的概念可以參考這里。
其中NFV框架中所有的軟件功能都由虛擬的VNF來實現(xiàn),虛機本身的性能就存在很大的優(yōu)化空間。當考慮VNF性能時,需要考慮本身的架構(gòu)設(shè)計,以及NFVI能夠提供的硬件資源能力和交互接口等等。
一般上在系統(tǒng)整體架構(gòu)上需要考慮如下幾點:- VNF本身特性:計算密集型?IO密集型?內(nèi)存密集型?有可能是多種特性集一身
- 系統(tǒng)資源的分配:評估VNF或者VNF子模塊對處理器、內(nèi)存、存儲、網(wǎng)絡(luò)的需求
- 網(wǎng)卡虛擬化接口的選擇:是否獨占物理網(wǎng)卡,獨占的化使用透傳技術(shù),否則需要共享。還需要考慮接口的性能、遷移性、維護性、安全性等
- 網(wǎng)卡輪詢和中斷模式的選擇:輪詢模式CPU占比高,但網(wǎng)絡(luò)吞吐性能高,100%占有一個core來進行收包是否合理? 中斷模式CPU占有率低,但處理小包的性能不高
- 硬件加速功能的考慮:支持硬件卸載的網(wǎng)卡,定制的FPGA,QAT加速卡等是否可以和業(yè)務(wù)配合使用?
- QOS保證:多VNF運行在同一臺服務(wù)器時,由于物理資源共享,各VNF對資源的使用率又不盡相同,可能會造成互相干擾性能下降
- 是否需要支持動態(tài)遷移:這個對IO,內(nèi)存,CPU等都會提出特殊要求
- SDN
SDN主要是一種實現(xiàn)網(wǎng)絡(luò)框架,最重要的三個概念是:可編程(開放的API接口)、控制平面與數(shù)據(jù)平面分離,以及集中式控制模型。基于SDN的網(wǎng)絡(luò)架構(gòu)可以更容易地實現(xiàn)網(wǎng)絡(luò)虛擬化。關(guān)于SDN的概念討論可以參考這里。
目前DPDK對SDN的支持可以落在以下幾個點上:- 對數(shù)據(jù)轉(zhuǎn)發(fā)面的優(yōu)化,包括提升VNF的性能、和ovs的結(jié)合
- SFC(軟件服務(wù)鏈)轉(zhuǎn)發(fā)性能優(yōu)化,多個SF之間的數(shù)據(jù)交互,可以不用過vswitch,而是直接通過virtio-pci進行傳輸。
DPDK的實現(xiàn)
DPDK對I/O虛擬化的支持主要集中在I/O半虛擬化,通過提供virtio PMD 和 vhost后端加速驅(qū)動來提升I/O處理性能;此外,對于SR-IOV虛擬出來的PF和VF也提供了VMDQ來支持,下面來分別展開介紹。
virtio
virtio是一種半虛擬化的設(shè)備抽象接口規(guī)范,在guest操作系統(tǒng)中實現(xiàn)的前端驅(qū)動程序一般直接稱為virtio,在host操作系統(tǒng)實現(xiàn)的后端驅(qū)動從程序通常稱為vhost。與guest端純軟件模擬I/O(如e1000,rt18139)相比,virtio可以提供很好的I/O性能,雖然同I/O透傳技術(shù)或者SR-IOV技術(shù)相比,目前在網(wǎng)絡(luò)吞吐率、時延以及抖動性各方面相比都不具備優(yōu)勢,相關(guān)的優(yōu)化工作正在進行當中。此外,使用virtio技術(shù)可以支持虛擬機的動態(tài)遷移以及靈活的流分類規(guī)則。
圖4:常見的使用架構(gòu)
virtio主要有兩個版本,0.95和1.0,其規(guī)定的實現(xiàn)接口有PCI,MMIO和Channel IO方式,其中Channel IO方式是在1.0版本中新增的。PCI是現(xiàn)代計算機系統(tǒng)中普遍使用的一種總線接口,最新規(guī)范為PCI-e,DPDK目前只支持PCI接口方式。
Virtio 使用 virtqueue 來實現(xiàn)其 I/O 機制,每個 virtqueue 就是一個承載大量數(shù)據(jù)的 queue。vring 是 virtqueue 的具體實現(xiàn)方式,針對 vring 會有相應(yīng)的描述符表格進行描述。框架如下圖所示:
圖5 virtio詳細框架
其中比較重要的幾個概念是:
- 設(shè)備的配置:初始化、配置PCI設(shè)備空間和特性、中斷配置和專屬配置
- 虛擬隊列的配置:virtqueue、vring、descriptor table、avaliable ring和used ring的使用
- 設(shè)備的使用
- 驅(qū)動向設(shè)備提供緩沖區(qū)并寫入數(shù)據(jù)
- 設(shè)備使用數(shù)據(jù)及歸還緩沖區(qū)
關(guān)于virtio的基本概念和設(shè)備操作可以參考這里,對于補充virtio相關(guān)基礎(chǔ)知識個人認為介紹的足夠了。
dpdk對virtio的實現(xiàn)
virtio在linux內(nèi)核和dpdk都有相應(yīng)的驅(qū)動,其中l(wèi)inux內(nèi)核版本功能更加全面,dpdk版本更注重性能。可以先參考下內(nèi)核中對virtio的實現(xiàn)抽象層次:
- 第一層抽象:底層PCI-e設(shè)備層,負責檢測PCI-e設(shè)備,并初始化設(shè)備對應(yīng)的驅(qū)動程序,提供兩個抽象類:virtio_driver和virtio_device
- 第二層抽像:中間virio虛擬隊列層,實現(xiàn)virtqueue,提供類:vring_virtqueue,vring等
- 第三層抽象:上層網(wǎng)絡(luò)設(shè)備層,實現(xiàn)底層的兩個抽象類:virtio_net_driver和dev,能夠供應(yīng)用軟件將其看成普通的網(wǎng)口使用
對應(yīng)的dpdk驅(qū)動也是按照這個思路來進行實現(xiàn)的,pmd驅(qū)動文件的組成見下圖(參考17.05版本,目錄為:dpdk-17.05\drivers\net\virtio\):
圖6:virtio pmd文件組成
除了上圖中框出的文件,還有和virtio_user相關(guān)的文件主要用來實現(xiàn)類似KNI的exception path,這塊內(nèi)容放到其它篇幅再繼續(xù)研究,這里先跳過。
第一層抽象
//drivers\net\virio\virtio_pic.h/*第一大塊:virtio設(shè)備的配置相關(guān)宏定義*/ /* VirtIO PCI vendor/device ID. */ #define VIRTIO_PCI_VENDORID 0x1AF4 #define VIRTIO_PCI_LEGACY_DEVICEID_NET 0x1000 #define VIRTIO_PCI_MODERN_DEVICEID_NET 0x1041/** VirtIO Header, located in BAR 0* 具體的相關(guān)宏定義可參考virtio設(shè)備標準*/ #define VIRTIO_PCI_HOST_FEATURES 0 /* host's supported features (32bit, RO)*/ #define VIRTIO_PCI_GUEST_FEATURES 4 /* guest's supported features (32, RW) */ #define VIRTIO_PCI_QUEUE_PFN 8 /* physical address of VQ (32, RW) */ #define VIRTIO_PCI_QUEUE_NUM 12 /* number of ring entries (16, RO) */ #define VIRTIO_PCI_QUEUE_SEL 14 /* current VQ selection (16, RW) */ #define VIRTIO_PCI_QUEUE_NOTIFY 16 /* notify host regarding VQ (16, RW) */ #define VIRTIO_PCI_STATUS 18 /* device status register (8, RW) */ #define VIRTIO_PCI_ISR 19 /* interrupt status register, reading* also clears the register (8, RO) */ /* Only if MSIX is enabled: */ #define VIRTIO_MSI_CONFIG_VECTOR 20 /* configuration change vector (16, RW) */ #define VIRTIO_MSI_QUEUE_VECTOR 22 /* vector for selected VQ notifications(16, RW) *//* The bit of the ISR which indicates a device has an interrupt. */ #define VIRTIO_PCI_ISR_INTR 0x1 /* The bit of the ISR which indicates a device configuration change. */ #define VIRTIO_PCI_ISR_CONFIG 0x2 /* Vector value used to disable MSI for queue. */ #define VIRTIO_MSI_NO_VECTOR 0xFFFF/* VirtIO device IDs. virtio不止有網(wǎng)卡,還有存儲、內(nèi)存等等*/ #define VIRTIO_ID_NETWORK 0x01 #define VIRTIO_ID_BLOCK 0x02 #define VIRTIO_ID_CONSOLE 0x03 #define VIRTIO_ID_ENTROPY 0x04 #define VIRTIO_ID_BALLOON 0x05 #define VIRTIO_ID_IOMEMORY 0x06 #define VIRTIO_ID_9P 0x09/* Status byte for guest to report progress. * 當驅(qū)動初始化一個virtio設(shè)備時,通過設(shè)備狀態(tài)來反應(yīng)進度 */ #define VIRTIO_CONFIG_STATUS_RESET 0x00 #define VIRTIO_CONFIG_STATUS_ACK 0x01 #define VIRTIO_CONFIG_STATUS_DRIVER 0x02 #define VIRTIO_CONFIG_STATUS_DRIVER_OK 0x04 #define VIRTIO_CONFIG_STATUS_FEATURES_OK 0x08 #define VIRTIO_CONFIG_STATUS_FAILED 0x80/** Each virtqueue indirect descriptor list must be physically contiguous.* To allow us to malloc(9) each list individually, limit the number* supported to what will fit in one page. With 4KB pages, this is a limit* of 256 descriptors. If there is ever a need for more, we can switch to* contigmalloc(9) for the larger allocations, similar to what* bus_dmamem_alloc(9) does.** Note the sizeof(struct vring_desc) is 16 bytes.*/ #define VIRTIO_MAX_INDIRECT ((int) (PAGE_SIZE / 16))/* The feature bitmap for virtio net * 對網(wǎng)卡設(shè)備,一些feature的定義 */ #define VIRTIO_NET_F_CSUM 0 /* Host handles pkts w/ partial csum */ #define VIRTIO_NET_F_GUEST_CSUM 1 /* Guest handles pkts w/ partial csum */ #define VIRTIO_NET_F_MTU 3 /* Initial MTU advice. */ #define VIRTIO_NET_F_MAC 5 /* Host has given MAC address. */ #define VIRTIO_NET_F_GUEST_TSO4 7 /* Guest can handle TSOv4 in. */ #define VIRTIO_NET_F_GUEST_TSO6 8 /* Guest can handle TSOv6 in. */ #define VIRTIO_NET_F_GUEST_ECN 9 /* Guest can handle TSO[6] w/ ECN in. */ #define VIRTIO_NET_F_GUEST_UFO 10 /* Guest can handle UFO in. */ #define VIRTIO_NET_F_HOST_TSO4 11 /* Host can handle TSOv4 in. */ #define VIRTIO_NET_F_HOST_TSO6 12 /* Host can handle TSOv6 in. */ #define VIRTIO_NET_F_HOST_ECN 13 /* Host can handle TSO[6] w/ ECN in. */ #define VIRTIO_NET_F_HOST_UFO 14 /* Host can handle UFO in. */ #define VIRTIO_NET_F_MRG_RXBUF 15 /* Host can merge receive buffers. */ #define VIRTIO_NET_F_STATUS 16 /* virtio_net_config.status available */ #define VIRTIO_NET_F_CTRL_VQ 17 /* Control channel available */ #define VIRTIO_NET_F_CTRL_RX 18 /* Control channel RX mode support */ #define VIRTIO_NET_F_CTRL_VLAN 19 /* Control channel VLAN filtering */ #define VIRTIO_NET_F_CTRL_RX_EXTRA 20 /* Extra RX mode control support */ #define VIRTIO_NET_F_GUEST_ANNOUNCE 21 /* Guest can announce device on the* network */ #define VIRTIO_NET_F_MQ 22 /* Device supports Receive Flow* Steering */ #define VIRTIO_NET_F_CTRL_MAC_ADDR 23 /* Set MAC address *//* Do we get callbacks when the ring is completely used, even if we've* suppressed them?,暫未實現(xiàn) */ #define VIRTIO_F_NOTIFY_ON_EMPTY 24/* Can the device handle any descriptor layout? 用來優(yōu)化對vring的使用 */ #define VIRTIO_F_ANY_LAYOUT 27/* We support indirect buffer descriptors */ #define VIRTIO_RING_F_INDIRECT_DESC 28#define VIRTIO_F_VERSION_1 32 #define VIRTIO_F_IOMMU_PLATFORM 33/** Some VirtIO feature bits (currently bits 28 through 31) are* reserved for the transport being used (eg. virtio_ring), the* rest are per-device feature bits.*/ #define VIRTIO_TRANSPORT_F_START 28 #define VIRTIO_TRANSPORT_F_END 34/* The Guest publishes the used index for which it expects an interrupt* at the end of the avail ring. Host should ignore the avail->flags field. */ /* The Host publishes the avail index for which it expects a kick* at the end of the used ring. Guest should ignore the used->flags field. */ #define VIRTIO_RING_F_EVENT_IDX 29#define VIRTIO_NET_S_LINK_UP 1 /* Link is up */ #define VIRTIO_NET_S_ANNOUNCE 2 /* Announcement is needed *//** Maximum number of virtqueues per device.* 底層驅(qū)動和設(shè)備對queue的支持*/ #define VIRTIO_MAX_VIRTQUEUE_PAIRS 8 #define VIRTIO_MAX_VIRTQUEUES (VIRTIO_MAX_VIRTQUEUE_PAIRS * 2 + 1)/* Common configuration */ #define VIRTIO_PCI_CAP_COMMON_CFG 1 /* Notifications */ #define VIRTIO_PCI_CAP_NOTIFY_CFG 2 /* ISR Status */ #define VIRTIO_PCI_CAP_ISR_CFG 3 /* Device specific configuration */ #define VIRTIO_PCI_CAP_DEVICE_CFG 4 /* PCI configuration access */ #define VIRTIO_PCI_CAP_PCI_CFG 5/*第二大塊:相關(guān)數(shù)據(jù)結(jié)構(gòu),主要是對設(shè)備的配置相關(guān)*/ /* This is the PCI capability header: */ struct virtio_pci_cap {uint8_t cap_vndr; /* Generic PCI field: PCI_CAP_ID_VNDR */uint8_t cap_next; /* Generic PCI field: next ptr. */uint8_t cap_len; /* Generic PCI field: capability length */uint8_t cfg_type; /* Identifies the structure. */uint8_t bar; /* Where to find it. */uint8_t padding[3]; /* Pad to full dword. */uint32_t offset; /* Offset within bar. */uint32_t length; /* Length of the structure, in bytes. */ };struct virtio_pci_notify_cap {struct virtio_pci_cap cap;uint32_t notify_off_multiplier; /* Multiplier for queue_notify_off. */ };/* Fields in VIRTIO_PCI_CAP_COMMON_CFG: */ struct virtio_pci_common_cfg {/* About the whole device. */uint32_t device_feature_select; /* read-write */uint32_t device_feature; /* read-only */uint32_t guest_feature_select; /* read-write */uint32_t guest_feature; /* read-write */uint16_t msix_config; /* read-write */uint16_t num_queues; /* read-only */uint8_t device_status; /* read-write */uint8_t config_generation; /* read-only *//* About a specific virtqueue. */uint16_t queue_select; /* read-write */uint16_t queue_size; /* read-write, power of 2. */uint16_t queue_msix_vector; /* read-write */uint16_t queue_enable; /* read-write */uint16_t queue_notify_off; /* read-only */uint32_t queue_desc_lo; /* read-write */uint32_t queue_desc_hi; /* read-write */uint32_t queue_avail_lo; /* read-write */uint32_t queue_avail_hi; /* read-write */uint32_t queue_used_lo; /* read-write */uint32_t queue_used_hi; /* read-write */ };struct virtio_hw;/*對virtio設(shè)備進行操作的函數(shù)指針結(jié)構(gòu)*/ struct virtio_pci_ops {void (*read_dev_cfg)(struct virtio_hw *hw, size_t offset,void *dst, int len);void (*write_dev_cfg)(struct virtio_hw *hw, size_t offset,const void *src, int len);void (*reset)(struct virtio_hw *hw);uint8_t (*get_status)(struct virtio_hw *hw);void (*set_status)(struct virtio_hw *hw, uint8_t status);uint64_t (*get_features)(struct virtio_hw *hw);void (*set_features)(struct virtio_hw *hw, uint64_t features);uint8_t (*get_isr)(struct virtio_hw *hw);uint16_t (*set_config_irq)(struct virtio_hw *hw, uint16_t vec);uint16_t (*set_queue_irq)(struct virtio_hw *hw, struct virtqueue *vq,uint16_t vec);uint16_t (*get_queue_num)(struct virtio_hw *hw, uint16_t queue_id);int (*setup_queue)(struct virtio_hw *hw, struct virtqueue *vq);void (*del_queue)(struct virtio_hw *hw, struct virtqueue *vq);void (*notify_queue)(struct virtio_hw *hw, struct virtqueue *vq); };struct virtio_net_config;/*底層的device抽象*/ struct virtio_hw {struct virtnet_ctl *cvq;uint64_t req_guest_features;uint64_t guest_features;uint32_t max_queue_pairs;uint16_t started;uint16_t max_mtu;uint16_t vtnet_hdr_size;uint8_t vlan_strip;uint8_t use_msix;uint8_t modern;uint8_t use_simple_rxtx;uint8_t port_id;uint8_t mac_addr[ETHER_ADDR_LEN];uint32_t notify_off_multiplier;uint8_t *isr;uint16_t *notify_base;struct virtio_pci_common_cfg *common_cfg;struct virtio_net_config *dev_cfg;void *virtio_user_dev;struct virtqueue **vqs; };/** While virtio_hw is stored in shared memory, this structure stores* some infos that may vary in the multiple process model locally.* For example, the vtpci_ops pointer.* 針對多核的優(yōu)化,將常用訪問字段放到process的local mem里*/ struct virtio_hw_internal {const struct virtio_pci_ops *vtpci_ops;struct rte_pci_ioport io; };#define VTPCI_OPS(hw) (virtio_hw_internal[(hw)->port_id].vtpci_ops) #define VTPCI_IO(hw) (&virtio_hw_internal[(hw)->port_id].io)extern struct virtio_hw_internal virtio_hw_internal[RTE_MAX_ETHPORTS];/** This structure is just a reference to read* net device specific config space; it just a chodu structure* 這個結(jié)構(gòu)體更像是為上傳抽象提供的相關(guān)組合字段*/ struct virtio_net_config {/* The config defining mac address (if VIRTIO_NET_F_MAC) */uint8_t mac[ETHER_ADDR_LEN];/* See VIRTIO_NET_F_STATUS and VIRTIO_NET_S_* above */uint16_t status;uint16_t max_virtqueue_pairs;uint16_t mtu; } __attribute__((packed));/** How many bits to shift physical queue address written to QUEUE_PFN.* 12 is historical, and due to x86 page size.*/ #define VIRTIO_PCI_QUEUE_ADDR_SHIFT 12/* The alignment to use between consumer and producer parts of vring. */ #define VIRTIO_PCI_VRING_ALIGN 4096static inline int vtpci_with_feature(struct virtio_hw *hw, uint64_t bit) {return (hw->guest_features & (1ULL << bit)) != 0; }/* 第三大塊:函數(shù)聲明,對外提供的操作接口* Function declaration from virtio_pci.c*/ int vtpci_init(struct rte_pci_device *dev, struct virtio_hw *hw); void vtpci_reset(struct virtio_hw *);void vtpci_reinit_complete(struct virtio_hw *);uint8_t vtpci_get_status(struct virtio_hw *); void vtpci_set_status(struct virtio_hw *, uint8_t);uint64_t vtpci_negotiate_features(struct virtio_hw *, uint64_t);void vtpci_write_dev_config(struct virtio_hw *, size_t, const void *, int);void vtpci_read_dev_config(struct virtio_hw *, size_t, void *, int);uint8_t vtpci_isr(struct virtio_hw *);/*關(guān)于0.95和1.0的版本差異前面已經(jīng)介紹,具體的ops函數(shù)需要區(qū)分兩個版本分別實現(xiàn)*/ extern const struct virtio_pci_ops legacy_ops;//ver 0.95 extern const struct virtio_pci_ops modern_ops;//ver 1.0 extern const struct virtio_pci_ops virtio_user_ops;關(guān)于實現(xiàn)這塊沒有太多需要解釋的,主要是針對頭文件中定義的相關(guān)函數(shù)和操作進行實現(xiàn),需要注意的是需要區(qū)分legacy和modern兩種版本,簡單看一個函數(shù)具體實現(xiàn)
//drivers\net\virio\virtio_pic.c /** 初始化函數(shù)中,需要根據(jù)virtio的特性自動識別版本* Return -1:* if there is error mapping with VFIO/UIO.* if port map error when driver type is KDRV_NONE.* if whitelisted but driver type is KDRV_UNKNOWN.* Return 1 if kernel driver is managing the device.* Return 0 on success.*/ int vtpci_init(struct rte_pci_device *dev, struct virtio_hw *hw) {/** Try if we can succeed reading virtio pci caps, which exists* only on modern pci device. If failed, we fallback to legacy* virtio handling.*/if (virtio_read_caps(dev, hw) == 0) {PMD_INIT_LOG(INFO, "modern virtio pci detected.");virtio_hw_internal[hw->port_id].vtpci_ops = &modern_ops;hw->modern = 1;return 0;}/*如果失敗,就嘗試綁定legacy操作*/PMD_INIT_LOG(INFO, "trying with legacy virtio pci.");if (rte_pci_ioport_map(dev, 0, VTPCI_IO(hw)) < 0) {//跳過內(nèi)核管理的virtioif (dev->kdrv == RTE_KDRV_UNKNOWN &&(!dev->device.devargs ||dev->device.devargs->type !=RTE_DEVTYPE_WHITELISTED_PCI)) {PMD_INIT_LOG(INFO,"skip kernel managed virtio device.");return 1;}return -1;}virtio_hw_internal[hw->port_id].vtpci_ops = &legacy_ops;hw->modern = 0;return 0; }第二層抽象
本層中比較重要的數(shù)據(jù)結(jié)構(gòu)是vring,virtqueue:
//drivers\net\virtio\virtio_ring.h /* 每個描述符代表guest側(cè)的一個數(shù)據(jù)緩沖區(qū),供guest和host傳遞數(shù)據(jù)。* 如果要傳遞的數(shù)據(jù)大于一個desc的容量,可以包含多個desc,由next串起來*/ struct vring_desc {uint64_t addr; /* Address (guest-physical). */uint32_t len; /* Length. */uint16_t flags; /* The flags as indicated above. */uint16_t next; /* We chain unused descriptors via this. */ };/* id is a 16bit index. uint32_t is used here for ids for padding reasons. */ struct vring_used_elem {/* Index of start of used descriptor chain. */uint32_t id;/* Total length of the descriptor chain which was written to. */uint32_t len; };/* vring的布局:num個vring_desc + available ring size + pad + used ring size* The standard layout for the ring is a continuous chunk of memory which* looks like this. We assume num is a power of 2.* NOTE: for VirtIO PCI, align is 4096. */struct vring {// The actual descriptors (16 bytes each)struct vring_desc desc[num];/*可用環(huán)表,由驅(qū)動提供(寫入),設(shè)備使用(讀取)。*/__u16 avail_flags;__u16 avail_idx;__u16 available[num];__u16 used_event_idx;// Padding to the next align boundary.char pad[];/*已用環(huán)表,由設(shè)備提供(寫入),驅(qū)動使用(讀取)*/__u16 used_flags;__u16 used_idx;struct vring_used_elem used[num];__u16 avail_event_idx;};/*vring size的計算公式*/vring_size(unsigned int num, unsigned long align) {size_t size;size = num * sizeof(struct vring_desc);size += sizeof(struct vring_avail) + (num * sizeof(uint16_t));size = RTE_ALIGN_CEIL(size, align);size += sizeof(struct vring_used) +(num * sizeof(struct vring_used_elem));return size; }關(guān)于available ring和used ring中的flags字段,需要特別解釋下:
- available ring flag:該環(huán)中的desc可能是可讀,也可能是可寫的。可寫的是指驅(qū)動提供給設(shè)備的desc,供設(shè)備寫入后還需要傳回給驅(qū)動;可讀的則是用于發(fā)送驅(qū)動的數(shù)據(jù)到設(shè)備中。flag可以用來標示設(shè)備在使用了desc后是否發(fā)送中斷給驅(qū)動。
- used ring flag:表示已用環(huán)表的一些屬性,包括是否需要驅(qū)動在回收了已用環(huán)表中的表項后發(fā)送提醒給設(shè)備。
每個設(shè)備擁有多個 virtqueue 用于大塊數(shù)據(jù)的傳輸。virtqueue 是一個簡單的隊列(其中包括vring),guest 把 buffers 插入其中,每個 buffer 都是一個分散-聚集數(shù)組。virtqueue 的數(shù)目根據(jù)設(shè)備的不同而不同,例如network 設(shè)備通常有 2 個 virtqueue,一個用于發(fā)送數(shù)據(jù)包,一個用于接收數(shù)據(jù)包。
第三層抽象
本層實現(xiàn)virtio設(shè)備以及對設(shè)備的各種操作函數(shù)。對virtio設(shè)備的初始化配置以及特性設(shè)置主要集中在virtio_ethdev.c中實現(xiàn)。
這一步的實現(xiàn)代碼比較多,僅羅列一些比較重要的,感興趣的可深入閱讀相關(guān)接口。
設(shè)備初始化好后,virtio設(shè)備的使用主要包括兩部分:驅(qū)動通過描述符列表和可用環(huán)表提供數(shù)據(jù)緩沖區(qū)給設(shè)備,設(shè)備使用數(shù)據(jù)緩沖區(qū)再通過已用環(huán)表還給驅(qū)動。以網(wǎng)卡為例:網(wǎng)絡(luò)設(shè)備一般有兩個vq:發(fā)包隊列和接收隊列。驅(qū)動添加要發(fā)送的包到發(fā)送隊列,然后設(shè)備讀取并發(fā)送完成后,驅(qū)動再釋放這些包。反方向,設(shè)備將包寫入到接收隊列中,驅(qū)動則在已用環(huán)表中處理這些包。
先看收包函數(shù):
再看發(fā)包函數(shù):
virtio_xmit_pkts(void *tx_queue, struct rte_mbuf **tx_pkts, uint16_t nb_pkts) {......virtio_rmb();//加鎖/*如果已用環(huán)表空間不足,將已經(jīng)傳輸完成的釋放掉*/if (likely(nb_used > vq->vq_nentries - vq->vq_free_thresh))virtio_xmit_cleanup(vq, nb_used);for (nb_tx = 0; nb_tx < nb_pkts; nb_tx++) {struct rte_mbuf *txm = tx_pkts[nb_tx];int can_push = 0, use_indirect = 0, slots, need;.../* 實際的發(fā)包函數(shù),將txm中的數(shù)據(jù)通過txvq發(fā)送出去 */virtqueue_enqueue_xmit(txvq, txm, slots, use_indirect, can_push);txvq->stats.bytes += txm->pkt_len;virtio_update_packet_stats(&txvq->stats, txm);}txvq->stats.packets += nb_tx;/*通知host*/if (likely(nb_tx)) {vq_update_avail_idx(vq);if (unlikely(virtqueue_kick_prepare(vq))) {virtqueue_notify(vq);PMD_TX_LOG(DEBUG, "Notified backend after xmit");}}return nb_tx; }virtqueue_enqueue_xmit(struct virtnet_tx *txvq, struct rte_mbuf *cookie,uint16_t needed, int use_indirect, int can_push) {....do {start_dp[idx].addr = VIRTIO_MBUF_DATA_DMA_ADDR(cookie, vq);start_dp[idx].len = cookie->data_len;start_dp[idx].flags = cookie->next ? VRING_DESC_F_NEXT : 0;idx = start_dp[idx].next;} while ((cookie = cookie->next) != NULL);if (use_indirect)idx = vq->vq_ring.desc[head_idx].next;vq->vq_desc_head_idx = idx;if (vq->vq_desc_head_idx == VQ_RING_DESC_CHAIN_END)vq->vq_desc_tail_idx = idx;vq->vq_free_cnt = (uint16_t)(vq->vq_free_cnt - needed);//把cookie內(nèi)容放入desc中,更新可用環(huán)表vq_update_avail_ring(vq, head_idx); }關(guān)于virtio的其它學習資料,還可以參考這里以及這里。
vhost
vhost就是virtio-net的后端驅(qū)動,關(guān)于dpdk vhost這部分資料總結(jié)和介紹,可以參考之前整理的文檔:
- dpdk vhost研究(一)
- dpdk vhost研究(二)
- dpdk vhost研究(三)
SR-IOV
SR-IOV 是PCI-SIG的一個IOV的規(guī)范,目的是提供一種標準規(guī)范,通過為虛擬機提供獨立的內(nèi)存空間,中斷,DMA流,來繞過VMM實現(xiàn)數(shù)據(jù)移動。SR-IOV 架構(gòu)被設(shè)計用于將單個設(shè)備通過支持多個VF,并減少硬件的開銷。
SR-IOV 引入了兩種類型:
- PF: 包含完整的PCIe 功能,包括SR-IOV的擴展能力,其包含用于配置和管理 SR-IOV 的功能。可以使用 PF 來配置和控制 PCIe 設(shè)備,且 PF 具有將數(shù)據(jù)移入和移出設(shè)備的完整功能。
- FV: 包含輕量級的PCIe 功能。其包含數(shù)據(jù)移動所需的所有資源,且具有一套經(jīng)過仔細精簡的配置資源集。
要實現(xiàn)SRIOV功能,前提條件就是網(wǎng)卡硬件首先要支持SRIOV,其次主板要支持intel VT-d技術(shù)。
SR-IOV的結(jié)構(gòu)圖實現(xiàn)如下:
圖7 SR-IOV架構(gòu)圖
以上圖為例逐個解釋關(guān)鍵詞:
啟用SRIOV之后,物理NIC將通過VF與虛擬機(VF driver)進行數(shù)據(jù)交互,反之亦然。那么這樣一來即可跳過中間的虛擬化堆棧(即VMM層),以達到近乎于純物理環(huán)境的性能;這一點也是SRIOV最大的價值所在。
關(guān)于更詳細的介紹資料和實驗數(shù)據(jù)對比,可以參考這里和這里
關(guān)于dpdk使用SR-IOV的參考資料在這里。
摘自上面的資料,使用SR_IOV技術(shù)和純物理機,以及用戶態(tài)的ovs性能對比如下:
圖8:不同技術(shù)的性能對比
比較典型的IMIX流量中小包占比會在50%~60%之間,從上表可以看到SR-IOV的測試數(shù)據(jù)中小包處理能力在70%左右,這就表明該技術(shù)在實際的使用環(huán)境中能夠應(yīng)對絕大多數(shù)場景;而OVS在此方面的優(yōu)化還需要繼續(xù)努力。
另外關(guān)于dpdk使用SR-IOV的配置,可以參考如下:
熱遷移相關(guān)
從上面的介紹了解,要使用DPDK技術(shù),在VM中可以使用virtio驅(qū)動,也可以使用硬件網(wǎng)卡提供的SR-IOV VF來支持。對于熱遷移來說,就需要針對兩種驅(qū)動單獨考慮。
如何使用
DPDK關(guān)于使用兩種驅(qū)動的測試用例在官網(wǎng)有提供,可以參考:
- Live Migration of VM with SR-IOV VF,由于這種驅(qū)動是硬件提供switch來完成報文到VF的分發(fā),很難去感知VM的遷移,因此需要借助其他技術(shù)來實現(xiàn)遷移,文中提到的使用bond口就是當前的實現(xiàn)方案
- Live Migration of Vm with Virtio on host running vhost-user,這種驅(qū)動中使用的vswitch功能,因此還是比較好實現(xiàn)VM的遷移的。
結(jié)合ovs的測試方法,可以參考這里。
代碼相關(guān)支持
對代碼的修改主要是由以下patch來完成:
- Patch 1 handles VHOST_USER_SET_LOG_BASE, which tells us where
the dirty memory bitmap is.
- Patch 2 introduces a vhost_log_write() helper function to log
pages we are gonna change. 對端vm通過同步這些page即可完成狀態(tài)的遷移。
- Patch 3 logs changes we made to used vring.
- Patch 4 sets log_shmfd protocol feature bit, which actually
enables the vhost-user live migration support.
RARP報文
構(gòu)造免費ARP報文RARP來解決vm遷移后的丟包問題
研究拓
作者:分享放大價值
鏈接:http://www.jianshu.com/p/08ba1ea13729
來源:簡書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。
轉(zhuǎn)載于:https://www.cnblogs.com/allcloud/p/7717181.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的dpdk对虚拟化的支持调研的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。