久久精品国产精品国产精品污,男人扒开添女人下部免费视频,一级国产69式性姿势免费视频,夜鲁夜鲁很鲁在线视频 视频,欧美丰满少妇一区二区三区,国产偷国产偷亚洲高清人乐享,中文 在线 日韩 亚洲 欧美,熟妇人妻无乱码中文字幕真矢织江,一区二区三区人妻制服国产

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > linux >内容正文

linux

操作系统与存储:解析Linux内核全新异步IO引擎io_uring设计与实现

發(fā)布時間:2024/2/28 linux 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 操作系统与存储:解析Linux内核全新异步IO引擎io_uring设计与实现 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者:draculaqian,騰訊后臺開發(fā)工程師

引言

存儲場景中,我們對性能的要求非常高。在存儲引擎底層的IO技術選型時,可能會有如下討論關于IO的討論。

http://davmac.org/davpage/linux/async-io.html
So from the above documentation, it seems that Linux doesn't have a true async file I/O that is not blocking (AIO, Epoll or POSIX AIO are all broken in some ways). I wonder if tlinux has any remedy. We should reach out to tlinux experts to get their opinions.

看完這段話,讀者可能會有如下的問題。

  • 這是在討論什么,為何會有此番討論?

  • 有沒有更好的解決方案?

  • 更好的解決方案是通過怎樣的設計和實現(xiàn)解決問題?

  • ...

  • 2019年,Linux Kernel正式進入5.x時代,眾多新特性中,與存儲領域相關度最高的便是最新的IO引擎——io_uring。從一些性能測試的結論來看,io_uring性能遠高于native AIO方式,帶來了巨大的性能提升,這對當前異步IO領域也是一個big news。

  • 對于問題1,本文簡述了Linux過往的的IO發(fā)展歷程,同步IO接口、原生異步IO接口AIO的缺陷,為何原有方式存在缺陷。

  • 對于問題2,本文從設計的角度出發(fā),介紹了最新的IO引擎io_uring的相關內(nèi)容。

  • 對于問題3,本文深入最新版內(nèi)核linux-5.10中解析了io_uring的大體實現(xiàn)(關鍵數(shù)據(jù)結構、流程、特性實現(xiàn)等)。

  • ...

  • 一切過往,皆為序章

    以史為鏡,可以知興替。我們先看看現(xiàn)存過往IO接口的缺陷。

    過往同步IO接口

    當今Linux對文件的操作有很多種方式,過往同步IO接口從功能上劃分,大體分為如下幾種。

    • 原始版本

    • offset版本

    • 向量版本

    • offset+向量版本

    read,write

    最原始的文件IO系統(tǒng)調用就是read,write

    read系統(tǒng)調用從文件描述符所指代的打開文件中讀取數(shù)據(jù)。

    read簡單介紹:

    NAMEread - read from a file descriptor SYNOPSIS#include <unistd.h>ssize_t read(int fd, void *buf, size_t count); DESCRIPTIONread() attempts to read up to count bytes from file descriptor fdinto the buffer starting at buf.On files that support seeking, the read operation commences at thefile offset, and the file offset is incremented by the number ofbytes read. If the file offset is at or past the end of file, nobytes are read, and read() returns zero.If count is zero, read() may detect the errors described below. Inthe absence of any errors, or if read() does not check for errors, aread() with a count of 0 returns zero and has no other effects.According to POSIX.1, if count is greater than SSIZE_MAX, the resultis implementation-defined; see NOTES for the upper limit on Linux.

    write系統(tǒng)調用將數(shù)據(jù)寫入一個已打開的文件中。

    write簡單介紹:

    NAMEwrite - write to a file descriptor SYNOPSIS#include <unistd.h>ssize_t write(int fd, const void *buf, size_t count); DESCRIPTIONwrite() writes up to count bytes from the buffer starting at buf tothe file referred to by the file descriptor fd.The number of bytes written may be less than count if, for example,there is insufficient space on the underlying physical medium, or theRLIMIT_FSIZE resource limit is encountered (see setrlimit(2)), or thecall was interrupted by a signal handler after having written lessthan count bytes. (See also pipe(7).)For a seekable file (i.e., one to which lseek(2) may be applied, forexample, a regular file) writing takes place at the file offset, andthe file offset is incremented by the number of bytes actuallywritten. If the file was open(2)ed with O_APPEND, the file offset isfirst set to the end of the file before writing. The adjustment ofthe file offset and the write operation are performed as an atomicstep.POSIX requires that a read(2) that can be proved to occur after awrite() has returned will return the new data. Note that not allfilesystems are POSIX conforming.According to POSIX.1, if count is greater than SSIZE_MAX, the resultis implementation-defined; see NOTES for the upper limit on Linux.
    在文件特定偏移處的IO:pread,pwrite

    在多線程環(huán)境下,為了保證線程安全,需要保證下列操作的原子性。

    ????off_t?orig;orig?=?lseek(fd,?0,?SEEK_CUR);?//?Save?current?offsetlseek(fd,?offset,?SEEK_SET);s?=?read(fd,?buf,?len);lseek(fd,?orig,?SEEK_SET);?//?Restore?original?file?offset

    讓使用者來保證原子性較繁,從接口上就有保證是一個好的選擇,后來出現(xiàn)的pread便實現(xiàn)了這一點。

    與read, write類似,pread, pwrite調用時可以指定位置進行文件IO操作,而非始于文件的當前偏移處,且他們不會改變文件的當前偏移量。這種方式,減少了編碼,并提高了代碼的健壯性。

    pread、pwrite簡單介紹:

    NAMEpread, pwrite - read from or write to a file descriptor at a givenoffset SYNOPSIS#include <unistd.h>ssize_t pread(int fd, void *buf, size_t count, off_t offset);ssize_t pwrite(int fd, const void *buf, size_t count, off_t offset);DESCRIPTIONpread() reads up to count bytes from file descriptor fd at offsetoffset (from the start of the file) into the buffer starting at buf.The file offset is not changed.pwrite() writes up to count bytes from the buffer starting at buf tothe file descriptor fd at offset offset. The file offset is notchanged.The file referenced by fd must be capable of seeking.

    當然,往read,write接口參數(shù)的標志位集合中加入新標志,用以表征新邏輯,可能達到相同的效果,但是這可能不夠優(yōu)雅——如果某個參數(shù)有多種可能的值,而函數(shù)內(nèi)又以條件表達式檢查這些參數(shù)值,并根據(jù)不同參數(shù)值做出不同的行為,那么以明確函數(shù)取代參數(shù)(Replace Parameter with Explicit Methods)也是一種合適的重構手法。

    如果需要反復執(zhí)行l(wèi)seek,并伴之以文件IO,那么pread和pwrite系統(tǒng)調用在某些情況下是具有性能優(yōu)勢的。這是因為執(zhí)行單個pread或pwrite系統(tǒng)調用的成本要低于執(zhí)行l(wèi)seek和read/write兩個系統(tǒng)調用(當然,相對地,執(zhí)行實際IO的開銷通常要遠大于執(zhí)行系統(tǒng)調用,系統(tǒng)調用的性能優(yōu)勢作用有限)。歷史上,一些數(shù)據(jù)庫,通過使用kernel的這一新接口,獲得了不菲的收益。如PostgreSQL:[PATCH] Using pread instead of lseek (with analysis)

    分散輸入和集中輸出(Scatter-Gather IO):readv, writev

    “物質的組成與結構決定物質的性質,性質決定用途,用途體現(xiàn)性質。”是自然科學的重要思想,在計算機科學中也是如此。現(xiàn)有計算機體系結構下,數(shù)據(jù)存儲由一個或多個基本單元組成,物理、邏輯上的結構,決定了數(shù)據(jù)存儲的性質——可能是連續(xù)的,也可能是不連續(xù)的。

    對于不連續(xù)的數(shù)據(jù)的處理相對較繁,例如,使用read將數(shù)據(jù)讀到不連續(xù)的內(nèi)存,使用write將不連續(xù)的內(nèi)存發(fā)送出去。更具體地看,如果要從文件中讀一片連續(xù)的數(shù)據(jù)至進程的不同區(qū)域,有兩種方案:

  • 使用read一次將它們讀至一個較大的緩沖區(qū)中,然后將它們分成若干部分復制到不同的區(qū)域。

  • 調用read若干次分批將它們讀至不同區(qū)域。

  • 同樣地,如果想將程序中不同區(qū)域的數(shù)據(jù)塊連續(xù)地寫至文件,也必須進行類似的處理。而且這種方案需要多次調用read、write系統(tǒng)調用,有損性能。

    那么如何簡化編程,如何解決這種開銷呢?一種有效的解法就是使用特定的數(shù)據(jù)結構對非連續(xù)的數(shù)據(jù)進行管理,批量傳輸數(shù)據(jù)。從接口上就有此保證是一個好的選擇,后來出現(xiàn)的readv,writev便實現(xiàn)了這一點。

    這種基于向量的,分散輸入和集中輸出的系統(tǒng)調用并非只對單個緩沖區(qū)進行讀寫操作,而是一次即可傳輸多個緩沖區(qū)的數(shù)據(jù),免除了多次系統(tǒng)調用的開銷。該機制使用一個數(shù)組iov定義了一組用來傳輸數(shù)據(jù)的緩沖區(qū),一個整形數(shù)iovcnt指定iov的成員個數(shù),其中,iov中的每個成員都是如下形式的數(shù)據(jù)結構。

    struct?iovec?{void??*iov_base;????/*?Starting?address?*/size_t?iov_len;?????/*?Number?of?bytes?to?transfer?*/ };
    功能交集:preadv,pwritev

    上述兩種功能都是一種進步,不過似乎格格不入,那么是否能合二為一,進兩步呢?

    數(shù)學上,集合是指具有某種特定性質的具體的或抽象的對象匯總而成的集體。其中,構成集合的這些對象則稱為該集合的元素。我這里將接口定義成一種集合,一種特定功能就是其中的一個元素。根據(jù)已知有限集構造一個子集,該子集對于每一個元素要么包含要么不包含,那么根據(jù)乘法原理,這個子集共有2^N 種構造方式,即有2^N個子集。這么多可能的集合,顯然較繁。基于場景對于功能子集的需求、元素之間的容斥、集合中元素是否需要有序(接口層面對功能的表現(xiàn))、簡約性等因素,我們會確立一些優(yōu)雅的接口,這也是函數(shù)接口設計的一個哲學話題。

    后來出現(xiàn)的preadv,pwritev,便是偏移和向量的交集,也是一種在排列組合的巨大可能性下確立的少部分簡約的接口。

    帶標志位集合的IO:preadv2,pwritev2

    再后來,還出現(xiàn)了變種函數(shù)preadv2和pwritev2,相比較preadv,pwritev,v2版本還能設置本次IO的標志,比如RWF_DSYNC、RWF_HIPRI、RWF_SYNC、RWF_NOWAIT、RWF_APPEND。

    readv、preadv、preadv2系列簡單介紹:

    NAMEreadv, writev, preadv, pwritev, preadv2, pwritev2 - read or writedata into multiple buffersSYNOPSIS#include <sys/uio.h>ssize_t readv(int fd, const struct iovec *iov, int iovcnt);ssize_t writev(int fd, const struct iovec *iov, int iovcnt);ssize_t preadv(int fd, const struct iovec *iov, int iovcnt,off_t offset);ssize_t pwritev(int fd, const struct iovec *iov, int iovcnt,off_t offset);ssize_t preadv2(int fd, const struct iovec *iov, int iovcnt,off_t offset, int flags);ssize_t pwritev2(int fd, const struct iovec *iov, int iovcnt,off_t offset, int flags);DESCRIPTIONThe readv() system call reads iovcnt buffers from the file associatedwith the file descriptor fd into the buffers described by iov("scatter input").The writev() system call writes iovcnt buffers of data described byiov to the file associated with the file descriptor fd ("gatheroutput").The pointer iov points to an array of iovec structures, defined in<sys/uio.h> as:struct iovec {void *iov_base; /* Starting address */size_t iov_len; /* Number of bytes to transfer */};The readv() system call works just like read(2) except that multiplebuffers are filled.The writev() system call works just like write(2) except that multi‐ple buffers are written out.Buffers are processed in array order. This means that readv() com‐pletely fills iov[0] before proceeding to iov[1], and so on. (Ifthere is insufficient data, then not all buffers pointed to by iovmay be filled.) Similarly, writev() writes out the entire contentsof iov[0] before proceeding to iov[1], and so on.The data transfers performed by readv() and writev() are atomic: thedata written by writev() is written as a single block that is not in‐termingled with output from writes in other processes (but seepipe(7) for an exception); analogously, readv() is guaranteed to reada contiguous block of data from the file, regardless of read opera‐tions performed in other threads or processes that have file descrip‐tors referring to the same open file description (see open(2)).preadv() and pwritev()The preadv() system call combines the functionality of readv() andpread(2). It performs the same task as readv(), but adds a fourthargument, offset, which specifies the file offset at which the inputoperation is to be performed.The pwritev() system call combines the functionality of writev() andpwrite(2). It performs the same task as writev(), but adds a fourthargument, offset, which specifies the file offset at which the outputoperation is to be performed.The file offset is not changed by these system calls. The file re‐ferred to by fd must be capable of seeking.preadv2() and pwritev2()These system calls are similar to preadv() and pwritev() calls, butadd a fifth argument, flags, which modifies the behavior on a per-call basis.Unlike preadv() and pwritev(), if the offset argument is -1, then thecurrent file offset is used and updated.The flags argument contains a bitwise OR of zero or more of the fol‐lowing flags:RWF_DSYNC (since Linux 4.7)Provide a per-write equivalent of the O_DSYNC open(2) flag.This flag is meaningful only for pwritev2(), and its effectapplies only to the data range written by the system call.RWF_HIPRI (since Linux 4.6)High priority read/write. Allows block-based filesystems touse polling of the device, which provides lower latency, butmay use additional resources. (Currently, this feature is us‐able only on a file descriptor opened using the O_DIRECTflag.)RWF_SYNC (since Linux 4.7)Provide a per-write equivalent of the O_SYNC open(2) flag.This flag is meaningful only for pwritev2(), and its effectapplies only to the data range written by the system call.RWF_NOWAIT (since Linux 4.14)Do not wait for data which is not immediately available. Ifthis flag is specified, the preadv2() system call will returninstantly if it would have to read data from the backing stor‐age or wait for a lock. If some data was successfully read,it will return the number of bytes read. If no bytes wereread, it will return -1 and set errno to EAGAIN. Currently,this flag is meaningful only for preadv2().RWF_APPEND (since Linux 4.16)Provide a per-write equivalent of the O_APPEND open(2) flag.This flag is meaningful only for pwritev2(), and its effectapplies only to the data range written by the system call.The offset argument does not affect the write operation; thedata is always appended to the end of the file. However, ifthe offset argument is -1, the current file offset is updated.

    同步IO接口的缺陷

    上述接口,盡管形式多樣,但它們都有一個共同的特征,就是同步,即在讀寫IO時,系統(tǒng)調用會阻塞住等待,在數(shù)據(jù)讀取或寫入后才返回結果。

    對于傳統(tǒng)、普通的編程模型,這類同步接口編程簡單,結果可預測,倒也無妨,但是在要求高效的場景下,同步導致的后果就是caller在阻塞的同時無法繼續(xù)執(zhí)行其他的操作,只能等待IO結果返回,其實caller本可以利用這段時間繼續(xù)往后執(zhí)行。例如,一個FTP server,接收到客戶機上傳的文件,然后將文件寫入到本機的過程中,若FTP服務程序忙于等待文件讀寫結果的返回,則會拒絕其他此刻正需要連接的客戶機請求。在這種場景下,更好的方式是采用異步編程模型,就上述例子而言,當服務器接收到某個客戶機上傳文件后,直接、無阻塞地將寫入IO的buffer提交給內(nèi)核,然后caller繼續(xù)接受下一個客戶請求,內(nèi)核處理完IO之后,主動調用某種通知機制,告訴caller該IO已完成,完成狀態(tài)保存在某位置。

    存儲場景中,我們對性能的要求非常高,所以我們需要異步IO。

    AIO

    后來,應這類訴求,產(chǎn)生了異步IO接口,即Linux Native異步IO——AIO。

    AIO接口簡單介紹(表格引用自Understanding Nginx Modules Development and Architecture Resolving(Second Edition)):

    類似地,如同前文所提PostgreSQL——歷史上,也有一些項目通過使用kernel的新接口,獲得了不菲的收益。

    例如,高性能服務器nginx就使用了這樣的機制,nginx把讀取文件的操作異步地提交給內(nèi)核后,內(nèi)核會通知IO設備獨立地執(zhí)行操作,這樣,nginx進程可以繼續(xù)充分地占用CPU,而且,當大量讀事件堆積到IO設備的隊列中時,將會發(fā)揮出內(nèi)核中“電梯算法”的優(yōu)勢,從而降低隨機讀取磁盤扇區(qū)的成本。

    AIO的缺陷

    但是,AIO仍然不夠完美,同樣存在很多缺陷,同樣以nginx為例,目前,nginx僅支持在讀取文件時使用AIO,因為正常寫入文件往往是寫入內(nèi)存就立刻返回,效率很高,而如果替換成AIO寫入速度會明顯下降。

    這是因為AIO不支持緩存操作,即使需要操作的文件塊在linux文件緩存中存在,也不會通過操作緩存中的文件塊來代替實際對磁盤的操作,這可能降低實際處理的性能。需要看具體的使用場景,如果大部分用戶請求對文件操作都會落到文件緩存中,那么使用AIO可能不是一個好的選擇。

    以上是AIO的不足之一,分析AIO緣何不足,需要較大的篇幅,這里按下不表直接總結一下其他不足之處。

    • 僅支持direct IO。在采用AIO的時候,只能使用O_DIRECT,不能借助文件系統(tǒng)緩存來緩存當前的IO請求,還存在size對齊(直接操作磁盤,所有寫入內(nèi)存塊數(shù)量必須是文件系統(tǒng)塊大小的倍數(shù),而且要與內(nèi)存頁大小對齊。)等限制,這直接影響了aio在很多場景的使用。

    • 仍然可能被阻塞。語義不完備。即使應用層主觀上,希望系統(tǒng)層采用異步IO,但是客觀上,有時候還是可能會被阻塞。io_getevents(2)調用read_events讀取AIO的完成events,read_events中的wait_event_interruptible_hrtimeout等待aio_read_events,如果條件不成立(events未完成)則調用__wait_event_hrtimeout進入睡眠(當然,支持用戶態(tài)設置最大等待時間)。

    • 拷貝開銷大。每個IO提交需要拷貝64+8字節(jié),每個IO完成需要拷貝32字節(jié),總共104字節(jié)的拷貝。這個拷貝開銷是否可以承受,和單次IO大小有關:如果需要發(fā)送的IO本身就很大,相較之下,這點消耗可以忽略,而在大量小IO的場景下,這樣的拷貝影響比較大。

    • API不友好。每一個IO至少需要兩次系統(tǒng)調用才能完成(submit和wait-for-completion),需要非常小心地使用完成事件以避免丟事件。

    • 系統(tǒng)調用開銷大。也正是因為上一條,io_submit/io_getevents造成了較大的系統(tǒng)調用開銷,在存在spectre/meltdown(CPU熔斷幽靈漏洞,CVE-2017-5754)的機器上,若要避免漏洞問題,則系統(tǒng)調用性能會大幅下降。所以在存儲場景下,高頻系統(tǒng)調用的性能影響較大。

    在過去的數(shù)年間,針對上述限制的很多改進努力都未盡如人意。

    終于,全新的異步IO引擎io_uring就在這樣的環(huán)境下誕生了。

    設計——應該是什么樣子

    既然是全新實現(xiàn),我們是否可以不囿于現(xiàn)狀,思考它應該是什么樣子?

    關于“應該是什么樣子”,我曾聽智超兄說過這樣的一句話:“Linux應該是什么樣子,它現(xiàn)在就是什么樣子。”,這并不是類似于“存在即合理”這樣的謬傳,而是對Linux系統(tǒng)優(yōu)雅哲學的高度概括,同時也是對開源自由軟件精神的肯定——因為自始至終都是自由的,所以大家覺得應該是什么樣子(哪里有缺陷,哪里不夠優(yōu)雅),大家就會自由地去修改它,所以,經(jīng)過時代的發(fā)展,它的面貌與大家所期望的最相符,即眾人拾柴,眾望所歸。

    以后世上可能會有無數(shù)文章講述io_uring是什么樣子,我們先看看它應該是什么樣子。

    設計原則

    如上所述,歷史實現(xiàn)在一定場景下,會有一定問題,新實現(xiàn)理應反思問題、解決問題。與此同時,需要遵循一定設計原則,如下是若干原則。

    • 簡單:接口需要足夠簡單,這一點不言自明。

    • 易用:同時需要足夠克制,保持易于理解,就不容易誤用,對于使用者來說,這是一種有效的助推(之所以如上沒有采用“簡單易用”這樣的慣用語,是因為簡單并不一定意味著易用。我們盡量避免這種不合邏輯的隱喻)。

    • 可擴展:接口要有足夠的擴展性,盡管某個接口是為了某種場景(如存儲)而建立,但是我們需要面向未來,若有朝一日需要支持非阻塞設備(非塊存儲)以及網(wǎng)絡I/O時,這里不應是桎梏。

    • 特性豐富:當然,接口需要支持足夠豐富的功能。

    • 高效:在存儲場景下,高效率始終是關鍵目標。

    • 可伸縮性:滿足峰值場景的性能需要(高效和低延遲很重要,但是峰值速率對于存儲設備來講也很重要)底層軟件是基于硬件建構的,為了適應新硬件的要求,接口還需要考慮到伸縮性。

    另外,因為我們的部分目標之間,本質上往往是存在一定互斥性的(如可伸縮與足夠簡單互斥、特性豐富與高效互斥)很難同時滿足,所以,我們設計時也需要權衡。其中,io_uring始終需要圍繞高效進行設計。

    實現(xiàn)思路

    解決“系統(tǒng)調用開銷大”的問題

    針對這個問題,考慮是否每次都需要系統(tǒng)調用。如果能將多次系統(tǒng)調用中的邏輯放到有限次數(shù)中來,就能將消耗降為常數(shù)時間復雜度。

    解決“拷貝開銷大”的問題

    之所以在提交和完成事件中存在大量的內(nèi)存拷貝,是因為應用程序和內(nèi)核之間的通信需要拷貝數(shù)據(jù),所以為了避免這個問題,需要重新考量應用與內(nèi)核間的通信方式。我們發(fā)現(xiàn),兩者通信,不是必須要拷貝,通過現(xiàn)有技術,可以讓應用與內(nèi)核共享內(nèi)存,用于彼此通信,需要生產(chǎn)者-消費者模型。

    要實現(xiàn)核外與內(nèi)核的零拷貝,最佳方式就是實現(xiàn)一塊內(nèi)存映射區(qū)域,兩者共享一段內(nèi)存,核外往這段內(nèi)存寫數(shù)據(jù),然后通知內(nèi)核使用這段內(nèi)存數(shù)據(jù),或者內(nèi)核填寫這段數(shù)據(jù),核外使用這部分數(shù)據(jù)。因此,我們需要一對共享的ring buffer用于應用程序和內(nèi)核之間的通信。

    共享ring buffer的設計主要帶來以下幾個好處:

    • 提交、完成請求時節(jié)省應用和內(nèi)核之間的內(nèi)存拷貝

    • 使用SQPOLL高級特性時,應用程序無需調用系統(tǒng)調用

    • 無鎖操作,用memory ordering實現(xiàn)同步,通過幾個簡單的頭尾指針的移動就可以實現(xiàn)快速交互。

    一塊用于核外傳遞數(shù)據(jù)給內(nèi)核,一塊是內(nèi)核傳遞數(shù)據(jù)給核外,一方只讀,一方只寫。

    • 提交隊列SQ(submission queue)中,應用是IO提交的生產(chǎn)者,內(nèi)核是消費者。

    • 完成隊列CQ(completion queue)中,內(nèi)核是IO完成的生產(chǎn)者,應用是消費者。

    內(nèi)核控制SQ ring的head和CQ ring的tail,應用程序控制SQ ring的tail和CQ ring的head

    那么他們分別需要保存的是什么數(shù)據(jù)呢?

    假設A緩存區(qū)為核外寫,內(nèi)核讀,就是將IO數(shù)據(jù)寫到這個緩存區(qū),然后通知內(nèi)核來讀;再假設B緩存區(qū)為內(nèi)核寫,核外讀,他所承擔的責任就是返回完成狀態(tài),標記A緩存區(qū)的其中一個entry的完成狀態(tài)為成功或者失敗等信息。

    解決“API不友好”的問題

    問題在于需要多個系統(tǒng)調用才能完成,考慮是否可以把多個系統(tǒng)調用合而為一。

    你可能會想到,這與上文所說的重構手法相悖,即以明確函數(shù)取代參數(shù)(Replace Parameter with Explicit Methods)——如果某個參數(shù)有多種可能的值,而函數(shù)內(nèi)又以條件表達式檢查這些參數(shù)值,并根據(jù)不同參數(shù)值做出不同的行為。

    然而,手法只是手法,選擇具體的重構手法需要遵循重構原則。在不同場景下,可能事實恰恰相反——令函數(shù)攜帶參數(shù)(Parameterize Method)可能是一個好的選擇。

    話說天下大勢,分久必合,合久必分。你可能會發(fā)現(xiàn)這樣的兩個函數(shù),它們做著類似的工作,但因少數(shù)幾個值致使行為略有不同。在這種情況下,你可以將這些各自分離的函數(shù)統(tǒng)一起來,并通過參數(shù)來處理那些變化情況,用以簡化問題。這樣的修改可以去除重復代碼,并提高靈活性,因為你可以用這個參數(shù)處理更多的變化情況。

    也許你會發(fā)現(xiàn),你無法用這種辦法處理整個函數(shù),但可以處理函數(shù)中的一部分代碼。這種情況下,你應該首先將這部分代碼提煉到一個獨立函數(shù)中,然后再對那個提煉所得的函數(shù)使用令函數(shù)攜帶參數(shù)(Parameterize Method)。

    實現(xiàn)——現(xiàn)在是什么樣子

    推導完了應該是什么樣子,解析一下現(xiàn)在是什么樣子。

    關鍵數(shù)據(jù)結構

    程序等于數(shù)據(jù)結構加算法,這里先解析io_uring有哪些關鍵數(shù)據(jù)結構。

    io_uring、io_rings結構

    結構前面是一些標志位集合和掩碼,尾部是一個柔性數(shù)組。這兩個數(shù)據(jù)在前面使用mmap分配內(nèi)存的時候,對應到了不同的offset,即前面IORING_OFF_SQ_RING、IORING_OFF_CQ_RING和IORING_OFF_SQES的預定于的值。

    其中io_rings結構中sq, cq成員,分別代表了提交的請求的ring和已經(jīng)完成的請求返回結構的ring。io_uring結構中是head和tail,用于控制隊列中的頭尾索引。即前文提到的,內(nèi)核控制SQ ring的head和CQ ring的tail,應用程序控制SQ ring的tail和CQ ring的head。

    struct?io_uring?{u32?head?____cacheline_aligned_in_smp;u32?tail?____cacheline_aligned_in_smp; };/**?This?data?is?shared?with?the?application?through?the?mmap?at?offsets*?IORING_OFF_SQ_RING?and?IORING_OFF_CQ_RING.**?The?offsets?to?the?member?fields?are?published?through?struct*?io_sqring_offsets?when?calling?io_uring_setup.*/ struct?io_rings?{/**?Head?and?tail?offsets?into?the?ring;?the?offsets?need?to?be*?masked?to?get?valid?indices.**?The?kernel?controls?head?of?the?sq?ring?and?the?tail?of?the?cq?ring,*?and?the?application?controls?tail?of?the?sq?ring?and?the?head?of?the*?cq?ring.*/struct?io_uring??sq,?cq;/**?Bitmasks?to?apply?to?head?and?tail?offsets?(constant,?equals*?ring_entries?-?1)*/u32???sq_ring_mask,?cq_ring_mask;/*?Ring?sizes?(constant,?power?of?2)?*/u32???sq_ring_entries,?cq_ring_entries;/**?Number?of?invalid?entries?dropped?by?the?kernel?due?to*?invalid?index?stored?in?array**?Written?by?the?kernel,?shouldn't?be?modified?by?the*?application?(i.e.?get?number?of?"new?events"?by?comparing?to*?cached?value).**?After?a?new?SQ?head?value?was?read?by?the?application?this*?counter?includes?all?submissions?that?were?dropped?reaching*?the?new?SQ?head?(and?possibly?more).*/u32???sq_dropped;/**?Runtime?SQ?flags**?Written?by?the?kernel,?shouldn't?be?modified?by?the*?application.**?The?application?needs?a?full?memory?barrier?before?checking*?for?IORING_SQ_NEED_WAKEUP?after?updating?the?sq?tail.*/u32???sq_flags;/**?Runtime?CQ?flags**?Written?by?the?application,?shouldn't?be?modified?by?the*?kernel.*/u32?????????????????????cq_flags;/**?Number?of?completion?events?lost?because?the?queue?was?full;*?this?should?be?avoided?by?the?application?by?making?sure*?there?are?not?more?requests?pending?than?there?is?space?in*?the?completion?queue.**?Written?by?the?kernel,?shouldn't?be?modified?by?the*?application?(i.e.?get?number?of?"new?events"?by?comparing?to*?cached?value).**?As?completion?events?come?in?out?of?order?this?counter?is?not*?ordered?with?any?other?data.*/u32???cq_overflow;/**?Ring?buffer?of?completion?events.**?The?kernel?writes?completion?events?fresh?every?time?they?are*?produced,?so?the?application?is?allowed?to?modify?pending*?entries.*/struct?io_uring_cqe?cqes[]?____cacheline_aligned_in_smp; };
    Submission Queue Entry單元數(shù)據(jù)結構

    Submission Queue(下稱SQ)是提交隊列,核外寫內(nèi)核讀的地方。Submission Queue Entry(下稱SQE),即提交隊列中的條目,隊列由一個個條目組成。

    描述一個SQE會復雜很多,不僅是因為要描述更多的信息,也是因為可擴展性這一設計原則。

    我們需要操作碼、標志集合、關聯(lián)文件描述符、地址、偏移量,另外地,可能還需要表示優(yōu)先級。

    /**?IO?submission?data?structure?(Submission?Queue?Entry)*/ struct?io_uring_sqe?{__u8?opcode;??/*?type?of?operation?for?this?sqe?*/__u8?flags;??/*?IOSQE_?flags?*/__u16?ioprio;??/*?ioprio?for?the?request?*/__s32?fd;??/*?file?descriptor?to?do?IO?on?*/union?{__u64?off;?/*?offset?into?file?*/__u64?addr2;};union?{__u64?addr;?/*?pointer?to?buffer?or?iovecs?*/__u64?splice_off_in;};__u32?len;??/*?buffer?size?or?number?of?iovecs?*/union?{__kernel_rwf_t?rw_flags;__u32??fsync_flags;__u16??poll_events;?/*?compatibility?*/__u32??poll32_events;?/*?word-reversed?for?BE?*/__u32??sync_range_flags;__u32??msg_flags;__u32??timeout_flags;__u32??accept_flags;__u32??cancel_flags;__u32??open_flags;__u32??statx_flags;__u32??fadvise_advice;__u32??splice_flags;};__u64?user_data;?/*?data?to?be?passed?back?at?completion?time?*/union?{struct?{/*?pack?this?to?avoid?bogus?arm?OABI?complaints?*/union?{/*?index?into?fixed?buffers,?if?used?*/__u16?buf_index;/*?for?grouped?buffer?selection?*/__u16?buf_group;}?__attribute__((packed));/*?personality?to?use,?if?used?*/__u16?personality;__s32?splice_fd_in;};__u64?__pad2[3];}; };
    • opcode是操作碼,例如IORING_OP_READV,代表向量讀。

    • flags是標志位集合。

    • ioprio是請求的優(yōu)先級,對于普通的讀寫,具體定義可以參照ioprio_set(2),

    • fd是這個請求相關的文件描述符

    • off是操作的偏移量

    • addr表示這次IO操作執(zhí)行的地址,如果操作碼opcode描述了一個傳輸數(shù)據(jù)的操作,這個操作是基于向量的,addr就指向struct iovec的數(shù)組首地址,這和前文所說的preadv系統(tǒng)調用是一樣的用法;如果不是基于向量的,那么addr必須直接包含一個地址,len這里(非向量場景)就表示這段buffer的長度,而向量場景就表示iovec的數(shù)量。

    • 接下來的是一個union,表示一系列針對特定操作碼opcode的一些flag。例如,對于上文所提的IORING_OP_READV,隨后的flags就遵循preadv2系統(tǒng)調用。

    • user_data是各操作碼opcode通用的,內(nèi)核并未染指,僅僅只是拷貝給完成事件completion event

    • 結構的最后用于內(nèi)存對齊,對齊到64字節(jié),為了更豐富的特性,未來這個請求結構應該會包含更多的內(nèi)容。

    這就是核外往內(nèi)核填寫的Submission Queue Entry的數(shù)據(jù)結構,準備好這樣的一個數(shù)據(jù)結構,將它寫到對應的sqes所在的內(nèi)存位置,然后再通知內(nèi)核去對應的位置取數(shù)據(jù),這樣就完成了一次數(shù)據(jù)交接。

    Completion Queue Entry單元數(shù)據(jù)結構

    Completion Queue(下稱CQ)是完成隊列,內(nèi)核寫核外讀的地方。Completion Queue Entry(下稱CQE),即完成隊列中的條目,隊列由一個個條目組成。

    描述一個CQE就簡單得多。

    /**?IO?completion?data?structure?(Completion?Queue?Entry)*/ struct?io_uring_cqe?{__u64?user_data;?/*?sqe->data?submission?passed?back?*/__s32?res;??/*?result?code?for?this?event?*/__u32?flags; };
    • user_data就是sqe發(fā)送時核外填寫的,只不過在完成時回傳而已,一個常見的用例就是作為一個指針,指向原始請求。從submission queue到completion queue,內(nèi)核不會動這里面的數(shù)據(jù)。

    • res用來保存最終的這個sqe的執(zhí)行結果,就是這個event的返回碼,可以認為是系統(tǒng)調用的返回值,表示成功或失敗等。如果接口成功的話返回傳輸?shù)淖止?jié)數(shù),如果失敗的話,就是錯誤碼。如果錯誤發(fā)生,res就等于-EIO。

    • flags是標志位集合。如果flags設置為IORING_CQE_F_BUFFER,則前16位是buffer ID(調用鏈:io_uring_enter -> io_iopoll_check -> io_iopoll_getevents -> io_do_iopoll -> io_iopoll_complete -> io_put_rw_kbuf -> io_put_kbuf,最終會調用io_put_kbuf,如代碼所示)。

    /**?cqe->flags**?IORING_CQE_F_BUFFER?If?set,?the?upper?16?bits?are?the?buffer?ID*/ #define?IORING_CQE_F_BUFFER??(1U?<<?0)enum?{IORING_CQE_BUFFER_SHIFT??=?16, }; static?unsigned?int?io_put_kbuf(struct?io_kiocb?*req,?struct?io_buffer?*kbuf) {unsigned?int?cflags;cflags?=?kbuf->bid?<<?IORING_CQE_BUFFER_SHIFT;cflags?|=?IORING_CQE_F_BUFFER;req->flags?&=?~REQ_F_BUFFER_SELECTED;kfree(kbuf);return?cflags; }
    上下文結構io_ring_ctx

    前面介紹了SQE/CQE等關鍵的數(shù)據(jù)結構,他們是用來承載數(shù)據(jù)流的關鍵部分,有了數(shù)據(jù)流的關鍵數(shù)據(jù)結構我們還需要一個上下文數(shù)據(jù)結構,用于整個io_uring控制流。這就是io_ring_ctx,貫穿整個io_uring所有過程的數(shù)據(jù)結構,基本上在任何位置只需要你能持有該結構就可以找到任何數(shù)據(jù)所在的位置,例如,sq_sqes就是指向io_uring_sqe結構的指針,指向SQEs的首地址。

    struct?io_ring_ctx?{struct?{struct?percpu_ref?refs;}?____cacheline_aligned_in_smp;struct?{unsigned?int??flags;unsigned?int??compat:?1;unsigned?int??limit_mem:?1;unsigned?int??cq_overflow_flushed:?1;unsigned?int??drain_next:?1;unsigned?int??eventfd_async:?1;unsigned?int??restricted:?1;/**?Ring?buffer?of?indices?into?array?of?io_uring_sqe,?which?is*?mmapped?by?the?application?using?the?IORING_OFF_SQES?offset.**?This?indirection?could?e.g.?be?used?to?assign?fixed*?io_uring_sqe?entries?to?operations?and?only?submit?them?to*?the?queue?when?needed.**?The?kernel?modifies?neither?the?indices?array?nor?the?entries*?array.*/u32???*sq_array;unsigned??cached_sq_head;unsigned??sq_entries;unsigned??sq_mask;unsigned??sq_thread_idle;unsigned??cached_sq_dropped;unsigned??cached_cq_overflow;unsigned?long??sq_check_overflow;struct?list_head?defer_list;struct?list_head?timeout_list;struct?list_head?cq_overflow_list;wait_queue_head_t?inflight_wait;struct?io_uring_sqe?*sq_sqes;}?____cacheline_aligned_in_smp;struct?io_rings?*rings;/*?IO?offload?*/struct?io_wq??*io_wq;/**?For?SQPOLL?usage?-?we?hold?a?reference?to?the?parent?task,?so?we*?have?access?to?the?->files*/struct?task_struct?*sqo_task;/*?Only?used?for?accounting?purposes?*/struct?mm_struct?*mm_account;#ifdef?CONFIG_BLK_CGROUPstruct?cgroup_subsys_state?*sqo_blkcg_css; #endifstruct?io_sq_data?*sq_data;?/*?if?using?sq?thread?polling?*/struct?wait_queue_head?sqo_sq_wait;struct?wait_queue_entry?sqo_wait_entry;struct?list_head?sqd_list;/**?If?used,?fixed?file?set.?Writers?must?ensure?that?->refs?is?dead,*?readers?must?ensure?that?->refs?is?alive?as?long?as?the?file*?is*?used.?Only?updated?through?io_uring_register(2).*/struct?fixed_file_data?*file_data;unsigned??nr_user_files;/*?if?used,?fixed?mapped?user?buffers?*/unsigned??nr_user_bufs;struct?io_mapped_ubuf?*user_bufs;struct?user_struct?*user;const?struct?cred?*creds;#ifdef?CONFIG_AUDITkuid_t???loginuid;unsigned?int??sessionid; #endifstruct?completion?ref_comp;struct?completion?sq_thread_comp;/*?if?all?else?fails...?*/struct?io_kiocb??*fallback_req;#if?defined(CONFIG_UNIX)struct?socket??*ring_sock; #endifstruct?idr??io_buffer_idr;struct?idr??personality_idr;struct?{unsigned??cached_cq_tail;unsigned??cq_entries;unsigned??cq_mask;atomic_t??cq_timeouts;unsigned?long??cq_check_overflow;struct?wait_queue_head?cq_wait;struct?fasync_struct?*cq_fasync;struct?eventfd_ctx?*cq_ev_fd;}?____cacheline_aligned_in_smp;struct?{struct?mutex??uring_lock;wait_queue_head_t?wait;}?____cacheline_aligned_in_smp;struct?{spinlock_t??completion_lock;/**?->iopoll_list?is?protected?by?the?ctx->uring_lock?for*?io_uring?instances?that?don't?use?IORING_SETUP_SQPOLL.*?For?SQPOLL,?only?the?single?threaded?io_sq_thread()?will*?manipulate?the?list,?hence?no?extra?locking?is?needed?there.*/struct?list_head?iopoll_list;struct?hlist_head?*cancel_hash;unsigned??cancel_hash_bits;bool???poll_multi_file;spinlock_t??inflight_lock;struct?list_head?inflight_list;}?____cacheline_aligned_in_smp;struct?delayed_work??file_put_work;struct?llist_head??file_put_llist;struct?work_struct??exit_work;struct?io_restriction??restrictions; };
    關鍵流程

    數(shù)據(jù)結構定義好了,邏輯實現(xiàn)具體是如何驅動這些數(shù)據(jù)結構的呢?使用上,大體分為準備、提交、收割過程。

    有幾個io_uring相關的系統(tǒng)調用:

    #include?<linux/io_uring.h>int?io_uring_setup(u32?entries,?struct?io_uring_params?*p);int?io_uring_enter(unsigned?int?fd,?unsigned?int?to_submit,unsigned?int?min_complete,?unsigned?int?flags,sigset_t?*sig);int?io_uring_register(unsigned?int?fd,?unsigned?int?opcode,void?*arg,?unsigned?int?nr_args);

    下面分析關鍵流程。

    io_uring準備階段

    io_uring通過io_uring_setup完成準備階段。

    int?io_uring_setup(u32?entries,?struct?io_uring_params?*p);

    io_uring_setup系統(tǒng)調用的過程就是初始化相關數(shù)據(jù)結構,建立好對應的緩存區(qū),然后通過系統(tǒng)調用的參數(shù)io_uring_params結構傳遞回去,告訴核外環(huán)內(nèi)存地址在哪,起始指針的地址在哪等關鍵的信息。

    需要初始化內(nèi)存的內(nèi)存分為三個區(qū)域,分別是SQ,CQ,SQEs。內(nèi)核初始化SQ和CQ,此外,提交請求在SQ,CQ之間有一個間接數(shù)組,即內(nèi)核提供了一個Submission Queue Entries(SQEs)數(shù)組。之所以額外采用了一個數(shù)組保存SQEs,是為了方便通過環(huán)形緩沖區(qū)提交內(nèi)存上不連續(xù)的請求。SQ和CQ中每個節(jié)點保存的都是SQEs數(shù)組的索引,而不是實際的請求,實際的請求只保存在SQEs數(shù)組中。這樣在提交請求時,就可以批量提交一組SQEs上不連續(xù)的請求。

    通常,SQE被獨立地使用,意味著它的執(zhí)行不影響在ring中的連續(xù)SQE條目。它允許全面、靈活的操作,并且使它們最高性能地并行執(zhí)行完成。一個順序的使用案例就是數(shù)據(jù)的整體寫入。它的一個通常的例子就是一系列寫,隨之的是fsync/fdatasync,應用通常轉變成程序同步-等待操作。

    先從參數(shù)上來解析

    • 核外需要告訴io_uring_setup提交的整個緩存區(qū)數(shù)組的大小。(代表 queue depth?),這里就是entries參數(shù)。

    • params這個參數(shù)從IO的角度看有兩種,一種是輸入?yún)?shù),一種是輸出參數(shù)。

      • sq_entries是輸出參數(shù),由內(nèi)核填充,讓應用程序知道這個ring支持多少SQE。

      • 類似地,cq_entries告訴應用程序,CQ ring有多大。

      • sq_off和cq_off分別是io_sqring_offsets和io_cqring_offsets結構,是內(nèi)核與核外的約定,分別描述了SQ和CQ的指針在mmap中的offset

      • 其他的結構成員涉及到高級用法,暫時按下不表。

      • 比如params->flags,這個成員變量是用來設置當前整個io_uring 的標志的,它將決定是否啟動sq_thread,是否采用iopoll模式等等

      • sq_thread_cpu、sq_thread_idle也由用戶設置,用來指定io_sq_thread內(nèi)核線程CPU、idle時間。

      • 一部分屬于輸入?yún)?shù),是用戶設置、核外傳遞給核外的,用于定義io_uring在內(nèi)核中的行為,這些都是在創(chuàng)建階段就決定了的。

      • 還有一部分屬于輸出參數(shù),由內(nèi)核設置(io_uring_create)、傳遞數(shù)據(jù)到核外的,核外根據(jù)這些數(shù)據(jù)來使用mmap分配內(nèi)存,初始化一些數(shù)據(jù)結構。

    /**?Passed?in?for?io_uring_setup(2).?Copied?back?with?updated?info?on?success*/ struct?io_uring_params?{__u32?sq_entries;__u32?cq_entries;__u32?flags;__u32?sq_thread_cpu;__u32?sq_thread_idle;__u32?features;__u32?wq_fd;__u32?resv[3];struct?io_sqring_offsets?sq_off;struct?io_cqring_offsets?cq_off; };/**?io_uring_params->features?flags*/ #define?IORING_FEAT_SINGLE_MMAP??(1U?<<?0) #define?IORING_FEAT_NODROP??(1U?<<?1) #define?IORING_FEAT_SUBMIT_STABLE?(1U?<<?2) #define?IORING_FEAT_RW_CUR_POS??(1U?<<?3) #define?IORING_FEAT_CUR_PERSONALITY?(1U?<<?4) #define?IORING_FEAT_FAST_POLL??(1U?<<?5) #define?IORING_FEAT_POLL_32BITS??(1U?<<?6)

    再從實現(xiàn)上來解析,如下為io_uring_setup代碼。

    /**?Sets?up?an?aio?uring?context,?and?returns?the?fd.?Applications?asks?for?a*?ring?size,?we?return?the?actual?sq/cq?ring?sizes?(among?other?things)?in?the*?params?structure?passed?in.*/ static?long?io_uring_setup(u32?entries,?struct?io_uring_params?__user?*params) {struct?io_uring_params?p;int?i;if?(copy_from_user(&p,?params,?sizeof(p)))return?-EFAULT;for?(i?=?0;?i?<?ARRAY_SIZE(p.resv);?i++)?{if?(p.resv[i])return?-EINVAL;}if?(p.flags?&?~(IORING_SETUP_IOPOLL?|?IORING_SETUP_SQPOLL?|IORING_SETUP_SQ_AFF?|?IORING_SETUP_CQSIZE?|IORING_SETUP_CLAMP?|?IORING_SETUP_ATTACH_WQ?|IORING_SETUP_R_DISABLED))return?-EINVAL;return??io_uring_create(entries,?&p,?params); }

    經(jīng)過標志位非法檢查之后,關鍵是調用內(nèi)部函數(shù)io_uring_create實現(xiàn)實例創(chuàng)建過程。

    • 首先需要創(chuàng)建一個上下文結構io_ring_ctx用來管理整個會話。

    • 隨后實現(xiàn)SQ和CQ內(nèi)存區(qū)的映射,使用IORING_OFF_CQ_RING偏移量,使用io_cqring_offsets結構的實例,即io_uring_params中cq_off這個成員,SQ使用IORING_OFF_SQES這個偏移量。

    • 其余的是一些錯誤檢查、權限檢查、資源配額檢查等檢查邏輯。

    static?int?io_uring_create(unsigned?entriesstatic?int?io_uring_create(unsigned?entries,?struct?io_uring_params?*p,struct?io_uring_params?__user?*params) {struct?user_struct?*user?=?NULL;struct?io_ring_ctx?*ctx;bool?limit_mem;int?ret;if?(!entries)return?-EINVAL;if?(entries?>?IORING_MAX_ENTRIES)?{if?(!(p->flags?&?IORING_SETUP_CLAMP))return?-EINVAL;entries?=?IORING_MAX_ENTRIES;}/**?Use?twice?as?many?entries?for?the?CQ?ring.?It's?possible?for?the*?application?to?drive?a?higher?depth?than?the?size?of?the?SQ?ring,*?since?the?sqes?are?only?used?at?submission?time.?This?allows?for*?some?flexibility?in?overcommitting?a?bit.?If?the?application?has*?set?IORING_SETUP_CQSIZE,?it?will?have?passed?in?the?desired?number*?of?CQ?ring?entries?manually.*/p->sq_entries?=?roundup_pow_of_two(entries);if?(p->flags?&?IORING_SETUP_CQSIZE)?{/**?If?IORING_SETUP_CQSIZE?is?set,?we?do?the?same?roundup*?to?a?power-of-two,?if?it?isn't?already.?We?do?NOT?impose*?any?cq?vs?sq?ring?sizing.*/if?(!p->cq_entries)return?-EINVAL;if?(p->cq_entries?>?IORING_MAX_CQ_ENTRIES)?{if?(!(p->flags?&?IORING_SETUP_CLAMP))return?-EINVAL;p->cq_entries?=?IORING_MAX_CQ_ENTRIES;}p->cq_entries?=?roundup_pow_of_two(p->cq_entries);if?(p->cq_entries?<?p->sq_entries)return?-EINVAL;}?else?{p->cq_entries?=?2?*?p->sq_entries;}user?=?get_uid(current_user());limit_mem?=?!capable(CAP_IPC_LOCK);if?(limit_mem)?{ret?=?__io_account_mem(user,ring_pages(p->sq_entries,?p->cq_entries));if?(ret)?{free_uid(user);return?ret;}}ctx?=?io_ring_ctx_alloc(p);if?(!ctx)?{if?(limit_mem)__io_unaccount_mem(user,?ring_pages(p->sq_entries,p->cq_entries));free_uid(user);return?-ENOMEM;}ctx->compat?=?in_compat_syscall();ctx->user?=?user;ctx->creds?=?get_current_cred(); #ifdef?CONFIG_AUDITctx->loginuid?=?current->loginuid;ctx->sessionid?=?current->sessionid; #endifctx->sqo_task?=?get_task_struct(current);/**?This?is?just?grabbed?for?accounting?purposes.?When?a?process?exits,*?the?mm?is?exited?and?dropped?before?the?files,?hence?we?need?to?hang*?on?to?this?mm?purely?for?the?purposes?of?being?able?to?unaccount*?memory?(locked/pinned?vm).?It's?not?used?for?anything?else.*/mmgrab(current->mm);ctx->mm_account?=?current->mm;#ifdef?CONFIG_BLK_CGROUP/**?The?sq?thread?will?belong?to?the?original?cgroup?it?was?inited?in.*?If?the?cgroup?goes?offline?(e.g.?disabling?the?io?controller),?then*?issued?bios?will?be?associated?with?the?closest?cgroup?later?in?the*?block?layer.*/rcu_read_lock();ctx->sqo_blkcg_css?=?blkcg_css();ret?=?css_tryget_online(ctx->sqo_blkcg_css);rcu_read_unlock();if?(!ret)?{/*?don't?init?against?a?dying?cgroup,?have?the?user?try?again?*/ctx->sqo_blkcg_css?=?NULL;ret?=?-ENODEV;goto?err;} #endif/**?Account?memory?_before_?installing?the?file?descriptor.?Once*?the?descriptor?is?installed,?it?can?get?closed?at?any?time.?Also*?do?this?before?hitting?the?general?error?path,?as?ring?freeing*?will?un-account?as?well.*/io_account_mem(ctx,?ring_pages(p->sq_entries,?p->cq_entries),ACCT_LOCKED);ctx->limit_mem?=?limit_mem;ret?=?io_allocate_scq_urings(ctx,?p);if?(ret)goto?err;ret?=?io_sq_offload_create(ctx,?p);if?(ret)goto?err;if?(!(p->flags?&?IORING_SETUP_R_DISABLED))io_sq_offload_start(ctx);memset(&p->sq_off,?0,?sizeof(p->sq_off));p->sq_off.head?=?offsetof(struct?io_rings,?sq.head);p->sq_off.tail?=?offsetof(struct?io_rings,?sq.tail);p->sq_off.ring_mask?=?offsetof(struct?io_rings,?sq_ring_mask);p->sq_off.ring_entries?=?offsetof(struct?io_rings,?sq_ring_entries);p->sq_off.flags?=?offsetof(struct?io_rings,?sq_flags);p->sq_off.dropped?=?offsetof(struct?io_rings,?sq_dropped);p->sq_off.array?=?(char?*)ctx->sq_array?-?(char?*)ctx->rings;memset(&p->cq_off,?0,?sizeof(p->cq_off));p->cq_off.head?=?offsetof(struct?io_rings,?cq.head);p->cq_off.tail?=?offsetof(struct?io_rings,?cq.tail);p->cq_off.ring_mask?=?offsetof(struct?io_rings,?cq_ring_mask);p->cq_off.ring_entries?=?offsetof(struct?io_rings,?cq_ring_entries);p->cq_off.overflow?=?offsetof(struct?io_rings,?cq_overflow);p->cq_off.cqes?=?offsetof(struct?io_rings,?cqes);p->cq_off.flags?=?offsetof(struct?io_rings,?cq_flags);p->features?=?IORING_FEAT_SINGLE_MMAP?|?IORING_FEAT_NODROP?|IORING_FEAT_SUBMIT_STABLE?|?IORING_FEAT_RW_CUR_POS?|IORING_FEAT_CUR_PERSONALITY?|?IORING_FEAT_FAST_POLL?|IORING_FEAT_POLL_32BITS;if?(copy_to_user(params,?p,?sizeof(*p)))?{ret?=?-EFAULT;goto?err;}/**?Install?ring?fd?as?the?very?last?thing,?so?we?don't?risk?someone*?having?closed?it?before?we?finish?setup*/ret?=?io_uring_get_fd(ctx);if?(ret?<?0)goto?err;trace_io_uring_create(ret,?ctx,?p->sq_entries,?p->cq_entries,?p->flags);return?ret; err:io_ring_ctx_wait_and_kill(ctx);return?ret; }

    io_sqring_offsets、io_cqring_offsets等相關結構、標志位集合。

    預定義offset
    如果要表征分配的是io uring相關的一些內(nèi)存,就需要預定義一些offset,如IORING_OFF_SQ_RING、IORING_OFF_SQES和IORING_OFF_CQ_RING,這些offset值定義了保存到這個三個結構保存到位置。這里mmap的時候,就使用了這些offset。

    /**?Magic?offsets?for?the?application?to?mmap?the?data?it?needs*/ #define?IORING_OFF_SQ_RING??0ULL #define?IORING_OFF_CQ_RING??0x8000000ULL #define?IORING_OFF_SQES???0x10000000ULL/**?Filled?with?the?offset?for?mmap(2)*/ struct?io_sqring_offsets?{__u32?head;__u32?tail;__u32?ring_mask;__u32?ring_entries;__u32?flags;__u32?dropped;__u32?array;__u32?resv1;__u64?resv2; };/**?sq_ring->flags*/ #define?IORING_SQ_NEED_WAKEUP?(1U?<<?0)?/*?needs?io_uring_enter?wakeup?*/ #define?IORING_SQ_CQ_OVERFLOW?(1U?<<?1)?/*?CQ?ring?is?overflown?*/struct?io_cqring_offsets?{__u32?head;__u32?tail;__u32?ring_mask;__u32?ring_entries;__u32?overflow;__u32?cqes;__u32?flags;__u32?resv1;__u64?resv2; };/**?cq_ring->flags*//*?disable?eventfd?notifications?*/ #define?IORING_CQ_EVENTFD_DISABLED?(1U?<<?0)/**?io_uring_enter(2)?flags*/ #define?IORING_ENTER_GETEVENTS?(1U?<<?0) #define?IORING_ENTER_SQ_WAKEUP?(1U?<<?1) #define?IORING_ENTER_SQ_WAIT?(1U?<<?2)/**?io_uring_register(2)?opcodes?and?arguments*/ enum?{IORING_REGISTER_BUFFERS???=?0,IORING_UNREGISTER_BUFFERS??=?1,IORING_REGISTER_FILES???=?2,IORING_UNREGISTER_FILES???=?3,IORING_REGISTER_EVENTFD???=?4,IORING_UNREGISTER_EVENTFD??=?5,IORING_REGISTER_FILES_UPDATE??=?6,IORING_REGISTER_EVENTFD_ASYNC??=?7,IORING_REGISTER_PROBE???=?8,IORING_REGISTER_PERSONALITY??=?9,IORING_UNREGISTER_PERSONALITY??=?10,IORING_REGISTER_RESTRICTIONS??=?11,IORING_REGISTER_ENABLE_RINGS??=?12,/*?this?goes?last?*/IORING_REGISTER_LAST };

    具體的實踐,可以參考如下liburing中的初始化函數(shù)io_uring_queue_init中對io_uring_setup的使用(http://git.kernel.dk/cgit/liburing/tree/src/setup.c)。

    liburing中使用io_uring_setup的部分代碼

    /**?Returns?-1?on?error,?or?zero?on?success.?On?success,?'ring'*?contains?the?necessary?information?to?read/write?to?the?rings.*/ int?io_uring_queue_init(unsigned?entries,?struct?io_uring?*ring,?unsigned?flags) {struct?io_uring_params?p;int?fd,?ret;memset(&p,?0,?sizeof(p));p.flags?=?flags;fd?=?io_uring_setup(entries,?&p);if?(fd?<?0)return?fd;ret?=?io_uring_queue_mmap(fd,?&p,?ring);if?(ret)close(fd);return?ret; }

    注意mmap的時候需要傳入MAP_POPULATE參數(shù),為文件映射通過預讀的方式準備好頁表,隨后對映射區(qū)的訪問不會被page fault。

    IO提交

    在初始化完成之后,應用程序就可以使用這些隊列來添加IO請求,即填充SQE。當請求都加入SQ后,應用程序還需要某種方式告訴內(nèi)核,生產(chǎn)的請求待消費,這就是提交IO請求,可以通過io_uring_enter系統(tǒng)調用。

    int?io_uring_enter(unsigned?int?fd,?unsigned?int?to_submit,unsigned?int?min_complete,?unsigned?int?flags,sigset_t?*sig);

    內(nèi)核將SQ中的請求提交給Block層。這個系統(tǒng)調用既能提交,也能等待。

    具體的實現(xiàn)是找到一個空閑的SQE,根據(jù)請求設置SQE,并將這個SQE的索引放到SQ中。SQ是一個典型的ring buffer,有head,tail兩個成員,如果head == tail,意味著隊列為空。SQE設置完成后,需要修改SQ的tail,以表示向ring buffer中插入了一個請求。

    先從參數(shù)上來解析

    • fd即由io_uring_setup(2)返回的文件描述符,

    • to_submit告訴內(nèi)核待消費和提交的SQE的數(shù)量,表示一次提交多少個 IO,

    • min_complete請求完成請求的個數(shù)。

    • flags是修飾接口行為的標志集合,這里主要例舉兩個flags

      • 如果在io_uring_setup的時候flag設置了IORING_SETUP_SQPOLL,內(nèi)核會額外啟動一個特定的內(nèi)核線程來執(zhí)行輪詢的操作,稱作SQ線程,這里使用的輪詢結構會最終對應到struct file_operations中的iopoll操作,這個操作作為一個新的接口在最近才添加到這里,Linux native aio的新功能也使用了這個iopoll。這里io _uring實際上只有vfs層的改動,其它的都是使用已經(jīng)存在的東西,而且?guī)讉€核心的東西和aio使用的相同/類似。直接通過訪問相關的隊列就可以獲取到執(zhí)行完的任務,不需要經(jīng)過系統(tǒng)調用。關于這個線程,通過io_uring_params結構中的sq_thread_cpu配置,這個內(nèi)核線程可以運行在某個指定的 CPU核心 上。這個內(nèi)核線程會不停的 Poll SQ,直到在通過sq_thread_idle配置的時間內(nèi)沒有Poll到任何請求為止。

      • 如果flags中設置了IORING_ENTER_GETEVENTS,并且min_complete > 0,這個系統(tǒng)調用會一直 block,直到 min_complete 個 IO 已經(jīng)完成才返回。這個系統(tǒng)調用會同時處理 IO 收割。

      • 另外的,IORING_SQ_NEED_WAKEUP可以表示在一些時候喚醒休眠中的輪詢線程。

    static int io_sq_thread(void *data)即內(nèi)核輪詢線程。

    同樣地,可以用這個系統(tǒng)調用等待完成。除非應用程序,內(nèi)核會直接修改CQ,因此調用io_uring_enter系統(tǒng)調用時不必使用IORING_ENTER_GETEVENTS,完成就可以被應用程序消費。

    io_uring提供了submission offload模式,使得提交過程完全不需要進行系統(tǒng)調用。當程序在用戶態(tài)設置完SQE,并通過修改SQ的tail完成一次插入時,如果此時SQ線程處于喚醒狀態(tài),那么可以立刻捕獲到這次提交,這樣就避免了用戶程序調用io_uring_enter。如上所說,如果SQ線程處于休眠狀態(tài),則需要通過使用IORING_SQ_NEED_WAKEUP標志位調用io_uring_enter來喚醒SQ線程。

    以io_iopoll_check為例,正常情況下執(zhí)行路線是io_iopoll_check -> io_iopoll_getevents -> io_do_iopoll -> (kiocb->ki_filp->f_op->iopoll). 在完成請求的操作之后,會調用下面這個函數(shù)提交結果到cqe數(shù)組中,這樣應用就能看到結果了。這里的io_cqring_fill_event就是獲取一個目前可以寫入到cqe,寫入數(shù)據(jù)。這里最終調用的會是io_get_cqring,可以見就是返回目前tail的后面的一個。

    更詳細的內(nèi)容可以直接參考io_uring_enter(2)的man page。

    內(nèi)核中io_uring_enter的相關代碼如下。

    SYSCALL_DEFINE6(io_uring_enter,?unsigned?int,?fd,?u32,?to_submit,u32,?min_complete,?u32,?flags,?const?sigset_t?__user?*,?sig,size_t,?sigsz) {struct?io_ring_ctx?*ctx;long?ret?=?-EBADF;int?submitted?=?0;struct?fd?f;io_run_task_work();if?(flags?&?~(IORING_ENTER_GETEVENTS?|?IORING_ENTER_SQ_WAKEUP?|IORING_ENTER_SQ_WAIT))return?-EINVAL;f?=?fdget(fd);if?(!f.file)return?-EBADF;ret?=?-EOPNOTSUPP;if?(f.file->f_op?!=?&io_uring_fops)goto?out_fput;ret?=?-ENXIO;ctx?=?f.file->private_data;if?(!percpu_ref_tryget(&ctx->refs))goto?out_fput;ret?=?-EBADFD;if?(ctx->flags?&?IORING_SETUP_R_DISABLED)goto?out;/**?For?SQ?polling,?the?thread?will?do?all?submissions?and?completions.*?Just?return?the?requested?submit?count,?and?wake?the?thread?if*?we?were?asked?to.*/ret?=?0;if?(ctx->flags?&?IORING_SETUP_SQPOLL)?{if?(!list_empty_careful(&ctx->cq_overflow_list))io_cqring_overflow_flush(ctx,?false,?NULL,?NULL);if?(flags?&?IORING_ENTER_SQ_WAKEUP)wake_up(&ctx->sq_data->wait);if?(flags?&?IORING_ENTER_SQ_WAIT)io_sqpoll_wait_sq(ctx);submitted?=?to_submit;}?else?if?(to_submit)?{ret?=?io_uring_add_task_file(ctx,?f.file);if?(unlikely(ret))goto?out;mutex_lock(&ctx->uring_lock);submitted?=?io_submit_sqes(ctx,?to_submit);mutex_unlock(&ctx->uring_lock);if?(submitted?!=?to_submit)goto?out;}if?(flags?&?IORING_ENTER_GETEVENTS)?{min_complete?=?min(min_complete,?ctx->cq_entries);/**?When?SETUP_IOPOLL?and?SETUP_SQPOLL?are?both?enabled,?user*?space?applications?don't?need?to?do?io?completion?events*?polling?again,?they?can?rely?on?io_sq_thread?to?do?polling*?work,?which?can?reduce?cpu?usage?and?uring_lock?contention.*/if?(ctx->flags?&?IORING_SETUP_IOPOLL?&&!(ctx->flags?&?IORING_SETUP_SQPOLL))?{ret?=?io_iopoll_check(ctx,?min_complete);}?else?{ret?=?io_cqring_wait(ctx,?min_complete,?sig,?sigsz);}}out:percpu_ref_put(&ctx->refs); out_fput:fdput(f);return?submitted???submitted?:?ret; }

    io_iopoll_complete實現(xiàn)

    /**?Find?and?free?completed?poll?iocbs*/ static?void?io_iopoll_complete(struct?io_ring_ctx?*ctx,?unsigned?int?*nr_events,struct?list_head?*done) {struct?req_batch?rb;struct?io_kiocb?*req;LIST_HEAD(again);/*?order?with?->result?store?in?io_complete_rw_iopoll()?*/smp_rmb();io_init_req_batch(&rb);while?(!list_empty(done))?{int?cflags?=?0;req?=?list_first_entry(done,?struct?io_kiocb,?inflight_entry);if?(READ_ONCE(req->result)?==?-EAGAIN)?{req->result?=?0;req->iopoll_completed?=?0;list_move_tail(&req->inflight_entry,?&again);continue;}list_del(&req->inflight_entry);if?(req->flags?&?REQ_F_BUFFER_SELECTED)cflags?=?io_put_rw_kbuf(req);__io_cqring_fill_event(req,?req->result,?cflags);(*nr_events)++;if?(refcount_dec_and_test(&req->refs))io_req_free_batch(&rb,?req);}io_commit_cqring(ctx);if?(ctx->flags?&?IORING_SETUP_SQPOLL)io_cqring_ev_posted(ctx);io_req_free_batch_finish(ctx,?&rb);if?(!list_empty(&again))io_iopoll_queue(&again); }

    io_get_cqring實現(xiàn)

    static?struct?io_uring_cqe?*io_get_cqring(struct?io_ring_ctx?*ctx) {struct?io_rings?*rings?=?ctx->rings;unsigned?tail;tail?=?ctx->cached_cq_tail;/**?writes?to?the?cq?entry?need?to?come?after?reading?head;?the*?control?dependency?is?enough?as?we're?using?WRITE_ONCE?to*?fill?the?cq?entry*/if?(tail?-?READ_ONCE(rings->cq.head)?==?rings->cq_ring_entries)return?NULL;ctx->cached_cq_tail++;return?&rings->cqes[tail?&?ctx->cq_mask]; }
    IO收割

    來都來了,搞點事情吧,在我們提交IO的同時,使用同一個io_uring_enter系統(tǒng)調用就可以回收完成狀態(tài),這樣的好處就是一次系統(tǒng)調用接口就完成了原本需要兩次系統(tǒng)調用的工作,大大的減少了系統(tǒng)調用的次數(shù),也就是減少了內(nèi)核核外的切換,這是一個很明顯的優(yōu)化,內(nèi)核與核外的切換極其耗時。

    當IO完成時,內(nèi)核負責將完成IO在SQEs中的index放到CQ中。由于IO在提交的時候可以順便返回完成的IO,所以收割IO不需要額外系統(tǒng)調用。

    如果使用了IORING_SETUP_SQPOLL參數(shù),IO收割也不需要系統(tǒng)調用的參與。由于內(nèi)核和用戶態(tài)共享內(nèi)存,所以收割的時候,用戶態(tài)遍歷[cring->head, cring->tail)區(qū)間,即已經(jīng)完成的IO隊列,然后找到相應的CQE并進行處理,最后移動head指針到tail,IO收割至此而終。

    所以,在最理想的情況下,IO提交和收割都不需要使用系統(tǒng)調用。

    高級特性

    此外,我們可以使用一些優(yōu)化思想,進行更進一步的優(yōu)化,這些優(yōu)化,以一種可選的方式成為io_uring的其它一些高級特性。

    Fixed Files模式

    優(yōu)化思想

    非關鍵邏輯上提至循環(huán)外,簡化關鍵路徑。

    優(yōu)化實現(xiàn)

    可以調用io_uring_register系統(tǒng)調用,使用IORING_REGISTER_FILES操作碼,將一組file注冊到內(nèi)核,最終調用io_sqe_files_register,這樣內(nèi)核在注冊階段就批量完成文件的一些基本操作(對于這組文件填充相應的數(shù)據(jù)結構fixed_file_data,其中fixed_file_table是維護的file表。內(nèi)核態(tài)下,如何獲得文件描述符獲取相關的信息呢,就需要通過fget,根據(jù)fd號獲得指向文件的struct file),之后的再次批量IO時就不需要重復地進行此類基本信息設置(更具體地,例如對文件進行fget/fput操作)。如果需要進行IO操作的文件相對固定(比如數(shù)據(jù)庫日志),這會節(jié)省一定量的IO時間。

    fixed_file_data結構

    struct?fixed_file_data?{struct?fixed_file_table??*table;struct?io_ring_ctx??*ctx;struct?fixed_file_ref_node?*node;struct?percpu_ref??refs;struct?completion??done;struct?list_head??ref_list;spinlock_t???lock; };

    io_sqe_files_register實現(xiàn)Fixed Files操作

    static?int?io_sqe_files_register(struct?io_ring_ctx?*ctx,?void?__user?*arg,unsigned?nr_args) {__s32?__user?*fds?=?(__s32?__user?*)?arg;unsigned?nr_tables,?i;struct?file?*file;int?fd,?ret?=?-ENOMEM;struct?fixed_file_ref_node?*ref_node;struct?fixed_file_data?*file_data;if?(ctx->file_data)return?-EBUSY;if?(!nr_args)return?-EINVAL;if?(nr_args?>?IORING_MAX_FIXED_FILES)return?-EMFILE;file_data?=?kzalloc(sizeof(*ctx->file_data),?GFP_KERNEL);if?(!file_data)return?-ENOMEM;file_data->ctx?=?ctx;init_completion(&file_data->done);INIT_LIST_HEAD(&file_data->ref_list);spin_lock_init(&file_data->lock);nr_tables?=?DIV_ROUND_UP(nr_args,?IORING_MAX_FILES_TABLE);file_data->table?=?kcalloc(nr_tables,?sizeof(*file_data->table),GFP_KERNEL);if?(!file_data->table)goto?out_free;if?(percpu_ref_init(&file_data->refs,?io_file_ref_kill,PERCPU_REF_ALLOW_REINIT,?GFP_KERNEL))goto?out_free;if?(io_sqe_alloc_file_tables(file_data,?nr_tables,?nr_args))goto?out_ref;ctx->file_data?=?file_data;for?(i?=?0;?i?<?nr_args;?i++,?ctx->nr_user_files++)?{struct?fixed_file_table?*table;unsigned?index;if?(copy_from_user(&fd,?&fds[i],?sizeof(fd)))?{ret?=?-EFAULT;goto?out_fput;}/*?allow?sparse?sets?*/if?(fd?==?-1)continue;file?=?fget(fd);ret?=?-EBADF;if?(!file)goto?out_fput;/**?Don't?allow?io_uring?instances?to?be?registered.?If?UNIX*?isn't?enabled,?then?this?causes?a?reference?cycle?and?this*?instance?can?never?get?freed.?If?UNIX?is?enabled?we'll*?handle?it?just?fine,?but?there's?still?no?point?in?allowing*?a?ring?fd?as?it?doesn't?support?regular?read/write?anyway.*/if?(file->f_op?==?&io_uring_fops)?{fput(file);goto?out_fput;}table?=?&file_data->table[i?>>?IORING_FILE_TABLE_SHIFT];index?=?i?&?IORING_FILE_TABLE_MASK;table->files[index]?=?file;}ret?=?io_sqe_files_scm(ctx);if?(ret)?{io_sqe_files_unregister(ctx);return?ret;}ref_node?=?alloc_fixed_file_ref_node(ctx);if?(IS_ERR(ref_node))?{io_sqe_files_unregister(ctx);return?PTR_ERR(ref_node);}file_data->node?=?ref_node;spin_lock(&file_data->lock);list_add_tail(&ref_node->node,?&file_data->ref_list);spin_unlock(&file_data->lock);percpu_ref_get(&file_data->refs);return?ret; out_fput:for?(i?=?0;?i?<?ctx->nr_user_files;?i++)?{file?=?io_file_from_index(ctx,?i);if?(file)fput(file);}for?(i?=?0;?i?<?nr_tables;?i++)kfree(file_data->table[i].files);ctx->nr_user_files?=?0; out_ref:percpu_ref_exit(&file_data->refs); out_free:kfree(file_data->table);kfree(file_data);ctx->file_data?=?NULL;return?ret; }

    Fixed Buffers模式

    優(yōu)化思想

    優(yōu)化思想也是將非關鍵邏輯上提至循環(huán)外,簡化關鍵路徑。

    優(yōu)化實現(xiàn)

    如果應用提交到內(nèi)核的虛擬內(nèi)存地址是固定的,那么可以提前完成虛擬地址到物理pages的映射,將這個并不是每次都要做的非關鍵路徑從關鍵的IO 路徑中剝離,避免每次I/O都進行轉換,從而優(yōu)化性能。可以在io_uring_setup之后,調用io_uring_register,使用IORING_REGISTER_BUFFERS 操作碼,將一組buffer注冊到內(nèi)核(參數(shù)是一個指向iovec的數(shù)組,表示這些地址需要map到內(nèi)核),最終調用io_sqe_buffer_register,這樣內(nèi)核在注冊階段就批量完成buffer的一些基本操作(減小get_user_pages、put_page開銷,提前使用get_user_pages來獲得userspace虛擬地址對應的物理pages,初始化在io_ring_ctx上下文中用于管理用戶態(tài)buffer的io_mapped_ubuf數(shù)據(jù)結構,map/unmap,傳遞IOV的地址和長度等),之后的再次批量IO時就不需要重復地進行此類內(nèi)存拷貝和基礎信息檢測。

    在操作IO的時,如果需要進行IO操作的buffer相對固定,提交的虛擬地址曾經(jīng)被注冊過,那么可以使用帶FIXED系列的opcode(IORING_OP_READ_FIXED/IORING_OP_WRITE_FIXED)IO,可以看到底層調用鏈:io_issue_sqe->io_read->io_import_iovec->__io_import_iovec->io_import_fixed,會直接使用已經(jīng)完成的“成果”,如此就免去了虛擬地址到pages的轉換,這會節(jié)省一定量的IO時間。

    io_mapped_ubuf結構
    struct?io_mapped_ubuf?{u64??ubuf;size_t??len;struct??bio_vec?*bvec;unsigned?int?nr_bvecs;unsigned?long?acct_pages; };
    io_sqe_buffer_register實現(xiàn)Fixed Buffers操作
    static?int?io_sqe_buffer_register(struct?io_ring_ctx?*ctx,?void?__user?*arg,unsigned?nr_args) {struct?vm_area_struct?**vmas?=?NULL;struct?page?**pages?=?NULL;struct?page?*last_hpage?=?NULL;int?i,?j,?got_pages?=?0;int?ret?=?-EINVAL;if?(ctx->user_bufs)return?-EBUSY;if?(!nr_args?||?nr_args?>?UIO_MAXIOV)return?-EINVAL;ctx->user_bufs?=?kcalloc(nr_args,?sizeof(struct?io_mapped_ubuf),GFP_KERNEL);if?(!ctx->user_bufs)return?-ENOMEM;for?(i?=?0;?i?<?nr_args;?i++)?{struct?io_mapped_ubuf?*imu?=?&ctx->user_bufs[i];unsigned?long?off,?start,?end,?ubuf;int?pret,?nr_pages;struct?iovec?iov;size_t?size;ret?=?io_copy_iov(ctx,?&iov,?arg,?i);if?(ret)goto?err;/**?Don't?impose?further?limits?on?the?size?and?buffer*?constraints?here,?we'll?-EINVAL?later?when?IO?is*?submitted?if?they?are?wrong.*/ret?=?-EFAULT;if?(!iov.iov_base?||?!iov.iov_len)goto?err;/*?arbitrary?limit,?but?we?need?something?*/if?(iov.iov_len?>?SZ_1G)goto?err;ubuf?=?(unsigned?long)?iov.iov_base;end?=?(ubuf?+?iov.iov_len?+?PAGE_SIZE?-?1)?>>?PAGE_SHIFT;start?=?ubuf?>>?PAGE_SHIFT;nr_pages?=?end?-?start;ret?=?0;if?(!pages?||?nr_pages?>?got_pages)?{kvfree(vmas);kvfree(pages);pages?=?kvmalloc_array(nr_pages,?sizeof(struct?page?*),GFP_KERNEL);vmas?=?kvmalloc_array(nr_pages,sizeof(struct?vm_area_struct?*),GFP_KERNEL);if?(!pages?||?!vmas)?{ret?=?-ENOMEM;goto?err;}got_pages?=?nr_pages;}imu->bvec?=?kvmalloc_array(nr_pages,?sizeof(struct?bio_vec),GFP_KERNEL);ret?=?-ENOMEM;if?(!imu->bvec)goto?err;ret?=?0;mmap_read_lock(current->mm);pret?=?pin_user_pages(ubuf,?nr_pages,FOLL_WRITE?|?FOLL_LONGTERM,pages,?vmas);if?(pret?==?nr_pages)?{/*?don't?support?file?backed?memory?*/for?(j?=?0;?j?<?nr_pages;?j++)?{struct?vm_area_struct?*vma?=?vmas[j];if?(vma->vm_file?&&!is_file_hugepages(vma->vm_file))?{ret?=?-EOPNOTSUPP;break;}}}?else?{ret?=?pret?<?0???pret?:?-EFAULT;}mmap_read_unlock(current->mm);if?(ret)?{/**?if?we?did?partial?map,?or?found?file?backed?vmas,*?release?any?pages?we?did?get*/if?(pret?>?0)unpin_user_pages(pages,?pret);kvfree(imu->bvec);goto?err;}ret?=?io_buffer_account_pin(ctx,?pages,?pret,?imu,?&last_hpage);if?(ret)?{unpin_user_pages(pages,?pret);kvfree(imu->bvec);goto?err;}off?=?ubuf?&?~PAGE_MASK;size?=?iov.iov_len;for?(j?=?0;?j?<?nr_pages;?j++)?{size_t?vec_len;vec_len?=?min_t(size_t,?size,?PAGE_SIZE?-?off);imu->bvec[j].bv_page?=?pages[j];imu->bvec[j].bv_len?=?vec_len;imu->bvec[j].bv_offset?=?off;off?=?0;size?-=?vec_len;}/*?store?original?address?for?later?verification?*/imu->ubuf?=?ubuf;imu->len?=?iov.iov_len;imu->nr_bvecs?=?nr_pages;ctx->nr_user_bufs++;}kvfree(pages);kvfree(vmas);return?0; err:kvfree(pages);kvfree(vmas);io_sqe_buffer_unregister(ctx);return?ret; }

    Polled IO模式

    優(yōu)化思想

    將較多的CPU時間放到重要的事情上,全速完成關鍵路徑。

    狀態(tài)從未完成變成已完成,就需要對完成狀態(tài)進行探測,很多時候,可以使用中斷模型,也就是等待后端數(shù)據(jù)處理完畢之后,內(nèi)核會發(fā)起一個SIGIO或eventfd的EPOLLIN狀態(tài)提醒核外有數(shù)據(jù)已經(jīng)完成了,可以開始處理。但是,中斷其實是比較耗時的,如果是高IOPS的場景,就會不停地中斷,中斷開銷就得不償失。

    我們可以更激進一些,讓內(nèi)核采用Polled IO模式收割塊設備層請求。這在一定的程度上加速了IO,這在追求低延時和高IOPS的應用場景非常有用。

    優(yōu)化實現(xiàn)

    io_uring_enter通過正確設置IORING_ENTER_GETEVENTS,IORING_SETUP_IOPOLL等flag(如下代碼設置IORING_SETUP_IOPOLL并且不設置IORING_SETUP_SQPOLL,即沒有使用SQ線程)調用io_iopoll_check。

    SYSCALL_DEFINE6(io_uring_enter,?unsigned?int,?fd,?u32,?to_submit,u32,?min_complete,?u32,?flags,?const?sigset_t?__user?*,?sig,size_t,?sigsz) {struct?io_ring_ctx?*ctx;long?ret?=?-EBADF;int?submitted?=?0;struct?fd?f;io_run_task_work();if?(flags?&?~(IORING_ENTER_GETEVENTS?|?IORING_ENTER_SQ_WAKEUP?|IORING_ENTER_SQ_WAIT))return?-EINVAL;f?=?fdget(fd);if?(!f.file)return?-EBADF;ret?=?-EOPNOTSUPP;if?(f.file->f_op?!=?&io_uring_fops)goto?out_fput;ret?=?-ENXIO;ctx?=?f.file->private_data;if?(!percpu_ref_tryget(&ctx->refs))goto?out_fput;ret?=?-EBADFD;if?(ctx->flags?&?IORING_SETUP_R_DISABLED)goto?out;/**?For?SQ?polling,?the?thread?will?do?all?submissions?and?completions.*?Just?return?the?requested?submit?count,?and?wake?the?thread?if*?we?were?asked?to.*/ret?=?0;if?(ctx->flags?&?IORING_SETUP_SQPOLL)?{if?(!list_empty_careful(&ctx->cq_overflow_list))io_cqring_overflow_flush(ctx,?false,?NULL,?NULL);if?(flags?&?IORING_ENTER_SQ_WAKEUP)wake_up(&ctx->sq_data->wait);if?(flags?&?IORING_ENTER_SQ_WAIT)io_sqpoll_wait_sq(ctx);submitted?=?to_submit;}?else?if?(to_submit)?{ret?=?io_uring_add_task_file(ctx,?f.file);if?(unlikely(ret))goto?out;mutex_lock(&ctx->uring_lock);submitted?=?io_submit_sqes(ctx,?to_submit);mutex_unlock(&ctx->uring_lock);if?(submitted?!=?to_submit)goto?out;}if?(flags?&?IORING_ENTER_GETEVENTS)?{min_complete?=?min(min_complete,?ctx->cq_entries);/**?When?SETUP_IOPOLL?and?SETUP_SQPOLL?are?both?enabled,?user*?space?applications?don't?need?to?do?io?completion?events*?polling?again,?they?can?rely?on?io_sq_thread?to?do?polling*?work,?which?can?reduce?cpu?usage?and?uring_lock?contention.*/if?(ctx->flags?&?IORING_SETUP_IOPOLL?&&!(ctx->flags?&?IORING_SETUP_SQPOLL))?{ret?=?io_iopoll_check(ctx,?min_complete);}?else?{ret?=?io_cqring_wait(ctx,?min_complete,?sig,?sigsz);}}out:percpu_ref_put(&ctx->refs); out_fput:fdput(f);return?submitted???submitted?:?ret; }

    io_iopoll_check開始poll核外程序可以不停的輪詢需要的完成事件數(shù)量min_complete,循環(huán)內(nèi)主要調用io_iopoll_getevents。

    static?int?io_iopoll_check(struct?io_ring_ctx?*ctx,?long?min) {unsigned?int?nr_events?=?0;int?iters?=?0,?ret?=?0;/**?We?disallow?the?app?entering?submit/complete?with?polling,?but?we*?still?need?to?lock?the?ring?to?prevent?racing?with?polled?issue*?that?got?punted?to?a?workqueue.*/mutex_lock(&ctx->uring_lock);do?{/**?Don't?enter?poll?loop?if?we?already?have?events?pending.*?If?we?do,?we?can?potentially?be?spinning?for?commands?that*?already?triggered?a?CQE?(eg?in?error).*/if?(io_cqring_events(ctx,?false))break;/**?If?a?submit?got?punted?to?a?workqueue,?we?can?have?the*?application?entering?polling?for?a?command?before?it?gets*?issued.?That?app?will?hold?the?uring_lock?for?the?duration*?of?the?poll?right?here,?so?we?need?to?take?a?breather?every*?now?and?then?to?ensure?that?the?issue?has?a?chance?to?add*?the?poll?to?the?issued?list.?Otherwise?we?can?spin?here*?forever,?while?the?workqueue?is?stuck?trying?to?acquire?the*?very?same?mutex.*/if?(!(++iters?&?7))?{mutex_unlock(&ctx->uring_lock);io_run_task_work();mutex_lock(&ctx->uring_lock);}ret?=?io_iopoll_getevents(ctx,?&nr_events,?min);if?(ret?<=?0)break;ret?=?0;}?while?(min?&&?!nr_events?&&?!need_resched());mutex_unlock(&ctx->uring_lock);return?ret; }

    io_iopoll_getevents調用io_do_iopoll。

    /**?Poll?for?a?minimum?of?'min'?events.?Note?that?if?min?==?0?we?consider?that?a*?non-spinning?poll?check?-?we'll?still?enter?the?driver?poll?loop,?but?only*?as?a?non-spinning?completion?check.*/ static?int?io_iopoll_getevents(struct?io_ring_ctx?*ctx,?unsigned?int?*nr_events,long?min) {while?(!list_empty(&ctx->iopoll_list)?&&?!need_resched())?{int?ret;ret?=?io_do_iopoll(ctx,?nr_events,?min);if?(ret?<?0)return?ret;if?(*nr_events?>=?min)return?0;}return?1; }

    io_do_iopoll中的kiocb->ki_filp->f_op->iopoll,即blkdev_iopoll,不斷地輪詢探測確認提交給Block層的請求的完成狀態(tài),直到足夠數(shù)量的IO完成。

    static?int?io_do_iopoll(struct?io_ring_ctx?*ctx,?unsigned?int?*nr_events,long?min) {struct?io_kiocb?*req,?*tmp;LIST_HEAD(done);bool?spin;int?ret;/**?Only?spin?for?completions?if?we?don't?have?multiple?devices?hanging*?off?our?complete?list,?and?we're?under?the?requested?amount.*/spin?=?!ctx->poll_multi_file?&&?*nr_events?<?min;ret?=?0;list_for_each_entry_safe(req,?tmp,?&ctx->iopoll_list,?inflight_entry)?{struct?kiocb?*kiocb?=?&req->rw.kiocb;/**?Move?completed?and?retryable?entries?to?our?local?lists.*?If?we?find?a?request?that?requires?polling,?break?out*?and?complete?those?lists?first,?if?we?have?entries?there.*/if?(READ_ONCE(req->iopoll_completed))?{list_move_tail(&req->inflight_entry,?&done);continue;}if?(!list_empty(&done))break;ret?=?kiocb->ki_filp->f_op->iopoll(kiocb,?spin);if?(ret?<?0)break;/*?iopoll?may?have?completed?current?req?*/if?(READ_ONCE(req->iopoll_completed))list_move_tail(&req->inflight_entry,?&done);if?(ret?&&?spin)spin?=?false;ret?=?0;}if?(!list_empty(&done))io_iopoll_complete(ctx,?nr_events,?&done);return?ret; }

    塊設備層相關file_operations。

    const?struct?file_operations?def_blk_fops?=?{.open??=?blkdev_open,.release?=?blkdev_close,.llseek??=?block_llseek,.read_iter?=?blkdev_read_iter,.write_iter?=?blkdev_write_iter,.iopoll??=?blkdev_iopoll,.mmap??=?generic_file_mmap,.fsync??=?blkdev_fsync,.unlocked_ioctl?=?block_ioctl, #ifdef?CONFIG_COMPAT.compat_ioctl?=?compat_blkdev_ioctl, #endif.splice_read?=?generic_file_splice_read,.splice_write?=?iter_file_splice_write,.fallocate?=?blkdev_fallocate, };

    當使用POLL IO時,大多數(shù)CPU時間花費在blkdev_iopoll上。即全速完成關鍵路徑。

    static?int?blkdev_iopoll(struct?kiocb?*kiocb,?bool?wait) {struct?block_device?*bdev?=?I_BDEV(kiocb->ki_filp->f_mapping->host);struct?request_queue?*q?=?bdev_get_queue(bdev);return?blk_poll(q,?READ_ONCE(kiocb->ki_cookie),?wait); }

    Kernel Side Polling

    IORING_SETUP_SQPOLL,當前應用更新SQ并填充一個新的SQE,內(nèi)核線程sq_thread會自動完成提交,這樣應用無需每次調用io_uring_enter系統(tǒng)調用來提交IO。應用可通過IORING_SETUP_SQ_AFF和sq_thread_cpu綁定特定的CPU。

    實際機器上,不僅有高IOPS場景,還有些場景的IOPS有些時間段會非常低。為了節(jié)省無IO場景的CPU開銷,一段時間空閑,該內(nèi)核線程可以自動睡眠。核外在下發(fā)新的IO時,通過IORING_ENTER_SQ_WAKEUP喚醒該內(nèi)核線程。

    小結

    如上可見,內(nèi)核提供了足夠多的選擇,不同的方案有著不同角度的優(yōu)化方向,這些優(yōu)化方案可以自行組合。通過合理地使用,可以使io_uring 全速運轉。

    io_uring用戶態(tài)庫liburing

    正如前文所說,簡單并不一定意味著易用——io_uring的接口足夠簡單,但是相對于這種簡單,操作上需要手動mmap來映射內(nèi)存,稍顯復雜。為了更方便地使用io_uring,原作者Jens Axboe還開發(fā)了一套liburing庫。liburing庫提供了一組輔助函數(shù)實現(xiàn)設置和內(nèi)存映射,應用不必了解諸多io_uring的細節(jié)就可以簡單地使用起來。例如,無需擔心memory barrier,或者是ring buffer管理之類等。上文所提的一些高級特性,在liburing中也有封裝。

    核心數(shù)據(jù)結構

    liburing中,核心的結構有io_uring、io_uring_sq、io_uring_cq

    /**?Library?interface?to?io_uring*/ struct?io_uring_sq?{unsigned?*khead;unsigned?*ktail;unsigned?*kring_mask;unsigned?*kring_entries;unsigned?*kflags;unsigned?*kdropped;unsigned?*array;struct?io_uring_sqe?*sqes;unsigned?sqe_head;unsigned?sqe_tail;size_t?ring_sz; };struct?io_uring_cq?{unsigned?*khead;unsigned?*ktail;unsigned?*kring_mask;unsigned?*kring_entries;unsigned?*koverflow;struct?io_uring_cqe?*cqes;size_t?ring_sz; };struct?io_uring?{struct?io_uring_sq?sq;struct?io_uring_cq?cq;int?ring_fd; };

    核心接口

    相關接口在頭文件linux/tools/io_uring/liburing.h,如果是通過標準方式安裝的liburing,則在/usr/include/下。

    /**?System?calls*/ extern?int?io_uring_setup(unsigned?entries,?struct?io_uring_params?*p); extern?int?io_uring_enter(int?fd,?unsigned?to_submit,unsigned?min_complete,?unsigned?flags,?sigset_t?*sig); extern?int?io_uring_register(int?fd,?unsigned?int?opcode,?void?*arg,unsigned?int?nr_args);/**?Library?interface*/ extern?int?io_uring_queue_init(unsigned?entries,?struct?io_uring?*ring,unsigned?flags); extern?int?io_uring_queue_mmap(int?fd,?struct?io_uring_params?*p,struct?io_uring?*ring); extern?void?io_uring_queue_exit(struct?io_uring?*ring); extern?int?io_uring_peek_cqe(struct?io_uring?*ring,struct?io_uring_cqe?**cqe_ptr); extern?int?io_uring_wait_cqe(struct?io_uring?*ring,struct?io_uring_cqe?**cqe_ptr); extern?int?io_uring_submit(struct?io_uring?*ring); extern?struct?io_uring_sqe?*io_uring_get_sqe(struct?io_uring?*ring);

    主要流程

    • 使用io_uring_queue_init,完成io_uring相關結構的初始化。在這個函數(shù)的實現(xiàn)中,會調用多個mmap來初始化一些內(nèi)存。

    • 初始化完成之后,為了提交IO請求,需要獲取里面queue的一個項,使用io_uring_get_sqe。

      • 獲取到了空閑項之后,使用io_uring_prep_readv、io_uring_prep_writev初始化讀、寫請求。和前文所提preadv、pwritev的思想差不多,這里直接以不同的操作碼委托io_uring_prep_rw,io_uring_prep_rw只是簡單地初始化io_uring_sqe。

    • 準備完成之后,使用io_uring_submit提交請求。

    • 提交了IO請求時,可以通過非阻塞式函數(shù)io_uring_peek_cqe、阻塞式函數(shù)io_uring_wait_cqe獲取請求完成的情況。默認情況下,完成的IO請求還會存在內(nèi)部的隊列中,需要通過io_uring_cqe_seen表標記完成操作。

    • 使用完成之后要通過io_uring_queue_exit來完成資源清理的工作。

    核心實現(xiàn)

    io_uring_queue_init的實現(xiàn),前文已略有提及。其中的操作主要就是io_uring_setup和io_uring_queue_mmap,io_uring_setup前文已解析過,這里主要看io_uring_queue_mmap。

    /**?Returns?-1?on?error,?or?zero?on?success.?On?success,?'ring'*?contains?the?necessary?information?to?read/write?to?the?rings.*/ int?io_uring_queue_init(unsigned?entries,?struct?io_uring?*ring,?unsigned?flags) {struct?io_uring_params?p;int?fd,?ret;memset(&p,?0,?sizeof(p));p.flags?=?flags;fd?=?io_uring_setup(entries,?&p);if?(fd?<?0)return?fd;ret?=?io_uring_queue_mmap(fd,?&p,?ring);if?(ret)close(fd);return?ret; }

    io_uring_queue_mmap初始化io_uring結構,然后主要調用io_uring_mmap。

    /**?For?users?that?want?to?specify?sq_thread_cpu?or?sq_thread_idle,?this*?interface?is?a?convenient?helper?for?mmap()ing?the?rings.*?Returns?-1?on?error,?or?zero?on?success.??On?success,?'ring'*?contains?the?necessary?information?to?read/write?to?the?rings.*/ int?io_uring_queue_mmap(int?fd,?struct?io_uring_params?*p,?struct?io_uring?*ring) {int?ret;memset(ring,?0,?sizeof(*ring));ret?=?io_uring_mmap(fd,?p,?&ring->sq,?&ring->cq);if?(!ret)ring->ring_fd?=?fd;return?ret; }

    io_uring_mmap初始化io_uring_sq結構和io_uring_cq結構的內(nèi)存,另外還會分配一個io_uring_sqe結構的數(shù)組。

    static?int?io_uring_mmap(int?fd,?struct?io_uring_params?*p,struct?io_uring_sq?*sq,?struct?io_uring_cq?*cq) {size_t?size;void?*ptr;int?ret;sq->ring_sz?=?p->sq_off.array?+?p->sq_entries?*?sizeof(unsigned);ptr?=?mmap(0,?sq->ring_sz,?PROT_READ?|?PROT_WRITE,MAP_SHARED?|?MAP_POPULATE,?fd,?IORING_OFF_SQ_RING);if?(ptr?==?MAP_FAILED)return?-errno;sq->khead?=?ptr?+?p->sq_off.head;sq->ktail?=?ptr?+?p->sq_off.tail;sq->kring_mask?=?ptr?+?p->sq_off.ring_mask;sq->kring_entries?=?ptr?+?p->sq_off.ring_entries;sq->kflags?=?ptr?+?p->sq_off.flags;sq->kdropped?=?ptr?+?p->sq_off.dropped;sq->array?=?ptr?+?p->sq_off.array;size?=?p->sq_entries?*?sizeof(struct?io_uring_sqe);sq->sqes?=?mmap(0,?size,?PROT_READ?|?PROT_WRITE,MAP_SHARED?|?MAP_POPULATE,?fd,IORING_OFF_SQES);if?(sq->sqes?==?MAP_FAILED)?{ret?=?-errno; err:munmap(sq->khead,?sq->ring_sz);return?ret;}cq->ring_sz?=?p->cq_off.cqes?+?p->cq_entries?*?sizeof(struct?io_uring_cqe);ptr?=?mmap(0,?cq->ring_sz,?PROT_READ?|?PROT_WRITE,MAP_SHARED?|?MAP_POPULATE,?fd,?IORING_OFF_CQ_RING);if?(ptr?==?MAP_FAILED)?{ret?=?-errno;munmap(sq->sqes,?p->sq_entries?*?sizeof(struct?io_uring_sqe));goto?err;}cq->khead?=?ptr?+?p->cq_off.head;cq->ktail?=?ptr?+?p->cq_off.tail;cq->kring_mask?=?ptr?+?p->cq_off.ring_mask;cq->kring_entries?=?ptr?+?p->cq_off.ring_entries;cq->koverflow?=?ptr?+?p->cq_off.overflow;cq->cqes?=?ptr?+?p->cq_off.cqes;return?0; }

    具體例程

    如下是一個基于liburing的helloworld示例。

    #include?<unistd.h> #include?<fcntl.h> #include?<string.h> #include?<stdio.h> #include?<liburing.h>#define?ENTRIES?4int?main(int?argc,?char?*argv[]) {struct?io_uring?ring;struct?io_uring_sqe?*sqe;struct?io_uring_cqe?*cqe;struct?iovec?iov?=?{.iov_base?=?"Hello?World",.iov_len?=?strlen("Hello?World"),};int?fd,?ret;if?(argc?!=?2)?{printf("%s:?<testfile>\n",?argv[0]);return?1;}/*?setup?io_uring?and?do?mmap?*/ret?=?io_uring_queue_init(ENTRIES,?&ring,?0);if?(ret?<?0)?{printf("io_uring_queue_init:?%s\n",?strerror(-ret));return?1;}fd?=?open("testfile",?O_WRONLY?|?O_CREAT);if?(fd?<?0)?{printf("open?failed\n");ret?=?1;goto?exit;}/*?get?an?sqe?and?fill?in?a?WRITEV?operation?*/sqe?=?io_uring_get_sqe(&ring);if?(!sqe)?{printf("io_uring_get_sqe?failed\n");ret?=?1;goto?out;}io_uring_prep_writev(sqe,?fd,?&iov,?1,?0);/*?tell?the?kernel?we?have?an?sqe?ready?for?consumption?*/ret?=?io_uring_submit(&ring);if?(ret?<?0)?{printf("io_uring_submit:?%s\n",?strerror(-ret));goto?out;}/*?wait?for?the?sqe?to?complete?*/ret?=?io_uring_wait_cqe(&ring,?&cqe);if?(ret?<?0)?{printf("io_uring_wait_cqe:?%s\n",?strerror(-ret));goto?out;}/*?read?and?process?cqe?event?*/io_uring_cqe_seen(&ring,?cqe); out:close(fd); exit:/*?tear?down?*/io_uring_queue_exit(&ring);return?ret; }

    更多的示例可參考:
    http://git.kernel.dk/cgit/liburing/tree/examples
    https://git.kernel.dk/cgit/liburing/tree/test

    性能

    如上,推演過了設計與實現(xiàn),回歸到存儲的需求上來,io_uring子系統(tǒng)是否能滿足我們對高性能的極致需求呢?這一切還是需要profile。

    測試方法

    io_uring原作者Jens Axboe在fio中提供了ioengine=io_uring的支持,可以使用fio進行測試,使用ioengine選項指定異步IO引擎。

    可以基于不同的IO棧:

    • libaio

    • kernel+io_uring

    • kernel+io_uring polling mode

    可以基于一些硬件之上:

    • NVMe SSD

    • ...

    測試過程中主要4k數(shù)據(jù)的順序讀、順序寫、隨機讀、隨機寫,對比幾種IO引擎的性能及QoS等指標

    io_uring polling mode測試實例:

    fio?-name=testname?-filename=/mnt/vdd/testfilename?-iodepth=64?-thread?-rw=randread?-ioengine=io_uring?-sqthread_poll=1?-direct=1?-bs=4k?-size=10G?-numjobs=1?-runtime=600?-group_reporting

    測試結果

    網(wǎng)上可以找到一些關于io uring的性能測試,這里列出部分供參考:

    • Improved Flash Performance Using the New Linux Kernel I/O Interface

    • io_uring echo server benchs

    • [PATCHSET v5] io_uring IO interface

    • ...

    主要有以下幾個測試結果

    • io_uring在非polling模式下,相比libaio,性能提升不是非常顯著。

    • io_uring在polling模式下,性能提升顯著,與spdk接近,在隊列深度較高時性能更好。

    • 在meltdown和spectre漏洞沒有修復的場景下,io_uring的提升并不太高。雖然減少了大量的用戶態(tài)到內(nèi)核態(tài)的上下文切換,在meldown和spectre漏洞沒有修復的場景下,用戶態(tài)到內(nèi)核態(tài)的切換開銷本比較小,所以提升不太高。

    • 在某些場景下使用io_uring + Kernel NVMe的驅動,效果甚至要比使用SPDK 用戶態(tài)NVMe 驅動更好

    從測試中,我們可以得出結論,在存儲中使用io_uring,相比使用libaio,應用的性能會有顯著的提升。

    在同樣的硬件平臺上,僅僅更換IO引擎,就可以帶來較大的提升,是很難得的,對于存儲這種延時敏感的應用而言十分寶貴。

    io_uring的優(yōu)勢

    綜合前文和測試,io_uring有如此出眾的性能,主要來源于以下幾個方面:

    • 用戶態(tài)和內(nèi)核態(tài)共享提交隊列SQ和完成隊列CQ實現(xiàn)零拷貝。

    • IO提交和收割可以offload給Kernel,不需要經(jīng)過系統(tǒng)調用。

    • 支持塊設備層的Polling模式。

    • 可以提前注冊用戶態(tài)內(nèi)存地址,從而減少地址映射的開銷。

    • 相比libaio,支持buffered IO

    發(fā)展方向

    事物的發(fā)展是一個哲學話題。前文闡述了io_uring作為一個新事物,發(fā)展的根本動力、內(nèi)因和外因,謹此簡述一些可預見的未來的發(fā)展方向。

    普及

    應用層多使用。目前主要應用在存儲的場景中,這是一個不僅需要高性能,也需要穩(wěn)定的場景,而一般來說,新事物并不具備“穩(wěn)定”的屬性。但是io_uring同樣也是穩(wěn)定的,因為雖然io_uring使用到了若干新概念,但是這些新的東西已經(jīng)有了實踐的檢驗,如eventfd通知機制,SIGIO信號機制,與AIO基本相似。它是一個質變的新事物。

    就我們騰訊而言,內(nèi)核使用tlinux,tlinux3基于4.14.99主線;tlinux4基于5.4.23主線。

    所以,tlinux3可以用native aio,tlinux4之后已經(jīng)可以用native io_uring。

    相信通過大家的努力,正如前文所說的PostgreSQL使用彼時新接口pread,Nginx使用彼時的新接口AIO一樣,通過使用新街口,我們的工程也能獲得巨大收益。

    優(yōu)化方向

    降低本身的工作負載

    持續(xù)降低系統(tǒng)調用開銷、拷貝開銷、框架本身的負載。

    重構

    "Politics are for the moment. An equation is for eternity.
                                        ——Albert Einstein

    追求真理的人不可避免地追求永恒。“政治只是一時,方程卻是永恒。”——愛因斯坦如是說,時值以色列的第一任總統(tǒng)魏茲曼于1952年逝世,繼任首相古理安建議邀請愛因斯坦擔任第二任總統(tǒng)。

    我們說折衷權衡、精益求精,字里行間都是永恒,然而軟件應該持續(xù)重構,這實際上并不只是io_uring需要做的,有機會我會寫一篇關于重構的文章。

    總結

    首先,本文簡述了Linux過往的的IO發(fā)展歷程,同步IO接口、原生異步IO接口AIO的缺陷,為何原有方式存在缺陷。其次,再從設計的角度出發(fā),介紹了最新的IO引擎io_uring的相關內(nèi)容。最后,深入最新版內(nèi)核linux-5.10中解析了io_uring的大體實現(xiàn)(關鍵數(shù)據(jù)結構、流程、特性實現(xiàn)等)。

    關于

    難免紕漏,歡迎交流,可以通過以下網(wǎng)址找到本文。

    • 知乎:https://www.zhihu.com/people/linkerist-61

    • Github: https://github.com/Linkerist/blog/issues

    內(nèi)容會更新,可以關注我的公眾號,歡迎交流。

    參考

    PATCH 12/19]io_uring: add support for pre-mapped user IO buffers

    Add pread/pwrite support bits to match the lseek bit

    Toward non-blocking asynchronous I/O

    A new kernel polling interface

    The rapid growth of io_uring

    Ringing in a new asynchronous I/O API

    Efficient IO with io_uring

    The current state of kernel page-table isolation

    The Linux man-pages project

    https://zhuanlan.zhihu.com/p/62682475

    why we need io_uring? by byteisland

    Computer Systems: A Programmer's Perspective, Third Edition

    Advanced Programming in the UNIX Environment, Third Edition

    The Linux Programming Interface: A Linux and UNIX System Programming Handbook

    Introduction to io_uring

    Understanding Nginx Modules Development and Architecture Resolving(Second Edition)

    總結

    以上是生活随笔為你收集整理的操作系统与存储:解析Linux内核全新异步IO引擎io_uring设计与实现的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    亚洲国产欧美国产综合一区 | 综合人妻久久一区二区精品 | 欧美一区二区三区 | 永久免费观看国产裸体美女 | 久久精品国产精品国产精品污 | 亚洲国产午夜精品理论片 | 人人妻人人藻人人爽欧美一区 | 亚洲成av人综合在线观看 | 无遮挡国产高潮视频免费观看 | 国产莉萝无码av在线播放 | 亚洲欧美日韩综合久久久 | 一本加勒比波多野结衣 | 欧美喷潮久久久xxxxx | 精品午夜福利在线观看 | 成熟妇人a片免费看网站 | 成人亚洲精品久久久久 | 亚洲色大成网站www国产 | 西西人体www44rt大胆高清 | 国产综合久久久久鬼色 | 国产精品久久国产精品99 | 色综合久久网 | a国产一区二区免费入口 | 丰满妇女强制高潮18xxxx | 国产艳妇av在线观看果冻传媒 | 久久久亚洲欧洲日产国码αv | 激情亚洲一区国产精品 | 午夜无码人妻av大片色欲 | 天干天干啦夜天干天2017 | 亚洲人成人无码网www国产 | 亚洲一区av无码专区在线观看 | 亚洲精品午夜无码电影网 | 中文无码伦av中文字幕 | 一本久久a久久精品亚洲 | 国产一区二区不卡老阿姨 | 久久精品国产99久久6动漫 | 精品成人av一区二区三区 | √天堂中文官网8在线 | 国产亚洲美女精品久久久2020 | 中文字幕无码人妻少妇免费 | 日日夜夜撸啊撸 | 又大又硬又黄的免费视频 | 日本精品人妻无码免费大全 | 欧美乱妇无乱码大黄a片 | 亚洲s码欧洲m码国产av | 国产乱人伦app精品久久 国产在线无码精品电影网 国产国产精品人在线视 | 国产偷自视频区视频 | 熟妇激情内射com | 97精品人妻一区二区三区香蕉 | 熟妇人妻无乱码中文字幕 | 丰满人妻被黑人猛烈进入 | 成人无码影片精品久久久 | 亚洲a无码综合a国产av中文 | 国产精品丝袜黑色高跟鞋 | 国产成人亚洲综合无码 | 亚洲色大成网站www国产 | 又黄又爽又色的视频 | 日韩精品久久久肉伦网站 | 亚洲色www成人永久网址 | 波多野结衣一区二区三区av免费 | 国产精品久久久久久无码 | 无码成人精品区在线观看 | 精品厕所偷拍各类美女tp嘘嘘 | 亚洲人成网站色7799 | 性做久久久久久久免费看 | 激情综合激情五月俺也去 | 日本护士毛茸茸高潮 | 日日碰狠狠躁久久躁蜜桃 | 丝袜 中出 制服 人妻 美腿 | 成人无码视频免费播放 | 丝袜美腿亚洲一区二区 | 18禁止看的免费污网站 | 欧美高清在线精品一区 | 欧美丰满老熟妇xxxxx性 | 国产精品久久久一区二区三区 | 亚洲中文字幕无码一久久区 | 亚洲成a人片在线观看无码3d | 激情内射亚州一区二区三区爱妻 | 精品乱码久久久久久久 | 最近的中文字幕在线看视频 | 国内老熟妇对白xxxxhd | 国产欧美熟妇另类久久久 | 亚洲国产精品成人久久蜜臀 | 丁香啪啪综合成人亚洲 | 久久精品中文闷骚内射 | 久久亚洲国产成人精品性色 | 精品夜夜澡人妻无码av蜜桃 | 日本乱偷人妻中文字幕 | 免费无码的av片在线观看 | 精品国产aⅴ无码一区二区 | 欧美性生交xxxxx久久久 | 国产欧美熟妇另类久久久 | 少妇人妻偷人精品无码视频 | 鲁鲁鲁爽爽爽在线视频观看 | 精品无码一区二区三区的天堂 | 波多野结衣一区二区三区av免费 | 我要看www免费看插插视频 | 亚洲小说春色综合另类 | 一本大道久久东京热无码av | 国产精品二区一区二区aⅴ污介绍 | 免费乱码人妻系列无码专区 | 麻豆成人精品国产免费 | 男人和女人高潮免费网站 | 国产精品a成v人在线播放 | 亚洲日本va中文字幕 | 久久久中文久久久无码 | 亚洲欧美精品伊人久久 | 国产熟妇高潮叫床视频播放 | 老司机亚洲精品影院无码 | 在线观看欧美一区二区三区 | 少妇性荡欲午夜性开放视频剧场 | 午夜无码区在线观看 | 精品无码国产一区二区三区av | 妺妺窝人体色www婷婷 | 中文久久乱码一区二区 | 一二三四在线观看免费视频 | 久久人妻内射无码一区三区 | 国产特级毛片aaaaaaa高清 | 少妇愉情理伦片bd | 成在人线av无码免观看麻豆 | 久久精品国产一区二区三区肥胖 | 精品无码国产自产拍在线观看蜜 | 国产成人一区二区三区在线观看 | 波多野结衣一区二区三区av免费 | 精品人妻中文字幕有码在线 | 激情国产av做激情国产爱 | 亚洲中文字幕无码中文字在线 | 欧美激情一区二区三区成人 | 天下第一社区视频www日本 | 激情国产av做激情国产爱 | 久久久亚洲欧洲日产国码αv | 国产一区二区三区日韩精品 | 丰满妇女强制高潮18xxxx | 国产亚av手机在线观看 | 噜噜噜亚洲色成人网站 | 久久熟妇人妻午夜寂寞影院 | 娇妻被黑人粗大高潮白浆 | 综合激情五月综合激情五月激情1 | 久在线观看福利视频 | 日本护士xxxxhd少妇 | 熟妇人妻无码xxx视频 | 又黄又爽又色的视频 | 人人妻人人澡人人爽精品欧美 | 亚洲 日韩 欧美 成人 在线观看 | 国产成人综合在线女婷五月99播放 | 国产精品久久久久无码av色戒 | 欧洲极品少妇 | 日韩亚洲欧美中文高清在线 | 又黄又爽又色的视频 | 一本精品99久久精品77 | 亚拍精品一区二区三区探花 | 久久亚洲精品中文字幕无男同 | 给我免费的视频在线观看 | 55夜色66夜色国产精品视频 | 少妇人妻偷人精品无码视频 | 久久亚洲a片com人成 | 成人三级无码视频在线观看 | 中文亚洲成a人片在线观看 | 动漫av一区二区在线观看 | 久久国产精品偷任你爽任你 | 国产在线精品一区二区高清不卡 | 99久久人妻精品免费一区 | 18黄暴禁片在线观看 | 亚洲自偷自偷在线制服 | 日日碰狠狠躁久久躁蜜桃 | v一区无码内射国产 | 中国女人内谢69xxxxxa片 | 亚欧洲精品在线视频免费观看 | 久久国产精品萌白酱免费 | 日韩人妻无码中文字幕视频 | 中文字幕乱码人妻二区三区 | 成人精品天堂一区二区三区 | 欧美大屁股xxxxhd黑色 | 亚洲成a人片在线观看无码 | 亚洲精品国偷拍自产在线观看蜜桃 | 久久综合网欧美色妞网 | 国产无遮挡又黄又爽又色 | 蜜桃av蜜臀av色欲av麻 999久久久国产精品消防器材 | 中文字幕乱码人妻二区三区 | 男女作爱免费网站 | 国产熟女一区二区三区四区五区 | 久久国产36精品色熟妇 | 日韩av激情在线观看 | 中文字幕无码人妻少妇免费 | 给我免费的视频在线观看 | 中文字幕乱妇无码av在线 | 亚洲一区av无码专区在线观看 | 人妻少妇精品视频专区 | 亚洲欧美国产精品专区久久 | 国产国产精品人在线视 | 欧美日韩视频无码一区二区三 | 欧美三级a做爰在线观看 | 国产内射老熟女aaaa | 女人色极品影院 | 午夜不卡av免费 一本久久a久久精品vr综合 | 亚洲欧美色中文字幕在线 | 无码人妻出轨黑人中文字幕 | 国产亚洲精品久久久ai换 | 99久久99久久免费精品蜜桃 | 亚洲综合久久一区二区 | 日韩人妻无码一区二区三区久久99 | 国产一区二区三区影院 | 午夜时刻免费入口 | 日本免费一区二区三区最新 | 丝袜美腿亚洲一区二区 | 亚洲综合无码一区二区三区 | 日产精品99久久久久久 | 丝袜足控一区二区三区 | 性生交大片免费看l | 久久成人a毛片免费观看网站 | 国精产品一区二区三区 | 亚洲精品中文字幕 | 国产成人无码av片在线观看不卡 | 国产成人无码a区在线观看视频app | 色诱久久久久综合网ywww | 亚洲成在人网站无码天堂 | 小鲜肉自慰网站xnxx | 特黄特色大片免费播放器图片 | 波多野结衣一区二区三区av免费 | 亚洲热妇无码av在线播放 | 欧美日韩久久久精品a片 | 在教室伦流澡到高潮hnp视频 | 日日躁夜夜躁狠狠躁 | 青青久在线视频免费观看 | 国産精品久久久久久久 | 成年美女黄网站色大免费全看 | 久久综合香蕉国产蜜臀av | 人妻体内射精一区二区三四 | 国产亚洲精品久久久久久大师 | v一区无码内射国产 | 88国产精品欧美一区二区三区 | 久久99国产综合精品 | 中文字幕乱码中文乱码51精品 | 日韩亚洲欧美精品综合 | 久久久婷婷五月亚洲97号色 | 国产精华av午夜在线观看 | 久久国产精品萌白酱免费 | 午夜肉伦伦影院 | 国产麻豆精品一区二区三区v视界 | 亚洲一区二区三区播放 | 亚洲日韩乱码中文无码蜜桃臀网站 | 国产莉萝无码av在线播放 | 欧美真人作爱免费视频 | 东京热无码av男人的天堂 | 成人精品一区二区三区中文字幕 | 亚洲欧美日韩综合久久久 | 欧美老人巨大xxxx做受 | 奇米影视7777久久精品人人爽 | 国产三级精品三级男人的天堂 | 给我免费的视频在线观看 | 黄网在线观看免费网站 | 国产香蕉97碰碰久久人人 | 无码纯肉视频在线观看 | 久久99精品国产麻豆 | 牲交欧美兽交欧美 | 成年美女黄网站色大免费视频 | 国产一区二区三区日韩精品 | 精品国产成人一区二区三区 | 日日摸日日碰夜夜爽av | 两性色午夜视频免费播放 | 午夜性刺激在线视频免费 | 伊人久久大香线蕉av一区二区 | 久在线观看福利视频 | 日本乱人伦片中文三区 | 成人欧美一区二区三区黑人 | 久在线观看福利视频 | 色综合久久88色综合天天 | 久久国产精品精品国产色婷婷 | 亚洲综合另类小说色区 | 全球成人中文在线 | 欧美性猛交xxxx富婆 | 亚洲精品综合五月久久小说 | 永久免费精品精品永久-夜色 | 久久久久久亚洲精品a片成人 | 国产人妻精品一区二区三区不卡 | 国产午夜亚洲精品不卡 | 一本久久a久久精品vr综合 | 性开放的女人aaa片 | 亚洲中文字幕无码中字 | 免费无码午夜福利片69 | 国产亚洲日韩欧美另类第八页 | 青草视频在线播放 | 无码乱肉视频免费大全合集 | 亚洲中文字幕久久无码 | 丰满人妻翻云覆雨呻吟视频 | 无码人妻精品一区二区三区不卡 | аⅴ资源天堂资源库在线 | 少妇无套内谢久久久久 | 六十路熟妇乱子伦 | 最近免费中文字幕中文高清百度 | 精品国精品国产自在久国产87 | 真人与拘做受免费视频一 | 东京一本一道一二三区 | 亚洲精品国产第一综合99久久 | 欧美精品在线观看 | 欧美 丝袜 自拍 制服 另类 | 男女作爱免费网站 | 久久综合给合久久狠狠狠97色 | 麻豆精产国品 | 国产精品.xx视频.xxtv | 窝窝午夜理论片影院 | 国产精品鲁鲁鲁 | 国产亚洲精品久久久久久久久动漫 | 性做久久久久久久免费看 | 亚洲精品国产第一综合99久久 | 天天拍夜夜添久久精品 | 99精品久久毛片a片 | 国产亚洲美女精品久久久2020 | 一本精品99久久精品77 | 久久亚洲国产成人精品性色 | 久久综合网欧美色妞网 | 久久人妻内射无码一区三区 | 日本丰满熟妇videos | 美女毛片一区二区三区四区 | 精品偷拍一区二区三区在线看 | 国产九九九九九九九a片 | 全球成人中文在线 | 欧美性猛交xxxx富婆 | 国产超级va在线观看视频 | 99精品国产综合久久久久五月天 | 对白脏话肉麻粗话av | 大地资源网第二页免费观看 | 国产99久久精品一区二区 | 久久精品国产大片免费观看 | 国产乱人伦app精品久久 国产在线无码精品电影网 国产国产精品人在线视 | 99国产精品白浆在线观看免费 | 奇米影视7777久久精品人人爽 | 少妇高潮喷潮久久久影院 | 亚洲毛片av日韩av无码 | 久久人妻内射无码一区三区 | 性色欲网站人妻丰满中文久久不卡 | 久久精品中文字幕一区 | 国产色视频一区二区三区 | 欧美色就是色 | 伊人色综合久久天天小片 | 国产精品亚洲一区二区三区喷水 | 日韩av无码中文无码电影 | 国产av无码专区亚洲awww | 大屁股大乳丰满人妻 | 欧洲极品少妇 | 丝袜人妻一区二区三区 | 一个人看的www免费视频在线观看 | 自拍偷自拍亚洲精品被多人伦好爽 | 国产超级va在线观看视频 | 丝袜 中出 制服 人妻 美腿 | 最新国产乱人伦偷精品免费网站 | 人人爽人人澡人人人妻 | 色偷偷人人澡人人爽人人模 | 国产黄在线观看免费观看不卡 | 欧美人与禽猛交狂配 | 性色欲情网站iwww九文堂 | 国产成人精品一区二区在线小狼 | 免费男性肉肉影院 | 无人区乱码一区二区三区 | 无码福利日韩神码福利片 | 无码国产色欲xxxxx视频 | 亚洲精品午夜国产va久久成人 | 日本肉体xxxx裸交 | 久久久久久国产精品无码下载 | 伦伦影院午夜理论片 | 国产成人无码a区在线观看视频app | 伊人久久婷婷五月综合97色 | 亚洲综合另类小说色区 | 国产精品人人妻人人爽 | 好屌草这里只有精品 | 国内老熟妇对白xxxxhd | 俺去俺来也在线www色官网 | 日本精品久久久久中文字幕 | 欧美35页视频在线观看 | 欧美老妇交乱视频在线观看 | 全球成人中文在线 | 国产精品对白交换视频 | 久久精品99久久香蕉国产色戒 | 国产成人无码av在线影院 | 国产又爽又猛又粗的视频a片 | 人妻少妇精品视频专区 | 99久久精品国产一区二区蜜芽 | 亚洲无人区一区二区三区 | 久久这里只有精品视频9 | 成人性做爰aaa片免费看不忠 | 亚洲 欧美 激情 小说 另类 | 精品aⅴ一区二区三区 | 精品久久8x国产免费观看 | 色婷婷久久一区二区三区麻豆 | аⅴ资源天堂资源库在线 | 强开小婷嫩苞又嫩又紧视频 | 成 人 网 站国产免费观看 | 综合网日日天干夜夜久久 | a在线观看免费网站大全 | 国产另类ts人妖一区二区 | 国产做国产爱免费视频 | 久久伊人色av天堂九九小黄鸭 | 日本一卡2卡3卡四卡精品网站 | 粉嫩少妇内射浓精videos | 荫蒂被男人添的好舒服爽免费视频 | 一个人免费观看的www视频 | 国产超碰人人爽人人做人人添 | 性做久久久久久久免费看 | 久久久www成人免费毛片 | 日日碰狠狠丁香久燥 | 国产精品久久久久无码av色戒 | 亚洲小说图区综合在线 | 亚无码乱人伦一区二区 | 亚洲色偷偷男人的天堂 | 国产精品亚洲一区二区三区喷水 | 亚洲爆乳无码专区 | 自拍偷自拍亚洲精品被多人伦好爽 | 黑人玩弄人妻中文在线 | 精品国产一区二区三区四区在线看 | 天天摸天天碰天天添 | 日日天干夜夜狠狠爱 | 国产精品美女久久久久av爽李琼 | 亚洲国产高清在线观看视频 | 欧美老熟妇乱xxxxx | 日本大乳高潮视频在线观看 | 无套内射视频囯产 | 欧洲vodafone精品性 | 小鲜肉自慰网站xnxx | aⅴ在线视频男人的天堂 | 亚洲欧美国产精品久久 | 男女爱爱好爽视频免费看 | 国产人妖乱国产精品人妖 | 日韩无码专区 | 欧美高清在线精品一区 | 蜜桃av抽搐高潮一区二区 | 免费无码的av片在线观看 | 久热国产vs视频在线观看 | 少女韩国电视剧在线观看完整 | 人妻体内射精一区二区三四 | 日本熟妇大屁股人妻 | 久久精品人人做人人综合试看 | 欧美 日韩 亚洲 在线 | 六月丁香婷婷色狠狠久久 | 亚洲啪av永久无码精品放毛片 | 中文无码精品a∨在线观看不卡 | 樱花草在线播放免费中文 | ass日本丰满熟妇pics | 欧美三级a做爰在线观看 | 国产精品久久久久久无码 | 黑人巨大精品欧美黑寡妇 | 一本久久a久久精品亚洲 | 噜噜噜亚洲色成人网站 | 丰满少妇人妻久久久久久 | 中文毛片无遮挡高清免费 | 亚洲日本在线电影 | 国产网红无码精品视频 | 欧美zoozzooz性欧美 | 大色综合色综合网站 | 思思久久99热只有频精品66 | 性色av无码免费一区二区三区 | 久久久久亚洲精品男人的天堂 | 亚洲一区二区三区含羞草 | 天天拍夜夜添久久精品 | 日韩欧美群交p片內射中文 | 在线观看免费人成视频 | 一本色道久久综合亚洲精品不卡 | 牛和人交xxxx欧美 | 在线观看国产午夜福利片 | 中国女人内谢69xxxx | 狠狠色欧美亚洲狠狠色www | 中文字幕乱码人妻无码久久 | 国产办公室秘书无码精品99 | 中文字幕无码视频专区 | 十八禁视频网站在线观看 | 久久国产精品_国产精品 | 欧美精品在线观看 | 国产偷国产偷精品高清尤物 | 少妇太爽了在线观看 | 国产成人综合在线女婷五月99播放 | 亚洲国产精品一区二区美利坚 | 久久国产精品偷任你爽任你 | 欧洲精品码一区二区三区免费看 | 亚洲乱亚洲乱妇50p | 欧美精品国产综合久久 | 2020久久超碰国产精品最新 | 国产熟妇高潮叫床视频播放 | 国产婷婷色一区二区三区在线 | 欧洲vodafone精品性 | 暴力强奷在线播放无码 | 人人澡人摸人人添 | 亚洲日韩乱码中文无码蜜桃臀网站 | 天堂久久天堂av色综合 | 日本熟妇人妻xxxxx人hd | 狠狠色噜噜狠狠狠7777奇米 | 亚洲国产精品无码久久久久高潮 | 成人无码视频免费播放 | 国产又爽又猛又粗的视频a片 | 97人妻精品一区二区三区 | 久久亚洲中文字幕无码 | 好爽又高潮了毛片免费下载 | 日本大香伊一区二区三区 | 中文无码精品a∨在线观看不卡 | 国内综合精品午夜久久资源 | 成在人线av无码免观看麻豆 | 亚洲乱码国产乱码精品精 | 5858s亚洲色大成网站www | а√天堂www在线天堂小说 | 伊人久久大香线蕉午夜 | 久久伊人色av天堂九九小黄鸭 | 国产成人精品久久亚洲高清不卡 | 日韩 欧美 动漫 国产 制服 | 欧美人妻一区二区三区 | 亚洲日韩一区二区 | 欧美xxxxx精品 | 伊人久久大香线蕉av一区二区 | 国产无套内射久久久国产 | 波多野结衣乳巨码无在线观看 | 亚洲一区二区三区在线观看网站 | 一本久道久久综合狠狠爱 | 亚洲а∨天堂久久精品2021 | 日本www一道久久久免费榴莲 | 亚洲国产日韩a在线播放 | 狠狠噜狠狠狠狠丁香五月 | 一本久久伊人热热精品中文字幕 | 久久 国产 尿 小便 嘘嘘 | 国产午夜精品一区二区三区嫩草 | 日日麻批免费40分钟无码 | 亚洲成a人片在线观看无码3d | 国产精品久久久久无码av色戒 | 狠狠噜狠狠狠狠丁香五月 | 久久精品中文字幕一区 | 亚洲国精产品一二二线 | 7777奇米四色成人眼影 | 国产免费观看黄av片 | 国产猛烈高潮尖叫视频免费 | 无码人妻久久一区二区三区不卡 | 一本久道久久综合婷婷五月 | 初尝人妻少妇中文字幕 | 天天摸天天透天天添 | 国产亚洲美女精品久久久2020 | 亚洲成a人一区二区三区 | 久久久www成人免费毛片 | 国产av无码专区亚洲awww | 亚洲精品久久久久久一区二区 | 久热国产vs视频在线观看 | 亚洲码国产精品高潮在线 | a片免费视频在线观看 | 国产亚洲欧美日韩亚洲中文色 | 久久久久久av无码免费看大片 | 丰满岳乱妇在线观看中字无码 | 天天做天天爱天天爽综合网 | 国产情侣作爱视频免费观看 | 精品无码成人片一区二区98 | 国产成人无码区免费内射一片色欲 | 久久精品中文字幕一区 | 精品国产一区二区三区av 性色 | 日韩欧美成人免费观看 | 鲁鲁鲁爽爽爽在线视频观看 | 国产人妻大战黑人第1集 | 无码午夜成人1000部免费视频 | ass日本丰满熟妇pics | 国产精品亚洲综合色区韩国 | 成人三级无码视频在线观看 | 中文字幕无码免费久久99 | 性色欲网站人妻丰满中文久久不卡 | 色偷偷人人澡人人爽人人模 | 国产av一区二区三区最新精品 | 97久久国产亚洲精品超碰热 | 精品厕所偷拍各类美女tp嘘嘘 | 思思久久99热只有频精品66 | 成熟女人特级毛片www免费 | 97色伦图片97综合影院 | 欧美第一黄网免费网站 | 2019nv天堂香蕉在线观看 | 人人爽人人爽人人片av亚洲 | 暴力强奷在线播放无码 | 丰腴饱满的极品熟妇 | aⅴ亚洲 日韩 色 图网站 播放 | 亚洲日韩av一区二区三区四区 | 成人亚洲精品久久久久 | 激情五月综合色婷婷一区二区 | 狠狠色丁香久久婷婷综合五月 | 成人影院yy111111在线观看 | 国产精品久久久久久无码 | 成熟人妻av无码专区 | 无码人妻丰满熟妇区毛片18 | 内射欧美老妇wbb | 亚洲精品中文字幕乱码 | 亚洲精品久久久久avwww潮水 | 欧美激情综合亚洲一二区 | 性欧美videos高清精品 | 国产麻豆精品一区二区三区v视界 | 久久亚洲精品中文字幕无男同 | 亚洲中文字幕va福利 | 大色综合色综合网站 | 亚洲日韩av片在线观看 | 国内精品久久久久久中文字幕 | 国产在线一区二区三区四区五区 | 男女爱爱好爽视频免费看 | 亚洲 日韩 欧美 成人 在线观看 | 久久 国产 尿 小便 嘘嘘 | 亚洲无人区午夜福利码高清完整版 | 色综合久久久无码网中文 | 日日碰狠狠丁香久燥 | 男女超爽视频免费播放 | www国产亚洲精品久久久日本 | 国产真实伦对白全集 | 蜜桃臀无码内射一区二区三区 | 老太婆性杂交欧美肥老太 | 久久精品人妻少妇一区二区三区 | 激情人妻另类人妻伦 | 国产精品免费大片 | 亚洲人成无码网www | 亚洲娇小与黑人巨大交 | 国产精品国产三级国产专播 | 无码国产色欲xxxxx视频 | 日本va欧美va欧美va精品 | 精品人妻av区 | 成人一在线视频日韩国产 | 日韩精品成人一区二区三区 | 精品少妇爆乳无码av无码专区 | 人妻天天爽夜夜爽一区二区 | 妺妺窝人体色www婷婷 | 国产农村妇女高潮大叫 | 18精品久久久无码午夜福利 | 激情亚洲一区国产精品 | 久久久久久亚洲精品a片成人 | 中文无码伦av中文字幕 | 精品无人区无码乱码毛片国产 | 网友自拍区视频精品 | 亚洲中文字幕久久无码 | 色欲久久久天天天综合网精品 | 少妇无码一区二区二三区 | 在线播放免费人成毛片乱码 | 亚洲成av人在线观看网址 | 午夜不卡av免费 一本久久a久久精品vr综合 | 蜜桃视频韩日免费播放 | 久久精品成人欧美大片 | 中文字幕人成乱码熟女app | 久久亚洲日韩精品一区二区三区 | 日韩av无码一区二区三区不卡 | 7777奇米四色成人眼影 | 国产精品成人av在线观看 | 四虎影视成人永久免费观看视频 | 狠狠噜狠狠狠狠丁香五月 | 日韩成人一区二区三区在线观看 | 天天拍夜夜添久久精品大 | 中文无码成人免费视频在线观看 | 野外少妇愉情中文字幕 | 人妻插b视频一区二区三区 | 欧美日韩亚洲国产精品 | 精品 日韩 国产 欧美 视频 | 乱人伦人妻中文字幕无码久久网 | 波多野结衣av一区二区全免费观看 | 中文字幕人妻无码一夲道 | 亚洲午夜无码久久 | 男人和女人高潮免费网站 | 国产亚洲欧美在线专区 | 国产亚洲人成在线播放 | 综合激情五月综合激情五月激情1 | 国产高清不卡无码视频 | 亚洲国产精品久久人人爱 | 高清国产亚洲精品自在久久 | 欧美成人免费全部网站 | 少妇无码一区二区二三区 | 人人妻人人澡人人爽精品欧美 | 国产电影无码午夜在线播放 | 国内精品人妻无码久久久影院蜜桃 | 国产又粗又硬又大爽黄老大爷视 | 亚洲va中文字幕无码久久不卡 | 欧美一区二区三区 | 亚洲午夜久久久影院 | 无码人妻黑人中文字幕 | a国产一区二区免费入口 | 精品人人妻人人澡人人爽人人 | 国产凸凹视频一区二区 | 亚洲の无码国产の无码影院 | 色欲综合久久中文字幕网 | 2020久久超碰国产精品最新 | 亚洲成av人综合在线观看 | 欧美人与物videos另类 | 亚洲精品国产精品乱码不卡 | 成年美女黄网站色大免费全看 | 狂野欧美激情性xxxx | 亚洲中文字幕无码一久久区 | 夫妻免费无码v看片 | 蜜桃视频韩日免费播放 | 亚洲人成网站在线播放942 | 香蕉久久久久久av成人 | 清纯唯美经典一区二区 | 综合网日日天干夜夜久久 | 国产人妖乱国产精品人妖 | 精品久久久中文字幕人妻 | 中文字幕无线码 | 午夜无码人妻av大片色欲 | 免费乱码人妻系列无码专区 | 99久久婷婷国产综合精品青草免费 | 国产亚洲人成a在线v网站 | 精品人人妻人人澡人人爽人人 | 亚洲综合无码一区二区三区 | 少妇太爽了在线观看 | 久久精品国产大片免费观看 | 国产精品美女久久久久av爽李琼 | 成年美女黄网站色大免费全看 | 久久综合给合久久狠狠狠97色 | 九九热爱视频精品 | 一本色道婷婷久久欧美 | 国产av无码专区亚洲awww | 国产亚洲精品久久久ai换 | 国产三级精品三级男人的天堂 | 精品欧美一区二区三区久久久 | 国产香蕉尹人综合在线观看 | 成熟妇人a片免费看网站 | 乱码午夜-极国产极内射 | 日日躁夜夜躁狠狠躁 | 亚洲综合在线一区二区三区 | 亚洲综合精品香蕉久久网 | 3d动漫精品啪啪一区二区中 | 久久无码中文字幕免费影院蜜桃 | 日产国产精品亚洲系列 | 成熟人妻av无码专区 | 久久午夜无码鲁丝片 | 亚洲中文字幕无码中字 | 在线视频网站www色 | 免费无码av一区二区 | 日韩人妻无码一区二区三区久久99 | 99久久99久久免费精品蜜桃 | 久久综合给合久久狠狠狠97色 | 精品国产国产综合精品 | 又粗又大又硬又长又爽 | 国产精品第一区揄拍无码 | 四虎国产精品免费久久 | 中文字幕日产无线码一区 | 国产一区二区三区日韩精品 | 老熟女重囗味hdxx69 | 大地资源网第二页免费观看 | 人妻有码中文字幕在线 | 国产人妻精品一区二区三区 | 熟妇激情内射com | 精品国产青草久久久久福利 | 国产精品高潮呻吟av久久4虎 | 在线欧美精品一区二区三区 | 久久无码专区国产精品s | 国产婷婷色一区二区三区在线 | 无码人妻精品一区二区三区不卡 | 亚洲日韩一区二区三区 | 亚洲综合久久一区二区 | 亚洲国产精品美女久久久久 | 无码午夜成人1000部免费视频 | 99视频精品全部免费免费观看 | 欧洲熟妇精品视频 | 少妇厨房愉情理9仑片视频 | 无套内谢的新婚少妇国语播放 | 国产精品沙发午睡系列 | 亚洲国产欧美日韩精品一区二区三区 | 黑人巨大精品欧美黑寡妇 | 无码人妻出轨黑人中文字幕 | 性欧美大战久久久久久久 | 中文字幕av伊人av无码av | 黑人巨大精品欧美一区二区 | 久久熟妇人妻午夜寂寞影院 | 无码人妻丰满熟妇区五十路百度 | 日本高清一区免费中文视频 | 国产精品无码一区二区桃花视频 | 天天躁日日躁狠狠躁免费麻豆 | 性啪啪chinese东北女人 | 熟女俱乐部五十路六十路av | yw尤物av无码国产在线观看 | 亚洲色欲色欲欲www在线 | 天堂一区人妻无码 | 色老头在线一区二区三区 | 亚洲熟妇色xxxxx欧美老妇y | 蜜桃臀无码内射一区二区三区 | 久久久精品欧美一区二区免费 | 天堂亚洲免费视频 | 国产内射老熟女aaaa | 国产又粗又硬又大爽黄老大爷视 | 牛和人交xxxx欧美 | 少妇人妻av毛片在线看 | 亚洲の无码国产の无码步美 | 又大又硬又黄的免费视频 | 牲欲强的熟妇农村老妇女 | 97夜夜澡人人双人人人喊 | 久9re热视频这里只有精品 | 亚洲午夜福利在线观看 | 国产精品人妻一区二区三区四 | 蜜桃av蜜臀av色欲av麻 999久久久国产精品消防器材 | 妺妺窝人体色www婷婷 | 国产精品毛片一区二区 | 亚洲中文字幕在线无码一区二区 | 久久久久久久女国产乱让韩 | 亚洲精品国偷拍自产在线麻豆 | 久久这里只有精品视频9 | 麻豆果冻传媒2021精品传媒一区下载 | 国产在热线精品视频 | 欧美野外疯狂做受xxxx高潮 | 精品乱码久久久久久久 | 亚洲精品www久久久 | 无码人妻出轨黑人中文字幕 | 久久国产精品二国产精品 | 日韩精品无码一区二区中文字幕 | 香港三级日本三级妇三级 | 亚洲人成无码网www | 在线观看国产午夜福利片 | 久久久久99精品成人片 | 影音先锋中文字幕无码 | 国产人妻精品午夜福利免费 | 成人亚洲精品久久久久软件 | 欧美性黑人极品hd | 人人妻人人澡人人爽精品欧美 | 日本xxxx色视频在线观看免费 | 成人精品视频一区二区 | 欧美人与禽zoz0性伦交 | 国产在热线精品视频 | 国产人妻精品一区二区三区不卡 | 日产精品高潮呻吟av久久 | 欧美熟妇另类久久久久久多毛 | 久久久国产精品无码免费专区 | 无码精品人妻一区二区三区av | 少妇邻居内射在线 | 77777熟女视频在线观看 а天堂中文在线官网 | 97久久国产亚洲精品超碰热 | 国产精品久久国产三级国 | 国产精品久免费的黄网站 | 98国产精品综合一区二区三区 | 国产无套内射久久久国产 | 特黄特色大片免费播放器图片 | 中文字幕无码av波多野吉衣 | 久久综合狠狠综合久久综合88 | 熟妇人妻激情偷爽文 | 日本丰满熟妇videos | 熟女少妇人妻中文字幕 | 老司机亚洲精品影院无码 | 三级4级全黄60分钟 | 国产成人综合美国十次 | 成人亚洲精品久久久久软件 | 色综合久久网 | 天天摸天天碰天天添 | 性色欲情网站iwww九文堂 | 欧美老妇与禽交 | 丝袜美腿亚洲一区二区 | 纯爱无遮挡h肉动漫在线播放 | 亚洲成a人片在线观看无码 | 欧美黑人性暴力猛交喷水 | 撕开奶罩揉吮奶头视频 | 亚洲综合精品香蕉久久网 | 初尝人妻少妇中文字幕 | 成人无码视频在线观看网站 | 国产精品国产自线拍免费软件 | 黑人玩弄人妻中文在线 | 天下第一社区视频www日本 | 2020最新国产自产精品 | 国产电影无码午夜在线播放 | 999久久久国产精品消防器材 | 国产农村妇女高潮大叫 | 色婷婷香蕉在线一区二区 | 九月婷婷人人澡人人添人人爽 | 亚洲欧洲日本无在线码 | 欧美亚洲国产一区二区三区 | 熟女俱乐部五十路六十路av | 亚洲精品一区二区三区在线观看 | yw尤物av无码国产在线观看 | 久久国产精品精品国产色婷婷 | 国产精品久久国产精品99 | 性色欲情网站iwww九文堂 | ass日本丰满熟妇pics | 欧美性猛交内射兽交老熟妇 | 色综合久久久无码网中文 | 日产精品99久久久久久 | 日本精品人妻无码免费大全 | 国产精品久久久久久无码 | 丰满少妇熟乱xxxxx视频 | 人妻无码久久精品人妻 | 成人女人看片免费视频放人 | 99久久精品午夜一区二区 | 国产凸凹视频一区二区 | 色 综合 欧美 亚洲 国产 | 一个人免费观看的www视频 | 欧美喷潮久久久xxxxx | 成熟女人特级毛片www免费 | 中文字幕乱妇无码av在线 | 免费无码的av片在线观看 | 午夜男女很黄的视频 | 国产亚洲视频中文字幕97精品 | 精品国偷自产在线视频 | 成人欧美一区二区三区 | 国产人妖乱国产精品人妖 | 亚洲精品中文字幕 | 久久久婷婷五月亚洲97号色 | 扒开双腿吃奶呻吟做受视频 | 玩弄少妇高潮ⅹxxxyw | www国产精品内射老师 | 在线а√天堂中文官网 | 国产无av码在线观看 | 日韩人妻少妇一区二区三区 | 天天躁日日躁狠狠躁免费麻豆 | 在线欧美精品一区二区三区 | 亚洲中文字幕成人无码 | 国产明星裸体无码xxxx视频 | 国产精品久久久av久久久 | 精品人人妻人人澡人人爽人人 | 奇米影视888欧美在线观看 | 欧美老熟妇乱xxxxx | 亚洲精品一区二区三区大桥未久 | 99久久人妻精品免费一区 | 亚洲熟悉妇女xxx妇女av | 奇米影视7777久久精品人人爽 | 亚洲热妇无码av在线播放 | 成人无码影片精品久久久 | 人人爽人人澡人人高潮 | 在线a亚洲视频播放在线观看 | 久久亚洲中文字幕无码 | 天堂久久天堂av色综合 | 国产精品亚洲а∨无码播放麻豆 | 亚洲人成影院在线观看 | 久久久久av无码免费网 | 水蜜桃av无码 | 黑人巨大精品欧美一区二区 | 亚洲日韩av一区二区三区中文 | 99精品久久毛片a片 | 国产精品国产自线拍免费软件 | 久久无码专区国产精品s | 国产偷自视频区视频 | 色婷婷av一区二区三区之红樱桃 | 国产人妖乱国产精品人妖 | 成 人 网 站国产免费观看 | 天干天干啦夜天干天2017 | 一本大道久久东京热无码av | 99久久婷婷国产综合精品青草免费 | 欧美老人巨大xxxx做受 | 一本无码人妻在中文字幕免费 | 偷窥日本少妇撒尿chinese | 亚洲人成无码网www | 国产成人精品视频ⅴa片软件竹菊 | 小sao货水好多真紧h无码视频 | 亚洲国产欧美国产综合一区 | 免费无码的av片在线观看 | 免费无码的av片在线观看 | 奇米影视888欧美在线观看 | 少妇被黑人到高潮喷出白浆 | 中文字幕无码免费久久99 | 国产又爽又猛又粗的视频a片 | 欧美丰满老熟妇xxxxx性 | 377p欧洲日本亚洲大胆 | 97精品人妻一区二区三区香蕉 | 中文字幕色婷婷在线视频 | 久久亚洲国产成人精品性色 | 久久精品成人欧美大片 | 久久综合激激的五月天 | 3d动漫精品啪啪一区二区中 | 粗大的内捧猛烈进出视频 | 亚洲 欧美 激情 小说 另类 | 99久久精品午夜一区二区 | 红桃av一区二区三区在线无码av | 清纯唯美经典一区二区 | 日本成熟视频免费视频 | 免费看男女做好爽好硬视频 | 大肉大捧一进一出好爽视频 | 亚洲中文字幕乱码av波多ji | 男人和女人高潮免费网站 | 99精品久久毛片a片 | 国产精品久久久久久亚洲影视内衣 | 亚洲精品国产品国语在线观看 | 亚洲国产精华液网站w | 国产亚洲人成a在线v网站 | 欧美自拍另类欧美综合图片区 | 国产av无码专区亚洲a∨毛片 | 伊人久久大香线焦av综合影院 | 天天燥日日燥 | 色综合久久88色综合天天 | 日本在线高清不卡免费播放 | 精品一区二区三区波多野结衣 | 无码av最新清无码专区吞精 | 国内精品人妻无码久久久影院蜜桃 | 国内精品人妻无码久久久影院蜜桃 | 久久精品国产亚洲精品 | 亚洲七七久久桃花影院 | 大乳丰满人妻中文字幕日本 | 日本护士毛茸茸高潮 | 国产精品无码成人午夜电影 | 欧洲熟妇色 欧美 | 偷窥村妇洗澡毛毛多 | 东京无码熟妇人妻av在线网址 | 又大又硬又爽免费视频 | 国产精品久久久一区二区三区 | 水蜜桃亚洲一二三四在线 | 亚洲精品国产品国语在线观看 | 人人妻人人藻人人爽欧美一区 | 午夜福利一区二区三区在线观看 | 中文字幕无码人妻少妇免费 | 亚洲狠狠色丁香婷婷综合 | 久久久精品国产sm最大网站 | 国产成人综合美国十次 | 欧洲美熟女乱又伦 | 精品无码成人片一区二区98 | 99麻豆久久久国产精品免费 | 久久综合激激的五月天 | 中文字幕乱码人妻无码久久 | 亚洲成在人网站无码天堂 | 俺去俺来也www色官网 | 国产精品第一区揄拍无码 | 中文字幕人成乱码熟女app | 国产福利视频一区二区 | 99久久久无码国产aaa精品 | 熟妇人妻无码xxx视频 | 日韩精品a片一区二区三区妖精 | 亚洲精品欧美二区三区中文字幕 | 亚洲日韩av一区二区三区四区 | 人人澡人人妻人人爽人人蜜桃 | 大肉大捧一进一出视频出来呀 | 精品国产福利一区二区 | 亚洲国产欧美日韩精品一区二区三区 | 国产午夜福利亚洲第一 | 国产精品美女久久久久av爽李琼 | 精品国产国产综合精品 | 色婷婷香蕉在线一区二区 | 精品国产一区二区三区四区在线看 | 色噜噜亚洲男人的天堂 | 国产成人精品无码播放 | 国内精品九九久久久精品 | 亚洲人亚洲人成电影网站色 | 国产精品人人妻人人爽 | 少妇无码一区二区二三区 | 亚洲欧美国产精品久久 | 97se亚洲精品一区 | 红桃av一区二区三区在线无码av | 欧美激情综合亚洲一二区 | 日日碰狠狠躁久久躁蜜桃 | 色综合久久88色综合天天 | 国产口爆吞精在线视频 | 精品国偷自产在线视频 | 国产精品亚洲一区二区三区喷水 | 欧美性黑人极品hd | 精品一区二区不卡无码av | 一区二区传媒有限公司 | 欧美自拍另类欧美综合图片区 | www国产精品内射老师 | 国产情侣作爱视频免费观看 | 丁香啪啪综合成人亚洲 | 久久国产精品萌白酱免费 | 高潮毛片无遮挡高清免费视频 | 97夜夜澡人人双人人人喊 | 一本加勒比波多野结衣 | 成人女人看片免费视频放人 | 欧美zoozzooz性欧美 | 欧美 日韩 人妻 高清 中文 | 少妇性l交大片欧洲热妇乱xxx | 亚洲午夜久久久影院 | 无码免费一区二区三区 | 午夜免费福利小电影 | 亚洲色欲色欲天天天www | 欧美35页视频在线观看 | 无码人妻av免费一区二区三区 | 熟妇激情内射com | 亚洲精品综合一区二区三区在线 | 日韩成人一区二区三区在线观看 | 欧美精品一区二区精品久久 | 激情五月综合色婷婷一区二区 | 国产成人综合美国十次 | 日本饥渴人妻欲求不满 | 88国产精品欧美一区二区三区 | 国产精品人人爽人人做我的可爱 | 久久久久久av无码免费看大片 | 波多野结衣aⅴ在线 | 久久综合九色综合97网 | 国产高清av在线播放 | 亚洲区小说区激情区图片区 | 免费无码午夜福利片69 | 99久久久无码国产精品免费 | 国产热a欧美热a在线视频 | 日本肉体xxxx裸交 | 熟妇人妻中文av无码 | 欧美日韩一区二区免费视频 | 国产小呦泬泬99精品 | 久久五月精品中文字幕 | 成人无码精品1区2区3区免费看 | 亚洲狠狠色丁香婷婷综合 | 国产亚洲日韩欧美另类第八页 | 国产午夜亚洲精品不卡 | 无码午夜成人1000部免费视频 | 四虎国产精品一区二区 | 又大又黄又粗又爽的免费视频 | 秋霞特色aa大片 | 少妇无套内谢久久久久 | 少妇太爽了在线观看 | 亚洲色大成网站www国产 | √8天堂资源地址中文在线 | 波多野结衣av在线观看 | 亚洲色无码一区二区三区 | 久久99精品国产.久久久久 | 免费中文字幕日韩欧美 | 久久久久免费精品国产 | 亚洲精品一区三区三区在线观看 | 麻花豆传媒剧国产免费mv在线 | 色老头在线一区二区三区 | 亚洲 激情 小说 另类 欧美 | 青青草原综合久久大伊人精品 | 美女黄网站人色视频免费国产 | 中文字幕无码av激情不卡 | 精品成在人线av无码免费看 | 国产精品美女久久久网av | 国产成人精品视频ⅴa片软件竹菊 | 亚洲性无码av中文字幕 | 亚洲精品国产精品乱码不卡 | 国产色视频一区二区三区 | 曰韩无码二三区中文字幕 | 男人扒开女人内裤强吻桶进去 | 天堂在线观看www | 老头边吃奶边弄进去呻吟 | 丰满妇女强制高潮18xxxx | 性生交片免费无码看人 | 欧美亚洲国产一区二区三区 | 国产精品18久久久久久麻辣 | 永久免费精品精品永久-夜色 | 人人妻人人澡人人爽欧美一区 | 亚洲七七久久桃花影院 | 亚洲爆乳无码专区 | 亚洲人成影院在线无码按摩店 | 久久久av男人的天堂 | 色偷偷人人澡人人爽人人模 | 青草青草久热国产精品 | 啦啦啦www在线观看免费视频 | av无码不卡在线观看免费 | 国产免费无码一区二区视频 | 99久久无码一区人妻 | 欧美国产亚洲日韩在线二区 | 国产在线精品一区二区三区直播 | 久久久久99精品国产片 | 国产手机在线αⅴ片无码观看 | 玩弄少妇高潮ⅹxxxyw | 国内精品久久毛片一区二区 | 亚洲一区av无码专区在线观看 | 激情内射亚州一区二区三区爱妻 | 国产精品igao视频网 | 成在人线av无码免观看麻豆 | 丰满少妇女裸体bbw | 女人色极品影院 | 欧洲精品码一区二区三区免费看 | 东北女人啪啪对白 | 久久亚洲中文字幕无码 | 精品国产一区二区三区av 性色 | 在线播放无码字幕亚洲 | 少妇被粗大的猛进出69影院 | 亚洲国产综合无码一区 | 亚洲人成无码网www | 青草青草久热国产精品 | 日本一区二区更新不卡 | 精品亚洲韩国一区二区三区 | 无码帝国www无码专区色综合 | 九月婷婷人人澡人人添人人爽 | 天天拍夜夜添久久精品大 | 亚洲色成人中文字幕网站 | 极品嫩模高潮叫床 | 国产情侣作爱视频免费观看 | 亚洲色成人中文字幕网站 | 人妻无码αv中文字幕久久琪琪布 | 99久久婷婷国产综合精品青草免费 | 色综合久久久无码中文字幕 | 亚洲精品久久久久avwww潮水 | 无码人妻久久一区二区三区不卡 | 全黄性性激高免费视频 | 亚洲欧洲日本综合aⅴ在线 | 亚洲乱码国产乱码精品精 | 久久99久久99精品中文字幕 | 无码人妻少妇伦在线电影 | 午夜男女很黄的视频 | 国产色在线 | 国产 | 人妻少妇精品视频专区 | 丁香花在线影院观看在线播放 | 亚洲国产精华液网站w | 狠狠cao日日穞夜夜穞av | 日韩欧美成人免费观看 | 久久精品女人的天堂av | 亚洲中文字幕成人无码 | 国产精品99爱免费视频 | 亚洲伊人久久精品影院 | 国产精品.xx视频.xxtv | 亚洲日本一区二区三区在线 | 超碰97人人做人人爱少妇 | 激情五月综合色婷婷一区二区 | 成人动漫在线观看 | 久久久久亚洲精品中文字幕 | 久久99精品国产麻豆蜜芽 | 国产精品.xx视频.xxtv | 东北女人啪啪对白 | 天堂无码人妻精品一区二区三区 | 久久97精品久久久久久久不卡 | 日本丰满护士爆乳xxxx | 久久综合九色综合欧美狠狠 | 亚洲人亚洲人成电影网站色 | 精品亚洲成av人在线观看 | 亚洲の无码国产の无码步美 | 日韩精品无码免费一区二区三区 | 国产精品内射视频免费 | 无码午夜成人1000部免费视频 | 久久婷婷五月综合色国产香蕉 | 99国产欧美久久久精品 | 国产一区二区不卡老阿姨 | 免费无码一区二区三区蜜桃大 | 老子影院午夜精品无码 | 麻花豆传媒剧国产免费mv在线 | 性做久久久久久久久 | 久久久久亚洲精品中文字幕 | av无码久久久久不卡免费网站 | 国产农村妇女aaaaa视频 撕开奶罩揉吮奶头视频 | 亚洲精品一区三区三区在线观看 | 亚欧洲精品在线视频免费观看 | 2020久久香蕉国产线看观看 | 久久久www成人免费毛片 | 中文字幕无码视频专区 | 一区二区传媒有限公司 | a国产一区二区免费入口 | 免费人成网站视频在线观看 | 亚洲最大成人网站 | 免费人成在线视频无码 | 国产av无码专区亚洲a∨毛片 | 少妇一晚三次一区二区三区 | 久久综合激激的五月天 | 成人免费视频视频在线观看 免费 | 中文字幕人成乱码熟女app | 国产综合色产在线精品 | 欧美 丝袜 自拍 制服 另类 | 久久久中文字幕日本无吗 | 激情爆乳一区二区三区 | 国产av无码专区亚洲awww | 亚洲精品国偷拍自产在线观看蜜桃 | 乱码午夜-极国产极内射 | 成人免费无码大片a毛片 | 亚洲热妇无码av在线播放 | 日本一卡二卡不卡视频查询 | 亚洲va欧美va天堂v国产综合 | 国产成人一区二区三区别 | 亚洲人成网站免费播放 | 成人综合网亚洲伊人 | 少妇性l交大片欧洲热妇乱xxx | 亚洲小说春色综合另类 | 国产两女互慰高潮视频在线观看 | 免费无码肉片在线观看 | 老熟妇乱子伦牲交视频 | 欧美精品无码一区二区三区 | 蜜桃无码一区二区三区 | 精品水蜜桃久久久久久久 | 国产97在线 | 亚洲 | 日本熟妇乱子伦xxxx | 99久久人妻精品免费一区 | 亚洲精品鲁一鲁一区二区三区 | 日韩精品无码一本二本三本色 | 丰满人妻一区二区三区免费视频 | 亚洲熟熟妇xxxx | 天下第一社区视频www日本 | 性欧美videos高清精品 | 国产综合色产在线精品 | 熟妇人妻无乱码中文字幕 | 国产乱人偷精品人妻a片 | 色婷婷久久一区二区三区麻豆 | 免费中文字幕日韩欧美 | 未满成年国产在线观看 | 我要看www免费看插插视频 | 亚洲国产成人av在线观看 | 无码国模国产在线观看 | 一本无码人妻在中文字幕免费 | 免费播放一区二区三区 | 国产精品a成v人在线播放 | 亚洲区小说区激情区图片区 | 激情内射日本一区二区三区 | 色综合久久久久综合一本到桃花网 | 精品无人国产偷自产在线 | 无码一区二区三区在线观看 | 青草视频在线播放 | 久久久久成人片免费观看蜜芽 | 熟妇人妻无码xxx视频 | 西西人体www44rt大胆高清 | 久久久久久av无码免费看大片 | 日日夜夜撸啊撸 | aa片在线观看视频在线播放 | 久久精品国产99久久6动漫 | 狠狠躁日日躁夜夜躁2020 | 免费观看激色视频网站 | 在线视频网站www色 | 久久综合久久自在自线精品自 | 国产乱人伦偷精品视频 | 亚洲中文字幕乱码av波多ji | 丝袜足控一区二区三区 | 亚洲精品鲁一鲁一区二区三区 | 亚洲熟妇色xxxxx亚洲 | 欧美老熟妇乱xxxxx | 国产午夜福利100集发布 | 亚洲精品国产精品乱码视色 | 97久久超碰中文字幕 | 久久精品国产99久久6动漫 | 又粗又大又硬又长又爽 | 国内精品一区二区三区不卡 | 国产一区二区三区影院 | 国产免费久久久久久无码 | 久久综合激激的五月天 | 98国产精品综合一区二区三区 | 亚洲男人av香蕉爽爽爽爽 | 亚洲色在线无码国产精品不卡 | 成人无码精品一区二区三区 | 国产suv精品一区二区五 | 欧美三级a做爰在线观看 | 丰满人妻精品国产99aⅴ | 鲁一鲁av2019在线 | 色欲综合久久中文字幕网 | 国产亚洲tv在线观看 | 国产suv精品一区二区五 | 久久久久久国产精品无码下载 | 亚洲一区二区三区偷拍女厕 | 国产明星裸体无码xxxx视频 | 亚洲天堂2017无码 | 奇米综合四色77777久久 东京无码熟妇人妻av在线网址 | 人人爽人人澡人人人妻 | 欧洲欧美人成视频在线 | 99久久久无码国产精品免费 | 77777熟女视频在线观看 а天堂中文在线官网 | 俄罗斯老熟妇色xxxx | 黑人大群体交免费视频 | 日本护士xxxxhd少妇 | 又湿又紧又大又爽a视频国产 | 欧美熟妇另类久久久久久不卡 | 久久久中文久久久无码 | 久久五月精品中文字幕 | 色综合久久88色综合天天 | 欧美 日韩 亚洲 在线 | 人妻熟女一区 | 色噜噜亚洲男人的天堂 | 久久人人爽人人爽人人片av高清 | 日本免费一区二区三区最新 | av在线亚洲欧洲日产一区二区 | 蜜桃视频插满18在线观看 | 日韩人妻系列无码专区 | 欧美高清在线精品一区 | 免费播放一区二区三区 | 性欧美熟妇videofreesex | 国产成人无码区免费内射一片色欲 | 男人扒开女人内裤强吻桶进去 | 国产激情一区二区三区 | 亚洲色偷偷男人的天堂 | 欧美猛少妇色xxxxx | 六月丁香婷婷色狠狠久久 | 粉嫩少妇内射浓精videos | 初尝人妻少妇中文字幕 | 久久精品国产一区二区三区肥胖 | 精品无人国产偷自产在线 | 日本爽爽爽爽爽爽在线观看免 | 久久精品国产精品国产精品污 | 丰腴饱满的极品熟妇 | 精品国产一区二区三区av 性色 | 国产亚洲精品精品国产亚洲综合 | 亚洲精品久久久久久久久久久 | 欧美国产日产一区二区 | 18无码粉嫩小泬无套在线观看 | 日韩欧美成人免费观看 | 漂亮人妻洗澡被公强 日日躁 | 四虎国产精品一区二区 | 波多野结衣av一区二区全免费观看 | 久久综合九色综合97网 | 成人无码精品一区二区三区 | 国产亚洲视频中文字幕97精品 | 亚洲人成影院在线无码按摩店 | 国产熟妇高潮叫床视频播放 | 久久精品国产精品国产精品污 | 麻豆国产人妻欲求不满 | 东北女人啪啪对白 | 免费网站看v片在线18禁无码 | 又大又硬又爽免费视频 | 亚洲中文无码av永久不收费 | 日本精品少妇一区二区三区 | 天天av天天av天天透 | 午夜理论片yy44880影院 | 98国产精品综合一区二区三区 | 亚洲日韩av一区二区三区中文 | 亚洲成a人一区二区三区 | 亚洲va欧美va天堂v国产综合 | 国产人妻人伦精品1国产丝袜 | 亚洲の无码国产の无码步美 | 欧美丰满熟妇xxxx | 国产亚av手机在线观看 | 国产精品办公室沙发 | 久激情内射婷内射蜜桃人妖 | 亚洲伊人久久精品影院 | 久久久久成人片免费观看蜜芽 | 中文字幕乱码亚洲无线三区 | 国産精品久久久久久久 | 国产精品久久久久9999小说 | 国产亚洲日韩欧美另类第八页 | 亚洲日本一区二区三区在线 | 成年美女黄网站色大免费全看 | 夜夜躁日日躁狠狠久久av | 无码人妻精品一区二区三区下载 | 亚洲国产精品无码久久久久高潮 | 亚洲经典千人经典日产 | 亚洲国产精品久久人人爱 | 国产小呦泬泬99精品 | 爽爽影院免费观看 | 国精产品一品二品国精品69xx | 一二三四在线观看免费视频 | 奇米影视7777久久精品人人爽 | 青春草在线视频免费观看 | 亚洲人成影院在线无码按摩店 | 亚洲中文字幕成人无码 | 狂野欧美激情性xxxx | 一本大道伊人av久久综合 | 亚洲中文字幕久久无码 | 久久精品人妻少妇一区二区三区 | 少妇性俱乐部纵欲狂欢电影 | 99久久久无码国产精品免费 | 永久免费观看国产裸体美女 | 性欧美牲交在线视频 | 日本又色又爽又黄的a片18禁 | 国产女主播喷水视频在线观看 | 亚洲精品综合一区二区三区在线 | 国产麻豆精品一区二区三区v视界 | 亚洲热妇无码av在线播放 | 国产内射爽爽大片视频社区在线 | 樱花草在线播放免费中文 | 精品一区二区三区无码免费视频 | 麻豆人妻少妇精品无码专区 | www国产亚洲精品久久久日本 | 国产精品对白交换视频 | 国产精品高潮呻吟av久久 | 午夜无码区在线观看 | 午夜丰满少妇性开放视频 | 一本无码人妻在中文字幕免费 | 国产电影无码午夜在线播放 | aa片在线观看视频在线播放 | 一本色道婷婷久久欧美 | 久久99久久99精品中文字幕 | 天天爽夜夜爽夜夜爽 | 中文字幕无码免费久久9一区9 | 狠狠色色综合网站 | 午夜理论片yy44880影院 | 成人av无码一区二区三区 | 无码国产乱人伦偷精品视频 | 亚洲欧美国产精品专区久久 | 小sao货水好多真紧h无码视频 | 无码中文字幕色专区 | 亚洲日韩乱码中文无码蜜桃臀网站 | 丁香花在线影院观看在线播放 | 国产9 9在线 | 中文 | 亚洲一区二区三区含羞草 | 国产一精品一av一免费 | 中文字幕无码日韩专区 | 少妇久久久久久人妻无码 | 一本大道伊人av久久综合 | 午夜无码区在线观看 | 人人妻人人澡人人爽欧美一区 | 国产色精品久久人妻 | 在线a亚洲视频播放在线观看 | 精品少妇爆乳无码av无码专区 | 久久人人爽人人爽人人片av高清 | 国产成人无码a区在线观看视频app | 老司机亚洲精品影院无码 | 2019nv天堂香蕉在线观看 | 久久综合九色综合欧美狠狠 | 成在人线av无码免观看麻豆 | 沈阳熟女露脸对白视频 | 亚洲精品综合五月久久小说 | 国产综合久久久久鬼色 | 国产做国产爱免费视频 | 亚无码乱人伦一区二区 | 日本在线高清不卡免费播放 | 岛国片人妻三上悠亚 | 无码国产激情在线观看 | 国产无套内射久久久国产 | 亚洲理论电影在线观看 | 久久久久久亚洲精品a片成人 | 日本熟妇人妻xxxxx人hd | 亚洲综合色区中文字幕 | 动漫av一区二区在线观看 | 人人妻人人澡人人爽欧美精品 | 狠狠色丁香久久婷婷综合五月 | 国产精品亚洲专区无码不卡 | 亚洲国产精品一区二区第一页 | 无码播放一区二区三区 | 人人爽人人爽人人片av亚洲 | 成人无码影片精品久久久 | 亚洲欧美精品aaaaaa片 | 人妻夜夜爽天天爽三区 | 成人免费视频视频在线观看 免费 | 久久精品国产大片免费观看 | 亚洲国产精品毛片av不卡在线 | 亚洲爆乳精品无码一区二区三区 | 成人三级无码视频在线观看 | 精品欧美一区二区三区久久久 | 国产人妻精品一区二区三区 | 久久久久久亚洲精品a片成人 | 青青久在线视频免费观看 | 久久zyz资源站无码中文动漫 | 未满成年国产在线观看 | 老熟妇仑乱视频一区二区 | 国产精品福利视频导航 | 九九久久精品国产免费看小说 | 人人妻人人澡人人爽精品欧美 | 欧美黑人性暴力猛交喷水 | 三级4级全黄60分钟 | 欧美成人免费全部网站 | 久久99精品国产.久久久久 | 狠狠色噜噜狠狠狠7777奇米 | 999久久久国产精品消防器材 | 日本熟妇浓毛 | 高潮毛片无遮挡高清免费 | 伊人久久大香线焦av综合影院 | 欧美人与牲动交xxxx | √天堂中文官网8在线 | 色婷婷综合中文久久一本 | 久久精品国产99久久6动漫 | 熟妇人妻激情偷爽文 | 丰满岳乱妇在线观看中字无码 | 欧美精品在线观看 | 国内精品人妻无码久久久影院 | 三上悠亚人妻中文字幕在线 | 亚洲精品久久久久久久久久久 | 欧美激情一区二区三区成人 | 中文毛片无遮挡高清免费 | 中文字幕中文有码在线 | 欧美xxxxx精品 | 亚洲综合无码一区二区三区 | 亚洲区小说区激情区图片区 | 高中生自慰www网站 | 精品成人av一区二区三区 | 扒开双腿吃奶呻吟做受视频 | 98国产精品综合一区二区三区 | 纯爱无遮挡h肉动漫在线播放 | 免费乱码人妻系列无码专区 | 99久久精品午夜一区二区 | 亚洲日韩av一区二区三区四区 | 东京无码熟妇人妻av在线网址 | 国产精品久久久 | 精品aⅴ一区二区三区 | 99久久精品午夜一区二区 | 中文字幕乱码亚洲无线三区 | 久久www免费人成人片 | 国产亚av手机在线观看 | 国产精品99久久精品爆乳 | 精品无码一区二区三区爱欲 | 日本www一道久久久免费榴莲 | yw尤物av无码国产在线观看 | 亚洲熟悉妇女xxx妇女av | 免费国产成人高清在线观看网站 | а√资源新版在线天堂 | 国产成人无码一二三区视频 | 亚洲精品无码人妻无码 | 午夜福利一区二区三区在线观看 | 国产av人人夜夜澡人人爽麻豆 | 国产精品对白交换视频 | 欧美日本免费一区二区三区 | 午夜丰满少妇性开放视频 | 国产麻豆精品一区二区三区v视界 | 久久国产精品精品国产色婷婷 | 色妞www精品免费视频 | 99国产精品白浆在线观看免费 | 极品嫩模高潮叫床 | 欧美激情一区二区三区成人 | 久久亚洲中文字幕无码 | 狠狠躁日日躁夜夜躁2020 | 最近免费中文字幕中文高清百度 | 国产精品多人p群无码 | 国产极品美女高潮无套在线观看 | 欧美xxxxx精品 | 国产亚洲精品久久久ai换 | 午夜精品久久久内射近拍高清 | 四十如虎的丰满熟妇啪啪 | 久久精品一区二区三区四区 | 精品国产成人一区二区三区 | 日本饥渴人妻欲求不满 | 成人欧美一区二区三区黑人 | 天堂久久天堂av色综合 | 亚洲va中文字幕无码久久不卡 | 99麻豆久久久国产精品免费 | аⅴ资源天堂资源库在线 | 国产激情艳情在线看视频 | 婷婷丁香六月激情综合啪 | 97久久超碰中文字幕 | 亚洲乱码国产乱码精品精 | 国语自产偷拍精品视频偷 | 97人妻精品一区二区三区 | 中文字幕无码日韩专区 | 人妻少妇精品无码专区动漫 | 无码精品人妻一区二区三区av | 青青青爽视频在线观看 | av无码久久久久不卡免费网站 | 亚洲人成网站色7799 | 欧美精品无码一区二区三区 | 性欧美疯狂xxxxbbbb | 国产xxx69麻豆国语对白 | 在线观看免费人成视频 | 日韩人妻少妇一区二区三区 | 日韩人妻少妇一区二区三区 | 亚洲人成网站免费播放 | 中文字幕无码av激情不卡 | 日日夜夜撸啊撸 | 国产精品无码永久免费888 | 中文字幕人妻丝袜二区 | 色妞www精品免费视频 | 亚洲中文字幕va福利 | 麻豆国产人妻欲求不满 | 日本爽爽爽爽爽爽在线观看免 | 亚洲毛片av日韩av无码 | 一本色道久久综合亚洲精品不卡 | 国产av一区二区精品久久凹凸 | 思思久久99热只有频精品66 | 日本乱人伦片中文三区 | 5858s亚洲色大成网站www | 性色av无码免费一区二区三区 | 国产va免费精品观看 | 天堂久久天堂av色综合 | 男女爱爱好爽视频免费看 | 荫蒂添的好舒服视频囗交 | 人妻aⅴ无码一区二区三区 | 大色综合色综合网站 | 天天躁日日躁狠狠躁免费麻豆 | 日韩av无码一区二区三区不卡 | 亚洲中文字幕乱码av波多ji | 欧美真人作爱免费视频 | 99精品国产综合久久久久五月天 | 国内精品一区二区三区不卡 | 国产在线精品一区二区高清不卡 | 国产国语老龄妇女a片 | 一本久道高清无码视频 | 久久午夜夜伦鲁鲁片无码免费 | 伊人久久大香线焦av综合影院 | 夜精品a片一区二区三区无码白浆 | 精品国产一区二区三区av 性色 | 色综合久久中文娱乐网 | 精品久久久久香蕉网 | 午夜福利不卡在线视频 | 日本xxxx色视频在线观看免费 | aⅴ亚洲 日韩 色 图网站 播放 | 欧美一区二区三区视频在线观看 | 在线观看欧美一区二区三区 | 极品嫩模高潮叫床 | 波多野结衣乳巨码无在线观看 | 精品一二三区久久aaa片 | 狠狠综合久久久久综合网 | 人人妻人人澡人人爽欧美一区 | 香港三级日本三级妇三级 | 日本一卡二卡不卡视频查询 | 在线播放免费人成毛片乱码 | 久久精品女人天堂av免费观看 | 丰满岳乱妇在线观看中字无码 | 无码纯肉视频在线观看 | 中文字幕无码热在线视频 | 中文字幕无码免费久久9一区9 | 亚洲の无码国产の无码影院 | 亚洲熟熟妇xxxx | 成人综合网亚洲伊人 | 成人影院yy111111在线观看 | 日本又色又爽又黄的a片18禁 | 欧美人与牲动交xxxx | 久久久久免费看成人影片 | 人妻aⅴ无码一区二区三区 | 久久亚洲中文字幕无码 | 国产精品久久久久久亚洲影视内衣 | 国产高清不卡无码视频 | 久久综合狠狠综合久久综合88 | 日本丰满熟妇videos | 中文字幕人妻丝袜二区 | 奇米影视888欧美在线观看 | 97精品国产97久久久久久免费 | 奇米影视888欧美在线观看 | 免费乱码人妻系列无码专区 | 又大又硬又爽免费视频 | 秋霞成人午夜鲁丝一区二区三区 | 免费网站看v片在线18禁无码 | 亚洲热妇无码av在线播放 | 久久久久久av无码免费看大片 | 乌克兰少妇性做爰 | 国产乱人偷精品人妻a片 | 精品久久8x国产免费观看 | 丝袜足控一区二区三区 | 小泽玛莉亚一区二区视频在线 | 亚洲区欧美区综合区自拍区 | 日欧一片内射va在线影院 | 中文字幕无码免费久久99 | 中文久久乱码一区二区 | 俄罗斯老熟妇色xxxx | 国产免费久久久久久无码 | 狠狠色噜噜狠狠狠狠7777米奇 | 男女爱爱好爽视频免费看 | 国产黄在线观看免费观看不卡 | 欧美日韩在线亚洲综合国产人 | 精品久久久无码中文字幕 | 久久99热只有频精品8 | 97夜夜澡人人爽人人喊中国片 | 成在人线av无码免费 | 久精品国产欧美亚洲色aⅴ大片 |