當(dāng)前位置：首頁 > 运维知识 > linux >内容正文

linux

可算是有文章，把Linux零拷贝讲透彻了！

發(fā)布時間：2024/4/11 linux 33 豆豆

生活随笔收集整理的這篇文章主要介紹了可算是有文章，把Linux零拷贝讲透彻了！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

擊上方“朱小廝的博客”，選擇“設(shè)為星標(biāo)”

后臺回復(fù)"加群"，加入組織

來源：22j.co/brVn

本文探討 Linux 中主要的幾種零拷貝技術(shù)以及零拷貝技術(shù)的適用場景。為了迅速建立起零拷貝的概念，我們拿一個常用的場景進(jìn)行引入。在寫一個服務(wù)端程序時（Web Server或者文件服務(wù)器），文件下載是一個基本功能。

這時候服務(wù)端的任務(wù)是：將服務(wù)端主機磁盤中的文件不做修改地從已連接的 Socket 發(fā)出去。

我們通常用下面的代碼完成：

while((n?=?read(diskfd,?buf,?BUF_SIZE))?>?0)write(sockfd,?buf?,?n);

基本操作就是循環(huán)的從磁盤讀入文件內(nèi)容到緩沖區(qū)，再將緩沖區(qū)的內(nèi)容發(fā)送到 Socket。但是由于 Linux 的 I/O 操作默認(rèn)是緩沖 I/O。

這里面主要使用的也就是 Read 和 Write 兩個系統(tǒng)調(diào)用，我們并不知道操作系統(tǒng)在其中做了什么。實際上在以上 I/O 操作中，發(fā)生了多次的數(shù)據(jù)拷貝。

當(dāng)應(yīng)用程序訪問某塊數(shù)據(jù)時，操作系統(tǒng)首先會檢查，是不是最近訪問過此文件，文件內(nèi)容是否緩存在內(nèi)核緩沖區(qū)。

如果是，操作系統(tǒng)則直接根據(jù) Read 系統(tǒng)調(diào)用提供的 buf 地址，將內(nèi)核緩沖區(qū)的內(nèi)容拷貝到 buf 所指定的用戶空間緩沖區(qū)中去。

如果不是，操作系統(tǒng)則首先將磁盤上的數(shù)據(jù)拷貝的內(nèi)核緩沖區(qū)，這一步目前主要依靠 DMA 來傳輸，然后再把內(nèi)核緩沖區(qū)上的內(nèi)容拷貝到用戶緩沖區(qū)中。

接下來，Write 系統(tǒng)調(diào)用再把用戶緩沖區(qū)的內(nèi)容拷貝到網(wǎng)絡(luò)堆棧相關(guān)的內(nèi)核緩沖區(qū)中，最后 Socket 再把內(nèi)核緩沖區(qū)的內(nèi)容發(fā)送到網(wǎng)卡上。

說了這么多，不如看圖清楚：

數(shù)據(jù)拷貝

從上圖中可以看出，共產(chǎn)生了四次數(shù)據(jù)拷貝，即使使用了 DMA 來處理了與硬件的通訊，CPU 仍然需要處理兩次數(shù)據(jù)拷貝。

與此同時，在用戶態(tài)與內(nèi)核態(tài)也發(fā)生了多次上下文切換，無疑也加重了 CPU 負(fù)擔(dān)。

在此過程中，我們沒有對文件內(nèi)容做任何修改，那么在內(nèi)核空間和用戶空間來回拷貝數(shù)據(jù)無疑就是一種浪費，而零拷貝主要就是為了解決這種低效性。

什么是零拷貝技術(shù)（zero-copy）？

零拷貝主要的任務(wù)就是避免 CPU 將數(shù)據(jù)從一塊存儲拷貝到另外一塊存儲。

主要就是利用各種零拷貝技術(shù)，避免讓 CPU 做大量的數(shù)據(jù)拷貝任務(wù)，減少不必要的拷貝，或者讓別的組件來做這一類簡單的數(shù)據(jù)傳輸任務(wù)，讓 CPU 解脫出來專注于別的任務(wù)。這樣就可以讓系統(tǒng)資源的利用更加有效。

我們繼續(xù)回到上文中的例子，我們?nèi)绾螠p少數(shù)據(jù)拷貝的次數(shù)呢？一個很明顯的著力點就是減少數(shù)據(jù)在內(nèi)核空間和用戶空間來回拷貝，這也引入了零拷貝的一個類型：讓數(shù)據(jù)傳輸不需要經(jīng)過 user space。

使用 mmap

我們減少拷貝次數(shù)的一種方法是調(diào)用 mmap() 來代替 read 調(diào)用：

buf?=?mmap(diskfd,?len); write(sockfd,?buf,?len);

應(yīng)用程序調(diào)用 mmap()，磁盤上的數(shù)據(jù)會通過 DMA 被拷貝的內(nèi)核緩沖區(qū)，接著操作系統(tǒng)會把這段內(nèi)核緩沖區(qū)與應(yīng)用程序共享，這樣就不需要把內(nèi)核緩沖區(qū)的內(nèi)容往用戶空間拷貝。

應(yīng)用程序再調(diào)用 write()，操作系統(tǒng)直接將內(nèi)核緩沖區(qū)的內(nèi)容拷貝到 Socket 緩沖區(qū)中，這一切都發(fā)生在內(nèi)核態(tài)，最后，Socket 緩沖區(qū)再把數(shù)據(jù)發(fā)到網(wǎng)卡去。

同樣的，看圖很簡單：

mmap

使用 mmap 替代 Read 很明顯減少了一次拷貝，當(dāng)拷貝數(shù)據(jù)量很大時，無疑提升了效率。

但是使用 mmap 是有代價的。當(dāng)你使用 mmap 時，你可能會遇到一些隱藏的陷阱。

例如，當(dāng)你的程序 map 了一個文件，但是當(dāng)這個文件被另一個進(jìn)程截斷 (truncate) 時，Write 系統(tǒng)調(diào)用會因為訪問非法地址而被 SIGBUS 信號終止。

SIGBUS 信號默認(rèn)會殺死你的進(jìn)程并產(chǎn)生一個 coredump，如果你的服務(wù)器這樣被中止了，那會產(chǎn)生一筆損失。

通常我們使用以下解決方案避免這種問題：

①為 SIGBUS 信號建立信號處理程序

當(dāng)遇到 SIGBUS 信號時，信號處理程序簡單地返回，Write 系統(tǒng)調(diào)用在被中斷之前會返回已經(jīng)寫入的字節(jié)數(shù)，并且 errno 會被設(shè)置成 success，但是這是一種糟糕的處理辦法，因為你并沒有解決問題的實質(zhì)核心。

②使用文件租借鎖

通常我們使用這種方法，在文件描述符上使用租借鎖，我們?yōu)槲募騼?nèi)核申請一個租借鎖。

當(dāng)其他進(jìn)程想要截斷這個文件時，內(nèi)核會向我們發(fā)送一個實時的 RTSIGNALLEASE 信號，告訴我們內(nèi)核正在破壞你加持在文件上的讀寫鎖。

這樣在程序訪問非法內(nèi)存并且被 SIGBUS 殺死之前，你的 Write 系統(tǒng)調(diào)用會被中斷。Write 會返回已經(jīng)寫入的字節(jié)數(shù)，并且置 errno 為 success。

我們應(yīng)該在 mmap 文件之前加鎖，并且在操作完文件后解鎖：

if(fcntl(diskfd,?F_SETSIG,?RT_SIGNAL_LEASE)?==?-1)?{perror("kernel?lease?set?signal");return?-1; } /*?l_type?can?be?F_RDLCK?F_WRLCK??加鎖*/ /*?l_type?can?be??F_UNLCK?解鎖*/ if(fcntl(diskfd,?F_SETLEASE,?l_type)){perror("kernel?lease?set?type");return?-1; }

使用 sendfile

從 2.1 版內(nèi)核開始，Linux 引入了 sendfile 來簡化操作：

#include<sys/sendfile.h> ssize_t?sendfile(int?out_fd,?int?in_fd,?off_t?*offset,?size_t?count);

系統(tǒng)調(diào)用 sendfile() 在代表輸入文件的描述符 infd 和代表輸出文件的描述符 outfd 之間傳送文件內(nèi)容（字節(jié)）。

描述符 outfd 必須指向一個套接字，而 infd 指向的文件必須是可以 mmap 的。

這些局限限制了 sendfile 的使用，使 sendfile 只能將數(shù)據(jù)從文件傳遞到套接字上，反之則不行。

使用 sendfile 不僅減少了數(shù)據(jù)拷貝的次數(shù)，還減少了上下文切換，數(shù)據(jù)傳送始終只發(fā)生在 kernel space。

sendfile 系統(tǒng)調(diào)用過程

在我們調(diào)用 sendfile 時，如果有其它進(jìn)程截斷了文件會發(fā)生什么呢？假設(shè)我們沒有設(shè)置任何信號處理程序，sendfile 調(diào)用僅僅返回它在被中斷之前已經(jīng)傳輸?shù)淖止?jié)數(shù)，errno 會被置為 success。

如果我們在調(diào)用 sendfile 之前給文件加了鎖，sendfile 的行為仍然和之前相同，我們還會收到 RTSIGNALLEASE 的信號。

目前為止，我們已經(jīng)減少了數(shù)據(jù)拷貝的次數(shù)了，但是仍然存在一次拷貝，就是頁緩存到 Socket 緩存的拷貝。那么能不能把這個拷貝也省略呢？

借助于硬件上的幫助，我們是可以辦到的。之前我們是把頁緩存的數(shù)據(jù)拷貝到 Socket 緩存中。

實際上，我們僅僅需要把緩沖區(qū)描述符傳到 Socket 緩沖區(qū)，再把數(shù)據(jù)長度傳過去，這樣 DMA 控制器直接將頁緩存中的數(shù)據(jù)打包發(fā)送到網(wǎng)絡(luò)中就可以了。

總結(jié)一下：sendfile 系統(tǒng)調(diào)用利用 DMA 引擎將文件內(nèi)容拷貝到內(nèi)核緩沖區(qū)去，然后將帶有文件位置和長度信息的緩沖區(qū)描述符添加 Socket 緩沖區(qū)去。

這一步不會將內(nèi)核中的數(shù)據(jù)拷貝到 Socket 緩沖區(qū)中，DMA 引擎會將內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到協(xié)議引擎中去，避免了最后一次拷貝。

帶 DMA 的 sendfile

不過這一種收集拷貝功能是需要硬件以及驅(qū)動程序支持的。

使用?splice

sendfile 只適用于將數(shù)據(jù)從文件拷貝到套接字上，限定了它的使用范圍。

Linux 在 2.6.17 版本引入 splice 系統(tǒng)調(diào)用，用于在兩個文件描述符中移動數(shù)據(jù)：

#define?_GNU_SOURCE?????????/*?See?feature_test_macros(7)?*/ #include?<fcntl.h> ssize_t?splice(int?fd_in,?loff_t?*off_in,?int?fd_out,?loff_t?*off_out,?size_t?len,?unsigned?int?flags);

splice 調(diào)用在兩個文件描述符之間移動數(shù)據(jù)，而不需要數(shù)據(jù)在內(nèi)核空間和用戶空間來回拷貝。

他從 fdin 拷貝 len 長度的數(shù)據(jù)到 fdout，但是有一方必須是管道設(shè)備，這也是目前 splice 的一些局限性。

flags 參數(shù)有以下幾種取值：

SPLICEFMOVE：嘗試去移動數(shù)據(jù)而不是拷貝數(shù)據(jù)。這僅僅是對內(nèi)核的一個小提示：如果內(nèi)核不能從 pipe 移動數(shù)據(jù)或者 pipe 的緩存不是一個整頁面，仍然需要拷貝數(shù)據(jù)。
Linux 最初的實現(xiàn)有些問題，所以從 2.6.21 開始這個選項不起作用，后面的 Linux 版本應(yīng)該會實現(xiàn)。
SPLICEFNONBLOCK：splice 操作不會被阻塞。然而，如果文件描述符沒有被設(shè)置為不可被阻塞方式的 I/O ，那么調(diào)用 splice 有可能仍然被阻塞。
SPLICEFMORE：后面的 splice 調(diào)用會有更多的數(shù)據(jù)。

splice 調(diào)用利用了 Linux 提出的管道緩沖區(qū)機制，所以至少一個描述符要為管道。

以上幾種零拷貝技術(shù)都是減少數(shù)據(jù)在用戶空間和內(nèi)核空間拷貝技術(shù)實現(xiàn)的，但是有些時候，數(shù)據(jù)必須在用戶空間和內(nèi)核空間之間拷貝。

這時候，我們只能針對數(shù)據(jù)在用戶空間和內(nèi)核空間拷貝的時機上下功夫了。

Linux 通常利用寫時復(fù)制（copy on write）來減少系統(tǒng)開銷，這個技術(shù)又時常稱作 COW。

由于篇幅原因，本文不詳細(xì)介紹寫時復(fù)制。大概描述下就是：如果多個程序同時訪問同一塊數(shù)據(jù)，那么每個程序都擁有指向這塊數(shù)據(jù)的指針，在每個程序看來，自己都是獨立擁有這塊數(shù)據(jù)的。

只有當(dāng)程序需要對數(shù)據(jù)內(nèi)容進(jìn)行修改時，才會把數(shù)據(jù)內(nèi)容拷貝到程序自己的應(yīng)用空間里去。

這時候，數(shù)據(jù)才成為該程序的私有數(shù)據(jù)。如果程序不需要對數(shù)據(jù)進(jìn)行修改，那么永遠(yuǎn)都不需要拷貝數(shù)據(jù)到自己的應(yīng)用空間里，這樣就減少了數(shù)據(jù)的拷貝。

除此之外，還有一些零拷貝技術(shù)，比如傳統(tǒng)的 Linux I/O 中加上 O_DIRECT 標(biāo)記可以直接 I/O，避免了自動緩存，還有尚未成熟的 fbufs 技術(shù)，本文尚未覆蓋所有零拷貝技術(shù)，只是介紹常見的一些，如有興趣，可以自行研究。

一般成熟的服務(wù)端項目也會自己改造內(nèi)核中有關(guān) I/O 的部分，提高自己的數(shù)據(jù)傳輸速率。

想知道更多？掃描下面的二維碼關(guān)注我

后臺回復(fù)”加群“獲取公眾號專屬群聊入口

【精彩推薦】

超清晰的DNS入門指南
深入理解Java Stream流水線
干掉Swagger,試試這個
干掉GuavaCache：Caffeine才是本地緩存的王
如何用ELK搭建TB級的日志系統(tǒng)
深度好文：Linux系統(tǒng)內(nèi)存知識
日志系統(tǒng)新貴Loki，確實比笨重的ELK輕
日志采集系統(tǒng)都用到哪些技術(shù)？
面試官：為什么HashMap的加載因子是0.75？

點個在看少個 bug?????

總結(jié)

以上是生活随笔為你收集整理的可算是有文章，把Linux零拷贝讲透彻了！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：科普｜什么是负载均衡
下一篇： Apache Dubbo 被曝出“高危”

linux

可算是有文章，把Linux零拷贝讲透彻了！

超清晰的DNS入門指南

深入理解Java Stream流水線

干掉Swagger,試試這個

干掉GuavaCache：Caffeine才是本地緩存的王

如何用ELK搭建TB級的日志系統(tǒng)

深度好文：Linux系統(tǒng)內(nèi)存知識

日志系統(tǒng)新貴Loki，確實比笨重的ELK輕

日志采集系統(tǒng)都用到哪些技術(shù)？

面試官：為什么HashMap的加載因子是0.75？

總結(jié)