當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

零拷贝的底层实现

發(fā)布時(shí)間：2025/3/19 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了零拷贝的底层实现小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章轉(zhuǎn)自：https://blog.csdn.net/weixin_37782390/article/details/103833306

零拷貝這三個(gè)字，一直是服務(wù)器網(wǎng)絡(luò)編程的關(guān)鍵字，任何性能優(yōu)化都離不開(kāi)。在 Java 程序員的世界，常用的零拷貝有 mmap 和 sendFile。那么，他們?cè)?OS 里，到底是怎么樣的一個(gè)的設(shè)計(jì)？本文將簡(jiǎn)單聊聊 mmap 和 sendFile 這兩個(gè)零拷貝。

一、傳統(tǒng)IO的劣勢(shì)

初學(xué) Java 時(shí)，我們?cè)趯W(xué)習(xí) IO 和網(wǎng)絡(luò)編程時(shí)，會(huì)使用以下代碼：

File file = new File("index.html"); RandomAccessFile raf = new RandomAccessFile(file, "rw");byte[] arr = new byte[(int) file.length()]; raf.read(arr);Socket socket = new ServerSocket(8080).accept(); socket.getOutputStream().write(arr);

我們會(huì)調(diào)用 read 方法讀取 index.html 的內(nèi)容—— 變成字節(jié)數(shù)組，然后調(diào)用 write 方法，將 index.html 字節(jié)流寫(xiě)到 socket 中，那么，我們調(diào)用這兩個(gè)方法，在 OS 底層發(fā)生了什么呢？我這里借鑒了一張其他文章的圖片，嘗試解釋這個(gè)過(guò)程。

傳統(tǒng) io 操作

上圖中，上半部分表示用戶態(tài)和內(nèi)核態(tài)的上下文切換。下半部分表示數(shù)據(jù)復(fù)制操作。下面說(shuō)說(shuō)他們的步驟：

read 調(diào)用導(dǎo)致用戶態(tài)到內(nèi)核態(tài)的一次變化，同時(shí)，第一次復(fù)制開(kāi)始：DMA（Direct Memory Access，直接內(nèi)存存取，即不使用 CPU 拷貝數(shù)據(jù)到內(nèi)存，而是 DMA 引擎?zhèn)鬏敂?shù)據(jù)到內(nèi)存，用于解放 CPU）引擎從磁盤(pán)讀取 index.html 文件，并將數(shù)據(jù)放入到內(nèi)核緩沖區(qū)。

發(fā)生第二次數(shù)據(jù)拷貝，即：將內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到用戶緩沖區(qū)，同時(shí)，發(fā)生了一次用內(nèi)核態(tài)到用戶態(tài)的上下文切換。

發(fā)生第三次數(shù)據(jù)拷貝，我們調(diào)用 write 方法，系統(tǒng)將用戶緩沖區(qū)的數(shù)據(jù)拷貝到 Socket 緩沖區(qū)。此時(shí)，又發(fā)生了一次用戶態(tài)到內(nèi)核態(tài)的上下文切換。

第四次拷貝，數(shù)據(jù)異步的從 Socket 緩沖區(qū)，使用 DMA 引擎拷貝到網(wǎng)絡(luò)協(xié)議引擎。這一段，不需要進(jìn)行上下文切換。

write 方法返回，再次從內(nèi)核態(tài)切換到用戶態(tài)。

如你所見(jiàn)，復(fù)制拷貝操作太多了。如何優(yōu)化這些流程？

二、mmap 優(yōu)化

mmap 通過(guò)內(nèi)存映射，將文件映射到內(nèi)核緩沖區(qū)，同時(shí)，用戶空間可以共享內(nèi)核空間的數(shù)據(jù)。這樣，在進(jìn)行網(wǎng)絡(luò)傳輸時(shí)，就可以減少內(nèi)核空間到用戶空間的拷貝次數(shù)。如下圖：

如上圖，user buffer 和 kernel buffer 共享 index.html。如果你想把硬盤(pán)的 index.html 傳輸?shù)骄W(wǎng)絡(luò)中，再也不用拷貝到用戶空間，再?gòu)挠脩艨臻g拷貝到 Socket 緩沖區(qū)。

現(xiàn)在，你只需要從內(nèi)核緩沖區(qū)拷貝到 Socket 緩沖區(qū)即可，這將減少一次內(nèi)存拷貝（從 4 次變成了 3 次），但不減少上下文切換次數(shù)。

三、sendFile

那么，我們還能繼續(xù)優(yōu)化嗎？ Linux 2.1 版本提供了 sendFile 函數(shù)，其基本原理如下：數(shù)據(jù)根本不經(jīng)過(guò)用戶態(tài)，直接從內(nèi)核緩沖區(qū)進(jìn)入到 Socket Buffer，同時(shí)，由于和用戶態(tài)完全無(wú)關(guān)，就減少了一次上下文切換。

如上圖，我們進(jìn)行 sendFile 系統(tǒng)調(diào)用時(shí)，數(shù)據(jù)被 DMA 引擎從文件復(fù)制到內(nèi)核緩沖區(qū)，然后調(diào)用 write 方法時(shí)，從內(nèi)核緩沖區(qū)進(jìn)入到 Socket，這時(shí)，是沒(méi)有上下文切換的，因?yàn)槎荚趦?nèi)核空間。

最后，數(shù)據(jù)從 Socket 緩沖區(qū)進(jìn)入到協(xié)議棧。此時(shí)，數(shù)據(jù)經(jīng)過(guò)了 3 次拷貝，3 次上下文切換。那么，還能不能再繼續(xù)優(yōu)化呢？例如直接從內(nèi)核緩沖區(qū)拷貝到網(wǎng)絡(luò)協(xié)議棧？

實(shí)際上，Linux 在 2.4 版本中，做了一些修改，避免了從內(nèi)核緩沖區(qū)拷貝到 Socket buffer 的操作，直接拷貝到協(xié)議棧，從而再一次減少了數(shù)據(jù)拷貝。具體如下圖：

現(xiàn)在，index.html 要從文件進(jìn)入到網(wǎng)絡(luò)協(xié)議棧，只需 2 次拷貝：第一次使用 DMA 引擎從文件拷貝到內(nèi)核緩沖區(qū)，第二次從內(nèi)核緩沖區(qū)將數(shù)據(jù)拷貝到網(wǎng)絡(luò)協(xié)議棧；內(nèi)核緩存區(qū)只會(huì)拷貝一些 offset 和 length 信息到 SocketBuffer，基本無(wú)消耗。

等一下，不是說(shuō)零拷貝嗎？為什么還是要 2 次拷貝？

首先我們說(shuō)零拷貝，是從操作系統(tǒng)的角度來(lái)說(shuō)的。因?yàn)閮?nèi)核緩沖區(qū)之間，沒(méi)有數(shù)據(jù)是重復(fù)的（只有 kernel buffer 有一份數(shù)據(jù)，sendFile 2.1 版本實(shí)際上有 2 份數(shù)據(jù)，算不上零拷貝）。例如我們剛開(kāi)始的例子，內(nèi)核緩存區(qū)和 Socket 緩沖區(qū)的數(shù)據(jù)就是重復(fù)的。

而零拷貝不僅僅帶來(lái)更少的數(shù)據(jù)復(fù)制，還能帶來(lái)其他的性能優(yōu)勢(shì)，例如更少的上下文切換，更少的 CPU 緩存?zhèn)喂蚕硪约盁o(wú) CPU 校驗(yàn)和計(jì)算。

再稍微講講 mmap 和 sendFile 的區(qū)別。

mmap 適合小數(shù)據(jù)量讀寫(xiě)，sendFile 適合大文件傳輸。
mmap 需要 4 次上下文切換，3 次數(shù)據(jù)拷貝；sendFile 需要 3 次上下文切換，最少 2 次數(shù)據(jù)拷貝。
sendFile 可以利用 DMA 方式，減少 CPU 拷貝，mmap 則不能（必須從內(nèi)核拷貝到 Socket 緩沖區(qū)）。
在這個(gè)選擇上：rocketMQ 在消費(fèi)消息時(shí)，使用了 mmap。kafka 使用了 sendFile。

四、Java中的例子

kafka 在客戶端和 broker 進(jìn)行數(shù)據(jù)傳輸時(shí)，會(huì)使用 transferTo 和 transferFrom 方法，即對(duì)應(yīng) Linux 的 sendFile。

tomcat 內(nèi)部在進(jìn)行文件拷貝的時(shí)候，也會(huì)使用 transferto 方法。

tomcat 在處理一下心跳保活時(shí)，也會(huì)調(diào)用該 sendFile 方法。

所以，如果你需要優(yōu)化網(wǎng)絡(luò)傳輸?shù)男阅?#xff0c;或者文件讀寫(xiě)的速度，請(qǐng)盡量使用零拷貝。它不僅能較少?gòu)?fù)制拷貝次數(shù)，還能較少上下文切換，緩存行污染。

總結(jié)

以上是生活随笔為你收集整理的零拷贝的底层实现的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

底层

上一篇： Springboot中使用Google
下一篇：肖邦夜曲21_原装进口 | 肖邦夜曲全集