一个完整的 Web 请求到底发生了什么
閱讀本文大概需要 7 分鐘。
一、從輸入一個(gè)網(wǎng)址開(kāi)始
當(dāng)我們?cè)跒g覽器輸入一個(gè)網(wǎng)址,然后按下回車(chē),接下來(lái)瀏覽器顯示了頁(yè)面。網(wǎng)速好的話(huà)這之間可能就一秒,但在這一秒內(nèi)到底發(fā)生了什么?
本文主要內(nèi)容是試圖記錄一個(gè)完整 Web 請(qǐng)求的詳細(xì)過(guò)程,從用戶(hù)在瀏覽器中輸入 URL 地址說(shuō)起,然后瀏覽器如何找到服務(wù)器地址的過(guò)程,并發(fā)起請(qǐng)求;分析請(qǐng)求在達(dá)反向代理服務(wù)器內(nèi)部處理過(guò)程;最后到請(qǐng)求在服務(wù)器端處理完成后,瀏覽器渲染響應(yīng)頁(yè)面過(guò)程。
大致過(guò)程如下:
Web請(qǐng)求的工作原理可以簡(jiǎn)單地歸納為:
瀏覽器通過(guò) DNS 把域名解析成對(duì)應(yīng)的IP地址;
根據(jù)這個(gè) IP 地址在互聯(lián)網(wǎng)上找到對(duì)應(yīng)的服務(wù)器,建立 Socket 連接;
客戶(hù)端向服務(wù)器發(fā)送HTTP協(xié)議請(qǐng)求包,請(qǐng)求服務(wù)器里的資源文檔;
在服務(wù)器端,實(shí)際上還有復(fù)雜的業(yè)務(wù)邏輯:服務(wù)器可能有多臺(tái),到底指定哪臺(tái)服務(wù)器處理請(qǐng)求,這需要一個(gè)負(fù)載均衡設(shè)備來(lái)平均分配所有用戶(hù)的請(qǐng)求;
還有請(qǐng)求的數(shù)據(jù)是存儲(chǔ)在分布式緩存里還是一個(gè)靜態(tài)文件中,或是在數(shù)據(jù)庫(kù)里;
當(dāng)數(shù)據(jù)返回瀏覽器時(shí),瀏覽器解析數(shù)據(jù)發(fā)現(xiàn)還有一些靜態(tài)資源(如:css,js或者圖片)時(shí)又會(huì)發(fā)起另外的請(qǐng)求,而這些請(qǐng)求可能會(huì)在CDN上,那么CDN服務(wù)器又會(huì)處理這個(gè)用戶(hù)的請(qǐng)求。
客戶(hù)端與服務(wù)器斷開(kāi)。由客戶(hù)端解釋HTML文檔,在客戶(hù)端屏幕上渲染圖形結(jié)果。
一個(gè) HTTP 事務(wù)就是這樣實(shí)現(xiàn)的,看起來(lái)很簡(jiǎn)單,原理其實(shí)是挺負(fù)責(zé)的。需要注意的是客戶(hù)機(jī)與服務(wù)器之間的通信是非持久連接的,也就是當(dāng)服務(wù)器發(fā)送了應(yīng)答后就與客戶(hù)機(jī)斷開(kāi)連接,等待下一次請(qǐng)求。
但需要注意的是,從 HTTP 1.1 開(kāi)始,服務(wù)器可以與客戶(hù)端保持長(zhǎng)連接,不一定是請(qǐng)求完成后就斷開(kāi)連接,這取決于服務(wù)器的操作。
二、DNS 域名解析
首先來(lái)看看最先發(fā)生的事情——DNS 域名解析,簡(jiǎn)單的說(shuō)就是把域名翻譯成 IP 地址。例如:把 www.test.com 這個(gè)域名翻譯成對(duì)應(yīng) IP 192.168.1.1,這里只是舉個(gè)例子。
如果你在瀏覽器中直接輸入的 IP 地址,那么實(shí)際上會(huì)跳過(guò)這個(gè)步驟,否則會(huì)經(jīng)理下面幾部:
1、瀏覽器緩存檢查
瀏覽器會(huì)首先搜索瀏覽器自身的 DNS 緩存,緩存時(shí)間比較短,大概只有1分鐘,且只能容納1000條緩存,看自身的緩存中是否有對(duì)應(yīng)的條目,而且沒(méi)有過(guò)期,如果有且沒(méi)有過(guò)期則解析到此結(jié)束。
2、操作系統(tǒng)緩存檢查 + hosts 解析
如果瀏覽器的緩存里沒(méi)有找到對(duì)應(yīng)的條目,操作系統(tǒng)也會(huì)有一個(gè)域名解析的過(guò)程,那么瀏覽器先搜索操作系統(tǒng)的 DNS 緩存中是否有這個(gè)域名對(duì)應(yīng)的解析結(jié)果,如果找到且沒(méi)有過(guò)期則停止搜索,解析到此結(jié)束。
在 Linux 中可以通過(guò) /etc/hosts 文件來(lái)設(shè)置,可以將任何域名解析到任何能夠訪問(wèn)的 IP 地址。如果在這里指定了一個(gè)域名對(duì)應(yīng)的 IP 地址,那么瀏覽器會(huì)首先使用這個(gè) IP 地址。當(dāng)解析到這個(gè)配置文件中的某個(gè)域名時(shí),操作系統(tǒng)會(huì)在緩存中緩存這個(gè)解析結(jié)果,緩存的時(shí)間同樣是受這個(gè)域名的失效時(shí)間和緩存的空間大小控制的。
3、本地區(qū)域名服務(wù)器(Local DNS Server)解析
如果在 hosts 文件中也沒(méi)有找到對(duì)應(yīng)的條目,瀏覽器會(huì)發(fā)起一個(gè) DNS 的系統(tǒng)調(diào)用,會(huì)向本地配置的首選 DNS 服務(wù)器發(fā)起域名解析請(qǐng)求(通過(guò)的是 UDP 協(xié)議向 DNS 的 53 端口發(fā)起請(qǐng)求,這個(gè)請(qǐng)求是遞歸的請(qǐng)求,也就是運(yùn)營(yíng)商的DNS服務(wù)器必須得提供給我們?cè)撚蛎腎P地址)。
在我們的網(wǎng)絡(luò)配置中都會(huì)有“DNS 服務(wù)器地址”這一項(xiàng),這個(gè)地址就用于解決前面所說(shuō)的如果兩個(gè)過(guò)程無(wú)法解析時(shí)要怎么辦。操作系統(tǒng)會(huì)把這個(gè)域名發(fā)送給這里設(shè)置的 LDNS,也就是本地區(qū)的域名服務(wù)器。
這個(gè) DNS 通常都提供給你本地互聯(lián)網(wǎng)接入的一個(gè) DNS 解析服務(wù),例如你是在學(xué)校接入互聯(lián)網(wǎng),那么你的 DNS 服務(wù)器肯定在你的學(xué)校;如果你是在一個(gè)小區(qū)接入互聯(lián)網(wǎng)的,那這個(gè) DNS 就是提供給你接入互聯(lián)網(wǎng)的應(yīng)用提供商,即電信或者聯(lián)通。大約 80% 的域名解析都到這里就已經(jīng)完成了,所以 LDNS 主要承擔(dān)了域名的解析工作。
4、根域名服務(wù)器解析(Root Server)
如果 LDNS 沒(méi)有找到對(duì)應(yīng)的條目,則由運(yùn)營(yíng)商的 DNS 代我們的瀏覽器發(fā)起迭代 DNS 解析請(qǐng)求。它首先是會(huì)找根域的 DNS 的 IP 地址,找到根域的 DNS 地址,就會(huì)向其發(fā)起請(qǐng)求。然后根域名服務(wù)器返回給本地域名服務(wù)器一個(gè)所查詢(xún)域的主域名服務(wù)器(gTLD Server)地址。
5、主域名服務(wù)器(gTLD Server)
本地域名服務(wù)器(LDNS Server)再向上一步返回的 gTLD 服務(wù)器發(fā)送請(qǐng)求。
接受請(qǐng)求的 gTLD 服務(wù)器查找并返回此域名對(duì)應(yīng)的 Name Server 域名服務(wù)器的地址,這個(gè) Name Server 通常就是你注冊(cè)的域名服務(wù)器,例如你在某個(gè)域名服務(wù)提供商申請(qǐng)的域名,那么這個(gè)域名解析任務(wù)就由這個(gè)域名提供商的服務(wù)器來(lái)完成。
Name Server 域名服務(wù)器會(huì)查詢(xún)存儲(chǔ)的域名和IP的映射關(guān)系表,正常情況下都根據(jù)域名得到目標(biāo)IP記錄,連同一個(gè) TTL 值返回給 DNS Server 域名服務(wù)器。
下圖匯總了上面所說(shuō)的 DNS 解析過(guò)程:
三、TCP 的 3 次握手
拿到域名對(duì)應(yīng)的 IP 地址后,User-Agent(一般是指瀏覽器)會(huì)以一個(gè)隨機(jī)端口(1024 < 端口 < 65535)向服務(wù)器的 WEB 程序發(fā)起 TCP 的連接請(qǐng)求。
這里還涉及 ARP(地址解析協(xié)議):是根據(jù) IP 地址獲取物理地址 (MAC 地址) 的一個(gè)協(xié)議。
當(dāng)一個(gè)數(shù)據(jù)幀經(jīng)過(guò)多次路由到達(dá)目的網(wǎng)絡(luò)時(shí),路由器只能知道其數(shù)據(jù)幀中的目的 IP 地址,而不知目標(biāo)主機(jī)的硬件地址,網(wǎng)絡(luò)層使用的是 IP地址,但是在實(shí)際網(wǎng)絡(luò)鏈路上傳送數(shù)據(jù)幀時(shí),最終必須使用該網(wǎng)絡(luò)的硬件地址,此時(shí)需要目的主機(jī)的硬件地址,就要使用 ARP 來(lái)獲取到對(duì)應(yīng) IP 地址主機(jī)的物理地址。
這個(gè)連接請(qǐng)求(原始的 Http 請(qǐng)求經(jīng)過(guò) TCP/IP 4層模型的層層封包)到達(dá)服務(wù)器端后(這中間通過(guò)各種路由設(shè)備,局域網(wǎng)內(nèi)除外),進(jìn)入到網(wǎng)卡,然后是進(jìn)入到內(nèi)核的 TCP/IP 協(xié)議棧(用于識(shí)別該連接請(qǐng)求,解封包,一層一層的剝開(kāi)),還有可能要經(jīng)過(guò)Netfilter防火墻(屬于內(nèi)核的模塊)的過(guò)濾,最終到達(dá)WEB程序,最終建立了TCP/IP的連接。
Client 首先發(fā)送一個(gè)連接試探,SYN = 1 表示這是一個(gè)連接請(qǐng)求或連接接受報(bào)文,同時(shí)表示這個(gè)數(shù)據(jù)報(bào)不能攜帶數(shù)據(jù),seq = x 表示 Client 自己的初始序號(hào)(seq = 0 就代表這是第 0 號(hào)包),這時(shí)候 Client 進(jìn)入 syn_sent 狀態(tài),表示客戶(hù)端等待服務(wù)器的回復(fù)。
Server 監(jiān)聽(tīng)到連接請(qǐng)求報(bào)文后,如同意建立連接,則向 Client 發(fā)送確認(rèn)。報(bào)文中的 SYN 和 ACK 都置 1 ,ACK = x + 1 表示期望收到對(duì)方下一個(gè)報(bào)文段的第一個(gè)數(shù)據(jù)字節(jié)序號(hào)是 x+1,同時(shí)表明 x 為止的所有數(shù)據(jù)都已正確收到(ACK = 1 其實(shí)是 ACK = 0 + 1,也就是期望客戶(hù)端的第 1 個(gè)包),seq = y 表示 Server 自己的初始序號(hào)(seq = 0 就代表這是服務(wù)器這邊發(fā)出的第 0 號(hào)包)。這時(shí)服務(wù)器進(jìn)入 syn_rcvd,表示服務(wù)器已經(jīng)收到 Client 的連接請(qǐng)求,等待確認(rèn)。
Client 收到確認(rèn)后還需再次發(fā)送確認(rèn),同時(shí)攜帶要發(fā)送給 Server 的數(shù)據(jù)。ACK 置 1 表示確認(rèn)號(hào) ack= y + 1 有效(代表期望收到服務(wù)器的第 1 個(gè)包),Client自己的序號(hào) seq= x + 1(表示這就是我的第1個(gè)包,相對(duì)于第0個(gè)包來(lái)說(shuō)的),一旦收到Client的確認(rèn)之后,這個(gè)TCP連接就進(jìn)入 Established 狀態(tài),就可以發(fā)起請(qǐng)求了。
具體流程可以參看我之前的一篇文章《TCP、UDP、HTTP、HTTPS》。
四、Nginx 反向代理
1、反向代理
反向代理(Reverse Proxy)方式是指:代理服務(wù)器來(lái)接受 Internet 上的連接請(qǐng)求,然后將請(qǐng)求轉(zhuǎn)發(fā)給內(nèi)部網(wǎng)絡(luò)上的服務(wù)器,并將從內(nèi)部網(wǎng)絡(luò)上服務(wù)器得到的結(jié)果返回給 Internet 上請(qǐng)求連接的客戶(hù)端。此時(shí)代理服務(wù)器對(duì)外就表現(xiàn)為一個(gè)服務(wù)器,反向代理服務(wù)器對(duì)于客戶(hù)端而言它就像是原始服務(wù)器,并且客戶(hù)端不需要進(jìn)行任何特別的設(shè)置。
反向代理的作用:
保證內(nèi)網(wǎng)的安全,可以使用反向代理提供 WAF 功能,阻止 web 攻擊。
負(fù)載均衡,通過(guò)反向代理服務(wù)器來(lái)優(yōu)化網(wǎng)站的負(fù)載。
2、正向代理
既然有反向代理,就肯定有正向代理。什么叫正向代理呢?
正向代理(Forward Proxy)通常都被簡(jiǎn)稱(chēng)為代理,就是在用戶(hù)無(wú)法正常訪問(wèn)外部資源,可以通過(guò)代理的方式,讓用戶(hù)繞過(guò)防火墻,從而連接到目標(biāo)網(wǎng)絡(luò)或者服務(wù)。
正向代理的工作原理就像一個(gè)跳板。
比如:我訪問(wèn)不了 google.com,但是我能訪問(wèn)一個(gè)代理服務(wù)器 A,A 能訪問(wèn) google.com,于是我先連上代理服務(wù)器 A,告訴它我需要 google.com 的內(nèi)容,A 就去取回來(lái),然后返回給我。
從網(wǎng)站的角度,只在代理服務(wù)器來(lái)取內(nèi)容的時(shí)候有一次記錄,有時(shí)候并不知道是用戶(hù)的請(qǐng)求,也隱藏了用戶(hù)的資料,這取決于代理告不告訴網(wǎng)站。
正向代理是一個(gè)位于客戶(hù)端和原始服務(wù)器(origin server)之間的服務(wù)器。為了從原始服務(wù)器取得內(nèi)容,客戶(hù)端向代理發(fā)送一個(gè)請(qǐng)求并指定目標(biāo)(原始服務(wù)器),然后代理向原始服務(wù)器轉(zhuǎn)交請(qǐng)求并將獲得的內(nèi)容返回給客戶(hù)端。
3、正向代理與反向代理對(duì)比
五、關(guān)閉 TCP 連接
這一步不是所有的網(wǎng)頁(yè)都會(huì)這么做,例如網(wǎng)頁(yè)版微信就沒(méi)有關(guān)閉 TCP 連接,因?yàn)槲⑿派蟿e人可以隨時(shí)發(fā)消息給你,實(shí)際上別人先把消息發(fā)送到了微信服務(wù)器,微信服務(wù)器再通過(guò) TCP 鏈接,把消息推送到你的屏幕上。
試想一下,如果網(wǎng)頁(yè)版微信關(guān)閉了 TCP 連接會(huì)怎樣?
結(jié)果是:你不刷新網(wǎng)頁(yè),就永遠(yuǎn)收不到消息了。同時(shí),如果你頻繁的發(fā)消息給別人,那么就在頻繁的創(chuàng)建連接,關(guān)閉連接,這是很消耗資源的。所以微信就干脆不關(guān)閉 TCP 連接,這樣微信服務(wù)器就可以給我們的瀏覽器發(fā)消息。
下圖是一次 Http 請(qǐng)求報(bào)文頭部信息,其中 Connection: keep-alive 意味著這次請(qǐng)求結(jié)束后不會(huì)關(guān)閉 TCP 連接。
當(dāng)然不是所有的 HTTP 請(qǐng)求都沒(méi)有關(guān)閉連接,例如一篇博文,瀏覽器收到數(shù)據(jù)顯示就可以了,沒(méi)有那么多動(dòng)態(tài)數(shù)據(jù),我看完就關(guān)了,這時(shí)就應(yīng)該關(guān)閉 TCP 連接,當(dāng)然這還是取決于請(qǐng)求的服務(wù)器。說(shuō)了這么多,還沒(méi)說(shuō)關(guān)閉連接。
關(guān)閉 TCP 連接專(zhuān)業(yè)點(diǎn)說(shuō)叫做“四次揮手”,與 TCP 建立連接的“三次握手”相對(duì)應(yīng)。
由于TCP連接是全雙工的,因此每個(gè)方向都必須單獨(dú)進(jìn)行關(guān)閉。這原則是當(dāng)一方完成它的數(shù)據(jù)發(fā)送任務(wù)后就能發(fā)送一個(gè) FIN 來(lái)終止這個(gè)方向的連接。收到一個(gè) FIN 只意味著這一方向上沒(méi)有數(shù)據(jù)流動(dòng),一個(gè)TCP連接在收到一個(gè) FIN 后仍能發(fā)送數(shù)據(jù)。首先進(jìn)行關(guān)閉的一方將執(zhí)行主動(dòng)關(guān)閉,而另一方執(zhí)行被動(dòng)關(guān)閉。
具體流程可以參看我之前的一篇文章《TCP、UDP、HTTP、HTTPS》。
至此,一個(gè) Web 請(qǐng)求的大致流程差不多就是這樣,東西還是挺多的,如果有不完善的地方,歡迎大家補(bǔ)充。
參考鏈接
https://www.jianshu.com/p/558455228c43
·END·
程序員的成長(zhǎng)之路
路雖遠(yuǎn),行則必至
總結(jié)
以上是生活随笔為你收集整理的一个完整的 Web 请求到底发生了什么的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Web 服务器错误代码大全
- 下一篇: abp core版本添加额外应用层