03-缓存一致性---提高性能和引入CoreLink CCI-500
引流關(guān)鍵詞: bit.LITTLE,GPU,CCI,cache,緩存一致性,DSU
快速鏈接:
.
👉👉👉 個(gè)人博客筆記導(dǎo)讀目錄(全部) 👈👈👈
相關(guān)鏈接:
01-緩存一致性—基礎(chǔ)知識(shí)
02-緩存一致性—實(shí)現(xiàn)big.LITTLE、GPU 計(jì)算和企業(yè)應(yīng)用
03-緩存一致性—提高性能和引入CoreLink CCI-500
目錄
- 1、硬件一致性和窺探
- 2、Snoop Filter的介紹
- 3、電源&功耗優(yōu)勢(shì)
- 4、性能優(yōu)勢(shì)
- 5、高度可擴(kuò)展的解決方案
- 6、內(nèi)存帶寬需求增加
- 7、CoreLink CCI-500 提供更高的系統(tǒng)帶寬
- 8、Part of a Complete System
- 9、總結(jié)
- 10、參考
1、硬件一致性和窺探
緩存一致性的最簡(jiǎn)單實(shí)現(xiàn)是向所有處理器緩存廣播監(jiān)聽(tīng)以按需定位共享數(shù)據(jù)。當(dāng)緩存收到監(jiān)聽(tīng)請(qǐng)求時(shí),它會(huì)執(zhí)行標(biāo)簽數(shù)組查找以確定是否有數(shù)據(jù),并相應(yīng)地發(fā)送回復(fù)。
例如,在上圖中,我們可以看到箭頭顯示了 big 和 LITTLE 處理器集群之間的監(jiān)聽(tīng),以及從 IO 接口到兩個(gè)處理器集群的監(jiān)聽(tīng)。訪問(wèn)任何共享數(shù)據(jù)都需要這些窺探,以確保它們的緩存是硬件緩存一致的。換句話說(shuō),要確保所有處理器和 IO 看到相同的內(nèi)存視圖。
對(duì)于大多數(shù)工作負(fù)載,由于偵聽(tīng)請(qǐng)求而執(zhí)行的大多數(shù)查找將丟失,即它們無(wú)法在緩存中找到所請(qǐng)求數(shù)據(jù)的副本。這意味著許多偵聽(tīng)引起的查找可能是對(duì)帶寬和能量的不必要使用。當(dāng)然,我們已經(jīng)消除了軟件緩存維護(hù)的高得多的成本,但也許我們可以進(jìn)一步優(yōu)化它?
2、Snoop Filter的介紹
這就是窺探過(guò)濾器的用武之地。通過(guò)將窺探過(guò)濾器集成到互連中,我們可以維護(hù)處理器緩存內(nèi)容的目錄,并消除廣播窺探的需要。
監(jiān)聽(tīng)過(guò)濾器的原理如下:
- 所有緩存共享內(nèi)存的標(biāo)簽都存儲(chǔ)在互連的目錄中(snoop filter)
- 所有共享訪問(wèn)都將在此監(jiān)聽(tīng)過(guò)濾器中查找,該過(guò)濾器有兩種可能的響應(yīng):
HIT –> 數(shù)據(jù)在芯片上,提供了一個(gè)向量來(lái)指向包含數(shù)據(jù)的集群
MISS –> 從外部存儲(chǔ)器中取出
3、電源&功耗優(yōu)勢(shì)
由于集成了監(jiān)聽(tīng)濾波器,CoreLink CCI-500 與上一代互連相比,提供了內(nèi)存系統(tǒng)節(jié)能。這種節(jié)能的驅(qū)動(dòng)因素是執(zhí)行一次中央監(jiān)聽(tīng)查找而不是多次查找,并減少每次命中緩存的監(jiān)聽(tīng)對(duì)外部存儲(chǔ)器的訪問(wèn)。此外,它可以使處理器集群在監(jiān)聽(tīng)過(guò)濾器響應(yīng)一致性請(qǐng)求的同時(shí)更長(zhǎng)時(shí)間地保持低功耗睡眠狀態(tài)。
4、性能優(yōu)勢(shì)
移動(dòng)系統(tǒng)通常包括每個(gè)處理器集群的異步時(shí)鐘橋,跨這些橋進(jìn)行通信會(huì)導(dǎo)致延遲。相反,與互連監(jiān)聽(tīng)過(guò)濾器通信更快、更容易、功耗更低。這種減少的監(jiān)聽(tīng)延遲有利于處理器性能,基準(zhǔn)測(cè)試顯示內(nèi)存密集型處理器工作負(fù)載提高了 30%。這有助于使您的移動(dòng)設(shè)備更快、響應(yīng)更快,并加速視頻編輯等生產(chǎn)力應(yīng)用程序。
此外,通過(guò)減少窺探,系統(tǒng)中的處理器可以將其資源集中在處理性能上,而不是對(duì)窺探做出響應(yīng)。實(shí)際上,這意味著用戶(hù)將擁有可以提供更高性能同時(shí)需要更少功率的 SoC。
5、高度可擴(kuò)展的解決方案
隨著設(shè)計(jì)團(tuán)隊(duì)尋求釋放更高的計(jì)算性能,許多市場(chǎng)都出現(xiàn)了多集群 SoC 的一致趨勢(shì)。擴(kuò)展到具有更多處理器集群的更高帶寬系統(tǒng)將為監(jiān)聽(tīng)過(guò)濾器帶來(lái)更大的好處。事實(shí)上,當(dāng)將性能擴(kuò)展到兩個(gè)處理器集群之外時(shí),它變得至關(guān)重要。CoreLink CCI-500 具有高度可擴(kuò)展性,支持 1 到 4 個(gè) ACE 接口(例如 1 到 4 個(gè)處理器集群)的配置。雖然雙集群 big.LITTLE 仍將是移動(dòng)領(lǐng)域的標(biāo)準(zhǔn),但互連可以支持未來(lái)?yè)碛懈嗵幚砥骰蛲耆恢碌?GPU 和加速器。CoreLink CCI-500 通過(guò)分布式虛擬內(nèi)存 (DVM) 消息傳輸,完全支持處理器和共享虛擬內(nèi)存之間完全硬件一致性的異構(gòu)系統(tǒng)架構(gòu) (HSA) 概念。CoreLink CCI-400 自 2011 年以來(lái)就支持這一點(diǎn),CoreLink CCI-500 對(duì)此進(jìn)行了改進(jìn),具有更高的可擴(kuò)展性和可配置性。
基礎(chǔ)設(shè)施網(wǎng)絡(luò)和服務(wù)器應(yīng)用程序已經(jīng)在處理器和 IO 之間擁有很高比例的共享內(nèi)存訪問(wèn);ARM CoreLink CCN Cache Coherent Network 系列產(chǎn)品已經(jīng)包含集成的監(jiān)聽(tīng)過(guò)濾器,以確保這些應(yīng)用程序所期望的高性能和低延遲。CoreLink CCN 系列仍然是最高性能的一致性互連 IP,支持多達(dá) 12 個(gè)集群(48 個(gè)內(nèi)核)、集成的 3 級(jí)系統(tǒng)緩存和超過(guò) 1GHz 的時(shí)鐘速度。CoreLink CCI-500 針對(duì)移動(dòng)和其他功率受限應(yīng)用所需的性能和功率包絡(luò)進(jìn)行了優(yōu)化。互補(bǔ)的CoreLink NIC-400 網(wǎng)絡(luò)互連 提供 IO 相干請(qǐng)求者和成百上千的外設(shè)和接口所需的低功耗、低延遲“SoC 的其余部分”連接。
沒(méi)有“一刀切”的互連,相反,ARM 擁有一系列針對(duì)每種應(yīng)用的需求進(jìn)行了優(yōu)化的產(chǎn)品。
6、內(nèi)存帶寬需求增加
包括智能手機(jī)和平板電腦在內(nèi)的移動(dòng)設(shè)備的性能每一代都在提高;事實(shí)上,平板電腦正在取代許多筆記本電腦購(gòu)買(mǎi)。SoC 性能的一個(gè)關(guān)鍵維度是內(nèi)存帶寬,而這受到屏幕分辨率、3D 游戲、多個(gè)更高分辨率的攝像頭和超高分辨率外部顯示器的推動(dòng)。“Retina”級(jí)顯示分辨率在移動(dòng)設(shè)備上已經(jīng)司空見(jiàn)慣,而超高清 4K 已經(jīng)在高端電視上出現(xiàn)幾年了。我們看到 4K 內(nèi)容出現(xiàn)在移動(dòng)設(shè)備中只是時(shí)間問(wèn)題。
為了支持這種內(nèi)存帶寬的增加,SoC 供應(yīng)商正在尋求最新的低功耗雙倍數(shù)據(jù)速率 (LPDDR) 動(dòng)態(tài) RAM (DRAM) 技術(shù)。LPDDR3 是 2013 年消費(fèi)設(shè)備中的成熟技術(shù),而 LPDDR4 出現(xiàn)在 2014 年的一些設(shè)備中,并將在 2015 年繼續(xù)提高其在移動(dòng)和非移動(dòng)應(yīng)用程序中的采用率。每一代 LPDDR 都會(huì)降低電壓,但會(huì)增加接口頻率,最終結(jié)果是:更高的帶寬和更低的每比特能量。單個(gè) 32 位 LPDDR4-3200 接口將提供 12.8GB/s,這是當(dāng)今高端智能手機(jī)的典型特征。
7、CoreLink CCI-500 提供更高的系統(tǒng)帶寬
對(duì)于移動(dòng)設(shè)備,32 位內(nèi)存通道很常見(jiàn),從用于低成本入門(mén)智能手機(jī)的單通道,到用于高端智能手機(jī)的雙通道,再到用于最高性能平板電腦的四通道。
CoreLink CCI-500 通過(guò)支持多達(dá) 4 個(gè)內(nèi)存通道,提供高達(dá) CoreLink CCI-400 峰值系統(tǒng)帶寬的兩倍。這可以讓合作伙伴構(gòu)建支持每秒 34GB 及以上的內(nèi)存系統(tǒng),從而實(shí)現(xiàn)高性能、高分辨率的平板電腦計(jì)算。當(dāng)然,多個(gè)應(yīng)用程序的可擴(kuò)展性很重要,CoreLink CCI-500 可以配置 1 到 4 個(gè)內(nèi)存通道以滿足性能要求。
8、Part of a Complete System
ARM CoreLink 互連的最大優(yōu)勢(shì)之一是,它與我們的 Cortex 和 Mali 處理器產(chǎn)品一起開(kāi)發(fā)、驗(yàn)證和優(yōu)化,并具有合作伙伴期望的高質(zhì)量水平。本周的發(fā)布還宣布了 Cortex-A72,ARM 的最高性能 Cortex 處理器,Mali-T880 GPU,我們最新的 Mali-V550 視頻和 Mali-DP550 顯示 IP 的高端配置以及用于 16 FinFet 的 Artisan 物理 IP。
為完善 SoC,ARM 還提供了一套完整的系統(tǒng) IP,包括用于低功耗、低延遲、端到端連接到 SoC 其余部分的 CoreLink NIC-400 網(wǎng)絡(luò)互連、用于 IO 虛擬化的 CoreLink MMU-500 系統(tǒng) MMU 和CoreLink GIC-500 用于管理跨多個(gè)集群的中斷,更不用說(shuō)用于調(diào)試和跟蹤的 CoreSight。所有這一切的核心是 CoreLink CCI-500 緩存相干互連。
9、總結(jié)
正如我們從企業(yè)應(yīng)用程序中開(kāi)始的許多其他計(jì)算功能中看到的那樣,移動(dòng) SoC 正在迅速趕上跨芯片的共享流量。這證明移動(dòng)計(jì)算能力仍在穩(wěn)步發(fā)展,并融合了許多幾年前才引入高級(jí)筆記本電腦的功能。移動(dòng)設(shè)備現(xiàn)在本身就是高性能設(shè)備這一事實(shí)應(yīng)該不足為奇
10、參考
Extended System Coherency - Part 3 – Increasing Performance and Introducing CoreLink CCI-500
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專(zhuān)家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的03-缓存一致性---提高性能和引入CoreLink CCI-500的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 02-缓存一致性---实现big.LIT
- 下一篇: CoreLink CCI-550的概念介