清华出品:一文看尽AI芯片两类瓶颈三大趋势,存储技术开拓新疆界 | 附全文...
12月10日—11日,由北京未來芯片技術(shù)高精尖創(chuàng)新中心和清華大學(xué)微電子學(xué)研究所聯(lián)合主辦的「第三屆未來芯片論壇:可重構(gòu)計(jì)算的黃金時(shí)代」在清華大學(xué)主樓舉辦,并正式發(fā)布了《人工智能芯片技術(shù)白皮書(2018)》(以下簡(jiǎn)稱《白皮書》),同期《白皮書》電子版在機(jī)器之心同步首發(fā)。
撰文 | 四月
人工智能熱潮面前,淘金洼地接踵而至,安防、醫(yī)療、零售、出行、教育、制造業(yè)……因循守舊的傳統(tǒng)行業(yè)正因?yàn)槿斯ぶ悄艿那度攵鵁òl(fā)出更多維度的商業(yè)機(jī)會(huì),而這些機(jī)會(huì)都離不開基礎(chǔ)層算力的支持,于是「AI 芯片」成為了 2018 年度最為熱門的關(guān)鍵詞之一。
然而,一個(gè)尷尬卻無奈的現(xiàn)實(shí)正橫亙?cè)谌斯ぶ悄苈涞刂飞稀懔ψ浇笠娭?#xff0c;走出測(cè)試階段的 AI 芯片寥寥無幾,特定計(jì)算需求無法滿足,導(dǎo)致再完美的算法也難以在實(shí)際場(chǎng)景中運(yùn)行。
最典型的例子,安防市場(chǎng)談智能終端攝像頭已經(jīng)有兩三年時(shí)間,盡管巨頭新秀的口號(hào)此起彼伏,但迫于芯片市場(chǎng)進(jìn)度滯后,該類攝像頭至今仍未普及開來。但與此同時(shí),算力的進(jìn)步恰恰來自于算法的迭代和優(yōu)化。算法和算力——雞和蛋的互生問題,正在相互促進(jìn)卻又在彼此制約中發(fā)展。
今天,機(jī)器之心帶來一篇深刻講述 AI 芯片產(chǎn)業(yè)發(fā)展全貌的權(quán)威報(bào)告——由清華大學(xué)—北京未來芯片技術(shù)高精尖創(chuàng)新中心聯(lián)合發(fā)布的《人工智能芯片技術(shù)白皮書(2018)》。
《白皮書》編寫團(tuán)隊(duì)資深權(quán)威,包括斯坦福大學(xué)、清華大學(xué)、香港科技大學(xué)、臺(tái)灣新竹清華大學(xué)及北京半導(dǎo)體行業(yè)協(xié)會(huì),新思科技等在內(nèi)的領(lǐng)域頂尖研究者和產(chǎn)業(yè)界資深專家,10 余位 IEEE Fellow,共同編寫完成。
《白皮書》發(fā)布儀式現(xiàn)場(chǎng),照片從左至右分別為劉勇攀、尹首一、X.Sharon Hu、Kwang-Ting Tim Cheng、魏少軍、唐杉、Yiran Chen、吳華強(qiáng)。
《白皮書》以積極的姿態(tài)分享了近兩年來 AI 芯片與算法領(lǐng)域的諸多創(chuàng)新成果,通過客觀闡述 AI 芯片在軟硬件層面的技術(shù)難度,剖析 AI 芯片目前所處的產(chǎn)業(yè)地位、發(fā)展機(jī)遇與需求趨勢(shì),梳理 AI 芯片產(chǎn)業(yè)現(xiàn)狀及各種技術(shù)路線,增進(jìn)產(chǎn)業(yè)人士和從業(yè)者對(duì)于 AI 芯片市場(chǎng)的風(fēng)險(xiǎn)預(yù)判,以更為自信和從容的姿態(tài)迎接芯片市場(chǎng)的新機(jī)遇和新挑戰(zhàn)。
一、AI 芯片的基本定義
《白皮書》第一、二、三章開宗明義,綜述了 AI 芯片的技術(shù)背景,從多個(gè)維度提出了滿足不同場(chǎng)景條件下理想的 AI?芯片和硬件平臺(tái)的關(guān)鍵特征,提出 AI 芯片技術(shù)的重要地位以及對(duì)于我國(guó)未來芯片及人工智能領(lǐng)域發(fā)展的意義。
業(yè)界關(guān)于 AI 芯片的定義仍然缺乏一套嚴(yán)格和公認(rèn)的標(biāo)準(zhǔn)。比較寬泛的看法是,面向人工智能應(yīng)用的芯片都可以稱為 AI 芯片。由于需求的多樣性,很難有任何單一的設(shè)計(jì)和方法能夠很好地適用于各類情況。因此,學(xué)界和業(yè)界涌現(xiàn)出多種專門針對(duì)人工智能應(yīng)用的新穎設(shè)計(jì)和方法,覆蓋了從半導(dǎo)體材料、器件、電 路到體系結(jié)構(gòu)的各個(gè)層次。
該《白皮書》探討的 AI?芯片主要包括三類:
1)經(jīng)過軟硬件優(yōu)化可以高效支持?AI?應(yīng)用的通用芯片,例如?GPU ;
2)側(cè)重加速機(jī)器學(xué)習(xí)(尤其是神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí))算法的芯片,這也是目前?AI?芯片中最多的形式?;
3)受生物腦啟發(fā)設(shè)計(jì)的神經(jīng)形態(tài)計(jì)算芯片。
AI 技術(shù)的落地需要來自多個(gè)層面的支持,貫穿了應(yīng)用、算法機(jī)理、芯片、工具鏈、器件、工藝和材料等技術(shù)層級(jí)。各個(gè)層級(jí)環(huán)環(huán)緊扣形成AI的技術(shù)鏈,而AI芯片本身處于整個(gè)鏈條的中部,向上為應(yīng)用和算法提供高效支持,向下對(duì)器件和電路、工藝和材料提出需求。
針對(duì)應(yīng)用目標(biāo)是「訓(xùn)練」還是「推斷」,把?AI?芯片的目標(biāo)領(lǐng)域分成?4?個(gè)象限。
1、云端AI計(jì)算
面向云端?AI?應(yīng)用,很多公司開始嘗試設(shè)計(jì)專用芯片以達(dá)到更高的效率,其中最著名的例子是?Google TPU,可以支持搜索查詢、翻譯等應(yīng)用,也是?AlphaGo 的幕后英雄。
由于使用了專用架構(gòu),TPU?實(shí)現(xiàn)了比同時(shí)期?CPU?和?GPU?更高的效率。
針對(duì)云端的訓(xùn)練和推斷市場(chǎng),從芯片巨頭到初創(chuàng)公司都高度重視。英特爾宣布推出?Nervana 神經(jīng)網(wǎng)絡(luò)處理器?(NNP),可以優(yōu)化 32GB HBM2、1TB/s?帶寬和?8Tb/s 訪問速度的神經(jīng)網(wǎng)絡(luò)計(jì)算。 初創(chuàng)公司,如Graphcore、Cerebras、Wave Computing、寒武紀(jì)及比特大陸等也加入了競(jìng)爭(zhēng)的行列。
此外,FPGA?在云端的推斷也逐漸在應(yīng)用中占有一席之地。
微軟的 Brainwave 項(xiàng)目和百度?XPU?都顯示,在處理小批量情況下,FPGA 具有出色的推斷性能。目前,?FPGA?的主要廠商如?Xilinx、Intel?都推出了專門針對(duì)?AI?應(yīng)用的?FPGA?硬件(支持更高的存儲(chǔ)帶寬)和軟件工具;主要的云服務(wù)廠商,比如亞馬遜、微軟及阿里云等推出了專門的云端?FPGA?實(shí)例來支持 AI 應(yīng)用。
2、邊緣 AI 計(jì)算
邊緣設(shè)備的覆蓋范圍其應(yīng)用場(chǎng)景也五花八門。比如自動(dòng)駕駛汽車可能就需要一個(gè)很強(qiáng)的計(jì)算設(shè)備,而在可穿戴領(lǐng)域,則要在嚴(yán)格的功耗和成本約束下實(shí)現(xiàn)一定的智能 。
目前應(yīng)用最為廣泛的邊緣計(jì)算設(shè)備來自于智能手機(jī),蘋果、華為、高通、聯(lián)發(fā)科和三星等手機(jī)芯片廠商紛紛推出或者正在研發(fā)專門適應(yīng)AI應(yīng)用的芯片產(chǎn)品。創(chuàng)業(yè)公司層面,主要為邊緣計(jì)算設(shè)備提供芯片和系統(tǒng)方案,比如地平線機(jī)器人、寒武紀(jì)、深鑒科技、元鼎音訊等。
傳統(tǒng)的 IP 廠商,包括?ARM、Synopsys?等公司也都為手機(jī)、智能攝像頭、無人機(jī)、工業(yè)和服務(wù)機(jī)器人、智能音箱以及各種物聯(lián)網(wǎng)設(shè)備等邊緣計(jì)算設(shè)備開發(fā)專用?IP?產(chǎn)品。
自動(dòng)駕駛是未來邊緣?AI?計(jì)算的最重要應(yīng)用之一,MobileEye SOC?和?NVIDA Drive PX?系列提供神經(jīng)網(wǎng)絡(luò)的處理能力可以支持半自動(dòng)駕駛和完全自動(dòng)駕駛。
3、云和端的融合
總的來說,云和端各有其優(yōu)勢(shì)和明顯短板。云側(cè)AI處理主要強(qiáng)調(diào)精度、處理能力、內(nèi)存容量和帶寬,同時(shí)追求低延時(shí)和低功耗;邊緣設(shè)備中的?AI?處理則主要關(guān)注功耗、響應(yīng)時(shí)間、體積、成本和隱私安全等問題。
在實(shí)際應(yīng)用中,云和邊緣設(shè)備在各種 AI 應(yīng)用中往往是配合工作。最普遍的方式是在云端訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后在云端(由邊緣設(shè)備采集數(shù)據(jù))或者邊緣設(shè)備進(jìn)行推斷。隨著邊緣設(shè)備能力不斷增強(qiáng),云的邊界逐漸向數(shù)據(jù)的源頭,AI處理將分布在各類網(wǎng)絡(luò)設(shè)備中,未來云和邊緣設(shè)備以及連接他們的網(wǎng)絡(luò)可能會(huì)構(gòu)成一個(gè)巨大的 AI 處理網(wǎng)絡(luò),它們之間的協(xié)作訓(xùn)練和推斷也是一個(gè)有待探索的方向。
二、突破 AI 芯片兩大困境
《白皮書》第四章分析在 CMOS 工藝特征尺寸逐漸逼近極限的大背景下,結(jié)合 AI 芯片面臨的架構(gòu)挑戰(zhàn),AI 芯片的技術(shù)趨勢(shì)。一方面,研究具有生物系統(tǒng)優(yōu)點(diǎn)而規(guī)避速度慢等缺點(diǎn)的新材料和新器件,采用新的計(jì)算架構(gòu)和計(jì)算范式,另一方面,將芯片集成從二維平面向三維空間拓展,采用更為先進(jìn)的集成手段和集成工藝,將是 AI 芯片技術(shù)在很長(zhǎng)一段時(shí)期內(nèi)的兩條重要的路徑。
1、馮·諾伊曼的「內(nèi)存墻」
在傳統(tǒng)馮·諾伊曼體系結(jié)構(gòu)中,數(shù)據(jù)從處理單元外的存儲(chǔ)器提取,處理完之后在寫回存儲(chǔ)器。在 AI?芯片實(shí)現(xiàn)中,由于訪問存儲(chǔ)器的速度無法跟上運(yùn)算部件消耗數(shù)據(jù)的速度,再增加運(yùn)算部件也無法得到充分利用,即形成所謂的馮·諾伊曼「瓶頸」,或「內(nèi)存墻」問題,是長(zhǎng)期困擾計(jì)算機(jī)體系結(jié)構(gòu)的難題。
提高 AI 芯片性能和能效的關(guān)鍵之一在于支持高效的數(shù)據(jù)訪問。目前常見的方法是利用高速緩存 (Cache) 等層次化存儲(chǔ)技術(shù)盡量緩解運(yùn)算和存儲(chǔ)的速度差異。
從上圖可見,AI?芯片中需要存儲(chǔ)和處理的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于之前常見的應(yīng)用。 比如,在常見的深度神經(jīng)網(wǎng)絡(luò)的主要參數(shù)中,VGG16?網(wǎng)絡(luò)需要?138M?個(gè)權(quán)重參數(shù),一次推斷過程需要?15.5G?次乘累加運(yùn)算。
不夸張地說,大部分針對(duì) AI,特別是加速神經(jīng)網(wǎng)絡(luò)處理而提出的硬件架構(gòu)創(chuàng)新都是在和馮·諾伊曼的瓶頸做斗爭(zhēng)。概括來說,在架構(gòu)層面解決這一問題的基本思路有兩種?:
1)減少訪問存儲(chǔ)器的數(shù)量,比如減少神經(jīng)網(wǎng)絡(luò)的存儲(chǔ)需求(參數(shù)數(shù)量,數(shù)據(jù)精度,中間結(jié)果)、 數(shù)據(jù)壓縮和以運(yùn)算換存儲(chǔ)等 ;
2)降低訪問存儲(chǔ)器的代價(jià),盡量拉近存儲(chǔ)設(shè)備和運(yùn)算單元的「距離」,甚至直接在存儲(chǔ)設(shè)備中進(jìn)行運(yùn)算。
2、摩爾定律「失效」
由于基礎(chǔ)物理原理限制和經(jīng)濟(jì)的原因,持續(xù)提高集成密度將變得越來越困難。目前,CMOS 器件的橫向尺寸接近幾納米,層厚度只有幾個(gè)原子層,這會(huì)導(dǎo)致顯著的電流泄漏,降低工藝尺寸縮小的效果。此外,這些納米級(jí)晶體管的能量消耗非常高,很難實(shí)現(xiàn)密集封裝。
另外,目前 DRAM?技術(shù)已經(jīng)接近極限,而物聯(lián)網(wǎng) (IoT)、社交媒體和安全設(shè)備產(chǎn)生的大量數(shù)據(jù)所需要的存儲(chǔ)、交換和處理都需要大量的存儲(chǔ)器。非易失存儲(chǔ)技術(shù)的主力是?NAND?閃存,最先進(jìn)的 3D NAND?具有多達(dá)?64?層和?256 Gb?的容量,預(yù)計(jì)于?2018?年進(jìn)入市場(chǎng)。
由于?DRAM?和?NAND?閃存都是獨(dú)立于計(jì)算核心的,即使采用最小的 SRAM?單元填充?1?平方厘米芯片面積的一半,也只有約?128?兆的片上存儲(chǔ)容量。因此,我們有充足的理由開發(fā)提供大量存儲(chǔ)空間的片上存儲(chǔ)器技術(shù),并探索利用片上存儲(chǔ)器去構(gòu)建未來的智能芯片架構(gòu)。
在計(jì)算架構(gòu)和器件層面,類腦芯片是一個(gè)不錯(cuò)的思路。神經(jīng)元和大腦突觸的能量消耗比最先進(jìn)的?CMOS?器件還低幾個(gè)數(shù)量級(jí)。理想情況下,我們需要具有生物系統(tǒng)優(yōu)點(diǎn)而規(guī)避速度慢等缺點(diǎn)的器件和材料。
近年來,可以存儲(chǔ)模擬數(shù)值的非易失性存儲(chǔ)器發(fā)展迅猛,它可以同時(shí)具有存儲(chǔ)和處理數(shù)據(jù)能力,可以破解傳統(tǒng)計(jì)算 體系結(jié)構(gòu)的一些基本限制,有望實(shí)現(xiàn)類腦突觸功能。
三、架構(gòu)設(shè)計(jì)之三大趨勢(shì)
《白皮書》第五章討論了建立在當(dāng)前 CMOS 技術(shù)集成上的云端和邊緣 AI 芯片架構(gòu)創(chuàng)新。針對(duì)不同計(jì)算場(chǎng)景和不同計(jì)算需求,云端和終端芯片的架構(gòu)設(shè)計(jì)趨勢(shì)將朝不同的方向發(fā)展,而軟件定義芯片已經(jīng)成為靈活計(jì)算領(lǐng)域的主流。
1、云端訓(xùn)練和推斷:大存儲(chǔ)、高性能、可伸縮
雖然訓(xùn)練和推斷在數(shù)據(jù)精度、架構(gòu)靈活和實(shí)時(shí)性要求上有一定的差別,但它們?cè)谔幚砟芰?吞吐率)、可伸縮可擴(kuò)展能力以及功耗效率上具有類似的需求。
NVIDA?的?V100 GPU?和?Google 的?Cloud TPU 是目前云端商用?AI?芯片的標(biāo)桿。
(Cloud TPU 的機(jī)柜包括 64 個(gè) TPU2,能夠?yàn)闄C(jī)器學(xué)習(xí)的訓(xùn)練任務(wù)提供 11.5 PFLOPS 的處理能力和 4 TB 的 HBM 存儲(chǔ)器。這些運(yùn)算資源還可以靈活地分配和伸縮,能夠有效支持不同的應(yīng)用需求。)
從 NVIDA 和 Goolge 的設(shè)計(jì)實(shí)踐我們可以看出云端 AI 芯片在架構(gòu)層面,技術(shù)發(fā)展呈現(xiàn)三大特點(diǎn)和趨勢(shì):
1)存儲(chǔ)的需求 (容量和訪問速度) 越來越高。未來云端 AI 芯片會(huì)有越來越多的片上存儲(chǔ)器 (比如 Graphcore 公司就在芯片上實(shí)現(xiàn)的 300MB 的 SRAM),以及能夠提供高帶寬的片外存儲(chǔ)器 (HBM2 和其它新型封裝形式)。
2)處理能力推向每秒千萬(wàn)億次 (PetaFLOPS),并支持靈活伸縮和部署。對(duì)云端 AI 芯片來說,單芯 片的處理能力可能會(huì)達(dá)到 PetaFLOPS 的水平。實(shí)現(xiàn)這一目標(biāo)除了要依靠 CMOS 工藝的進(jìn)步,也需要靠架構(gòu)的創(chuàng)新。比如在 Google 第一代 TPU 中,使用了脈動(dòng)陣列 (Systolic Array) 架構(gòu),而在 NVIDA 的 V100GPU 中,專門增加了張量核來處理矩陣運(yùn)算。
3)專門針對(duì)推斷需求的 FPGA 和 ASIC。推斷和訓(xùn)練相比有其特殊性,更強(qiáng)調(diào)吞吐率、能效和實(shí)時(shí)性,未來在云端很可能會(huì)有專門針對(duì)推斷的 ASIC 芯片 (Google 的第一代 TPU 也是很好的例子),提供更好的能耗效率并實(shí) 現(xiàn)更低的延時(shí)。
2、邊緣設(shè)備:把效率推向極致。
相對(duì)云端應(yīng)用,邊緣設(shè)備的應(yīng)用需求和場(chǎng)景約束要復(fù)雜很多,針對(duì)不同的情況可能需要專門的架構(gòu)設(shè)計(jì)。拋開需求的復(fù)雜性,目前的邊緣設(shè)備主要是執(zhí)行「推斷」。衡量 AI 芯片實(shí)現(xiàn)效率的一個(gè)重要指標(biāo)是能耗效率——TOPs/W,這也成為很多技術(shù)創(chuàng)新競(jìng)爭(zhēng)的焦點(diǎn)。在 ISSCC2018 會(huì)議上,就出現(xiàn)了單比特能效達(dá)到 772 TOPs/W 的驚人數(shù)據(jù)。
在提高推斷效率和推斷準(zhǔn)確率允許范圍內(nèi)的各種方法中,降低推斷的量化比特精度是最有效的方法。此外,提升基本運(yùn)算單元 (MAC) 的效率可以結(jié)合一些數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換來減少運(yùn)算量,比如通過快速傅里葉變換 (FFT) 變換來減少矩陣運(yùn)算中的乘法;還可以通過查表的方法來簡(jiǎn)化 MAC 的實(shí)現(xiàn)等。
另一個(gè)重要的方向是減少對(duì)存儲(chǔ)器的訪問,這也是緩解馮·諾伊曼「瓶頸」問題的基本方法。利用這樣的稀疏性特性,再有就是拉近運(yùn)算和存儲(chǔ)的距離,即的概念,比如把神經(jīng)網(wǎng)絡(luò)運(yùn)算放在傳感器或者存儲(chǔ)器中。
3、軟件定義芯片
對(duì)于復(fù)雜的 AI 任務(wù),甚至需要將多種不同類型的 AI 算法組合在一起。即使是同一類型的 AI 算法,也會(huì)因?yàn)榫唧w任務(wù)的計(jì)算精度、性能和能效等需求不同,具有不同計(jì)算參數(shù)。因此,AI 芯片必須具備一個(gè)重要特性:能夠?qū)崟r(shí)動(dòng)態(tài)改變功能,滿足軟件不斷變化的計(jì)算需求,即「軟件定義芯片」。
可重構(gòu)計(jì)算技術(shù)允許硬件架構(gòu)和功能隨軟件變化而變化,具備處理器的靈活性和專用集成電路的高性能和低功耗,是實(shí)現(xiàn)「軟件定義芯片」的核心,被公認(rèn)為是突破性的下一代集成電路技術(shù)。清華大學(xué)微電子所設(shè)計(jì)的 AI 芯片 (代號(hào) Thinker),采用可重構(gòu)計(jì)算架構(gòu),能夠支持卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等多種 AI 算法。
Thinker 芯片通過三個(gè)層面的可重構(gòu)計(jì)算技術(shù),來實(shí)現(xiàn)「軟件定義芯片」,最高能量效率達(dá)到了 5.09TOPS/W :
1. 計(jì)算陣列重構(gòu):Thinker 芯片每個(gè)計(jì)算單元可以根據(jù)算法所需要的基本算子不同而進(jìn)行功能重構(gòu),支持計(jì)算陣列的按需資源劃分以提高資源利用率和能量效率。
2. 存儲(chǔ)帶寬重構(gòu) :Thinker 芯片的片上存儲(chǔ)帶寬能夠根據(jù) AI 算法的不同而進(jìn)行重構(gòu)。存儲(chǔ)內(nèi)的數(shù)據(jù)分布會(huì)隨著帶寬的改變而調(diào)整,以提高數(shù)據(jù)復(fù)用性和計(jì)算并行度,提高了計(jì)算吞吐和能量效率。
3. 數(shù)據(jù)位寬重構(gòu) :為了滿足 AI 算法多樣的精度需求,Thinker 芯片的計(jì)算單元支持高低 (16/8 比特) 兩種數(shù)據(jù)位寬重構(gòu)。高比特模式下計(jì)算精度提升,低比特模式下計(jì)算單元吞吐量提升進(jìn)而提高性能。
采用可重構(gòu)計(jì)算技術(shù)之后,軟件定義的層面不僅僅局限于功能這一層面。算法的計(jì)算精度、性能和能效等都可以納入軟件定義的范疇。
四、新興存儲(chǔ)技術(shù)打開新思路
《白皮書》第六章主要介紹對(duì) AI 芯片至關(guān)重要的存儲(chǔ)技術(shù),包括傳統(tǒng)存儲(chǔ)技術(shù)的改進(jìn)和基于新興非易失存儲(chǔ)(NVM)的存儲(chǔ)器解決方案。
可以預(yù)見的是,從器件到體系結(jié)構(gòu)的全面創(chuàng)新或?qū)①x予 AI 芯片更強(qiáng)的能力。近期,面向數(shù)字神經(jīng)網(wǎng)絡(luò)的加速器 (GPU、 FPGA 和 ASIC) 迫切需要 AI 友好型存儲(chǔ)器 ;中期,基于存內(nèi)計(jì)算的神經(jīng)網(wǎng)絡(luò)可以為規(guī)避馮·諾依曼瓶頸問題提供有效的解決方案 ;最后,基于憶阻器的神經(jīng)形態(tài)計(jì)算可以模擬人類的大腦,是 AI 芯片遠(yuǎn)期解決方案的候選之一。
1、AI 友好型存儲(chǔ)器
上圖顯示了新興存儲(chǔ)技術(shù)中帶寬和容量的快速增長(zhǎng)。新興的 NVM 由于其相對(duì)較大的帶寬和迅速增長(zhǎng)的容量,可以在 AI 芯片的存儲(chǔ)技術(shù)中發(fā)揮至關(guān)重要的作用。對(duì)于嵌入式應(yīng)用,NVM 的片上存儲(chǔ)器也可以提供比傳統(tǒng) NVM 更好的存取速度和低功耗,可在非常有限的功率下工作,這對(duì)于物聯(lián)網(wǎng)邊緣設(shè)備上的 AI 芯片特別具有吸引力。
2、片外存儲(chǔ)器
3D 集成已經(jīng)被證明是增加商業(yè)存儲(chǔ)器的帶寬和容量的有效策略,其可以通過使用從底部到頂部的硅通孔 (TSV) 技術(shù),堆疊多個(gè)管芯或者單片制造的方法來完成。DRAM 的代表作品包括 HBM 和混合存儲(chǔ)器立方體 (HMC)。
上圖顯示了 NVIDA 的 GPU 產(chǎn)品與 HBM 集成的 AI 應(yīng)用程序。對(duì)于 NAND 閃存,3D NAND 正在深入研究。最近,三星已經(jīng)開發(fā)出 96 層 3D NAND。
3、片上(嵌入型)存儲(chǔ)器
由于能夠連接邏輯和存儲(chǔ)器電路,并且與邏輯器件完全兼容,SRAM 是不可或缺的片上存儲(chǔ)器,其性能和密度不斷受益于 CMOS 的尺寸縮放。其易失性使得芯片上或芯片外的非易失性存儲(chǔ)器成為必須。當(dāng)前主要和新興存儲(chǔ)器的器件指標(biāo)如下:?
此外,自旋力矩傳輸存儲(chǔ)器 (STT-MRAM) 由于其高耐久性和高速度被認(rèn)為是 DRAM 的替代品。
五、五大計(jì)算技術(shù)開辟疆界
《白皮書》第七章重點(diǎn)討論 AI 芯片在工藝、器件、電路和存儲(chǔ)器方面的前沿研究工作,和以此為基礎(chǔ)的存內(nèi)計(jì)算、生物神經(jīng)網(wǎng)絡(luò)等新技術(shù)趨勢(shì)。
雖然成熟的 CMOS 器件已被用于實(shí)現(xiàn)這些新的計(jì)算范例,但是新興器件有望在未來進(jìn)一步顯著提高系統(tǒng)性 能并降低電路復(fù)雜性。這其中包括近內(nèi)存計(jì)算、存內(nèi)計(jì)算,以及基于新型存儲(chǔ)器的人工神經(jīng)網(wǎng)絡(luò)和生物神經(jīng)網(wǎng)絡(luò)。
基于新興非易失性存儲(chǔ)器件的人工神經(jīng)網(wǎng)絡(luò)計(jì)算最近引起了人們的極大關(guān)注。這些器件包括鐵電存儲(chǔ)器 (FeRAM)、磁隧道結(jié)存儲(chǔ)器 (MRAM)、相變存儲(chǔ)器 (PCM) 和阻變存儲(chǔ)器 (RRAM) 等,它們可用于構(gòu)建待機(jī)功耗極低的存儲(chǔ)器陣列。更重要的是,它們都可能成為模擬存內(nèi)計(jì)算 (Analog In-memory Computing) 的基礎(chǔ)技術(shù),實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)功能的同時(shí)參與數(shù)據(jù)處理。這些器件一般都以交叉陣列 (crossbar) 的形態(tài)實(shí)現(xiàn),其輸入 / 輸出信號(hào)穿過構(gòu)成行列的節(jié)點(diǎn)。
上圖就是一個(gè) RRAM 交叉陣列的例子,其中矩陣權(quán)重被表示為電導(dǎo)。交叉陣列非常自然地實(shí)現(xiàn)了向量和矩陣乘法,使用圖中集成 1024 單元的陣列進(jìn)行并行在線訓(xùn)練,清華大學(xué)吳華強(qiáng)課題組在國(guó)際上首次成功實(shí)現(xiàn)了灰度人臉分類。
另一種更具生物啟發(fā)性的方法是采用脈沖神經(jīng)網(wǎng)絡(luò)等,更嚴(yán)格地模擬大腦的信息處理機(jī)制。IBM TrueNorth 和最近宣布的英特爾 Loihi 展示了使用 CMOS 器件的仿生脈沖神經(jīng)網(wǎng)絡(luò)硬件實(shí)現(xiàn)。
六、神經(jīng)形態(tài)芯片的終極夢(mèng)想
《白皮書》第八章介紹神經(jīng)形態(tài)計(jì)算技術(shù)和芯片的算法、模型以及關(guān)鍵技術(shù)特征,并分析該技術(shù)面臨的機(jī)遇和挑戰(zhàn)。
神經(jīng)形態(tài)芯片 (Neuromorphic chip) 采用電子技術(shù)模擬已經(jīng)被證明了的生物腦的運(yùn)作規(guī)則,從而構(gòu)建類似于生物腦的電子芯片,即「仿生電腦」。
廣義上來講,神經(jīng)形態(tài)計(jì)算的算法模型可以大致分為人工神經(jīng)網(wǎng)絡(luò) (Artificial Neural Network, ANN)、脈沖神經(jīng)網(wǎng)絡(luò) (Spiking Neural Network, SNN),以及其他延伸出的具有特殊數(shù)據(jù)處理功能的模型。在沒有歷史記憶情形下,SNN 與 ANN 具有一定程度的等價(jià)性。
借鑒生物腦的互聯(lián)結(jié)構(gòu),神經(jīng)形態(tài)芯片可以實(shí)現(xiàn)任意神經(jīng)元間的互聯(lián)。即在指定規(guī)模的仿生神經(jīng)網(wǎng)絡(luò)下,任意一個(gè)神經(jīng)元都可以把信息傳遞給指定的另一個(gè)或多個(gè)神經(jīng)元。如此強(qiáng)大的細(xì)粒度互聯(lián)能力是其他神經(jīng)網(wǎng)絡(luò) / 深度學(xué)習(xí)芯片目前還無法做到的。
神經(jīng)形態(tài)芯片在智能城市、自動(dòng)駕駛的實(shí)時(shí)信息處理、人臉深度識(shí)別等領(lǐng)域都有出色的應(yīng)用。如 IBM TrueNorth 芯片可以用于檢測(cè)圖像中的行人、車輛等物體,且功耗極低 (65mW)。它也可被用于語(yǔ)音、 圖像數(shù)據(jù)集識(shí)別等任務(wù),準(zhǔn)確性不遜于 CNN 加速器芯片。此外,在線學(xué)習(xí)能力也是神經(jīng)形態(tài)芯片的一大亮點(diǎn)。
研究人員已證明,與其他典型的 SNN 網(wǎng)絡(luò)相比,在解決 MNIST 數(shù)字體識(shí)別問題上,英特爾 Loihi 芯 片將學(xué)習(xí)速度提高了 100 萬(wàn)倍。
在傳統(tǒng) CMOS 工藝下,神經(jīng)形態(tài)芯片的物理結(jié)構(gòu)較為成熟,但對(duì)于可以仿真大規(guī)模神經(jīng)網(wǎng)絡(luò)而言 (如 大于人腦 1% 規(guī)模的系統(tǒng)而言),仍存在很多挑戰(zhàn),包括:
1)散熱問題將導(dǎo)致單芯片規(guī)模無法繼續(xù)增長(zhǎng),片上存儲(chǔ)和積分計(jì)算單元的密度不夠,導(dǎo)致集成的突觸和神經(jīng)元數(shù)量無法繼續(xù)提升,功耗居高不下。
2)由于其陣列眾核的特性,在片上、跨芯片、跨板、多機(jī)等尺度下的互聯(lián)和同步問題突出。
3)為了提升密度,大多 ASIC 芯片可模擬的神經(jīng)形態(tài)算法過于單一或簡(jiǎn)化,缺乏靈活性和模仿真實(shí)生物神經(jīng)元的能力。
七、AI 芯片的測(cè)試判斷
《白皮書》第九章探討了 AI 芯片的基準(zhǔn)測(cè)試和發(fā)展路線圖。目前,我們還沒有看到任何公開、全面的針對(duì) AI 芯片的基準(zhǔn)測(cè)試工作。業(yè)界對(duì)于 AI 芯片的評(píng)估主要靠運(yùn)行一些 常見的神經(jīng)網(wǎng)絡(luò)以及其中使用較多的基本運(yùn)算來進(jìn)行,比如由百度提出 Deepbench。
EXCEL 中心的研究人員 (由美國(guó) NSF 和 SRC 資助) 正在積極研究非馮·諾依曼硬件的基準(zhǔn)測(cè)試方法學(xué),比如針對(duì) MNIST 數(shù)據(jù)集的任務(wù)。為了應(yīng)對(duì)面向 AI 應(yīng)用的硬件基準(zhǔn)測(cè)試的相關(guān)挑戰(zhàn),我們需要收集一組架構(gòu)級(jí)功能單元,確定定量和定性的優(yōu)值 (Figures of Merits, FoM) 并開發(fā)測(cè)量 FoM 的統(tǒng)一方法。
神經(jīng)形態(tài)計(jì)算的材料和器件需要具備:
1) 多態(tài)行為,能夠根據(jù)過去的歷史決定當(dāng)前狀態(tài)值 ;
2) 低能耗,能以很 低的能耗從一種狀態(tài)切換到另一種狀態(tài) ;
3) 非易失性 :無需刷新就可以保持狀態(tài)的屬性 ;
4) 閾值行為 :受到重復(fù)激 勵(lì)后可以劇烈地改變某些屬性 ;
5) 容錯(cuò)性。
判斷一顆基于某種特定器件工藝、電路形式和體系結(jié)構(gòu)而實(shí)現(xiàn)的芯片好壞,在很大程度上取決于它針對(duì)的具體應(yīng)用和算法 / 模型。為了對(duì)各種各樣的器件進(jìn)行基準(zhǔn)測(cè)試,有必要明確目標(biāo)應(yīng)用、適用的算法和模型以及電路設(shè)計(jì)等信息。
只有提供足夠詳細(xì)的信息,才可以既不限制選擇范圍,又同時(shí)明確器件需求。
《白皮書》最后一章對(duì) AI 芯片的未來發(fā)展進(jìn)行了展望。由于人工智能技術(shù)整體發(fā)展還處于初級(jí)階段,AI 芯片行業(yè)的發(fā)展也隨之面臨極大的不確定性。而這種不確定性恰恰為各種 AI 芯片技術(shù)創(chuàng)新提供了一個(gè)巨大的舞臺(tái),我們可以期待在這個(gè)舞臺(tái)上看到前所未有的精彩表演。
長(zhǎng)按識(shí)別二維碼,獲得報(bào)告全文。
總結(jié)
以上是生活随笔為你收集整理的清华出品:一文看尽AI芯片两类瓶颈三大趋势,存储技术开拓新疆界 | 附全文...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Waymo首次公开自动驾驶技术:让AI学
- 下一篇: 降维打击:这款GAN可以让真人「二次元化