电阻存储器为edge-AI提供了仿生架构
電阻存儲(chǔ)器為edge-AI提供了仿生架構(gòu)
Resistive memories enable bio-inspired architectures for edge AI
近年來(lái),腦啟發(fā)計(jì)算領(lǐng)域的研究活動(dòng)取得了很大的發(fā)展勢(shì)頭。其主要原因是人試圖超越傳統(tǒng)Von Neumann體系結(jié)構(gòu)的局限性,這種局限性越來(lái)越受到存儲(chǔ)器邏輯通信帶寬和延遲的限制。在神經(jīng)形態(tài)結(jié)構(gòu)中,存儲(chǔ)是分布的,并且可以與邏輯共同定位。新的電阻存儲(chǔ)器技術(shù)可以很容易地提供這種可能性,因?yàn)槟軌蚣稍贑MOS工藝的互連層中。
在傳統(tǒng)的人工智能技術(shù)被廣泛應(yīng)用于集成電路的實(shí)現(xiàn)中,受到了廣泛的關(guān)注。雖然先進(jìn)的標(biāo)準(zhǔn)CMOS技術(shù)已經(jīng)被用于開發(fā)GPU和特定的電路加速器,但還沒(méi)有真正推動(dòng)使用任何“生物靈感”硬件。新出現(xiàn)的電阻存儲(chǔ)器件(rram)可以通過(guò)施加相對(duì)較低的偏壓來(lái)調(diào)節(jié)電導(dǎo),從而在納米尺度上模擬生物上看似合理的突觸行為,但由于這項(xiàng)技術(shù)的(感知)不夠成熟,所開辟的途徑僅限于研究小組。
然而,這些新設(shè)備可以解決將人工智能大規(guī)模部署到消費(fèi)和工業(yè)產(chǎn)品中所面臨的一個(gè)主要問(wèn)題:能源效率。如果人工智能的應(yīng)用越來(lái)越廣泛,將所有數(shù)據(jù)傳輸?shù)皆?服務(wù)器系統(tǒng)進(jìn)行分析的能源開銷將很快達(dá)到人工智能經(jīng)濟(jì)可行性的極限。此外,對(duì)于自動(dòng)車輛和工業(yè)控制等實(shí)時(shí)系統(tǒng),如果連接到5G基礎(chǔ)設(shè)施以處理數(shù)據(jù)的服務(wù)器集中在定義明確的區(qū)域,而不是分布在基礎(chǔ)設(shè)施中,那么延遲仍然是一個(gè)問(wèn)題。出于這些原因,在歐洲,出于隱私考慮,具有邊緣/使用點(diǎn)的人工智能系統(tǒng)將變得越來(lái)越重要,高效節(jié)能,并可能逐步提高本地學(xué)習(xí)能力。
嵌入式人工智能系統(tǒng)非常適合處理需要實(shí)時(shí)響應(yīng)的數(shù)據(jù),并且在能源是主要問(wèn)題的情況下。tinyML倡議的成功證明了人對(duì)此類系統(tǒng)的興趣正在增長(zhǎng)。在處理由麥克風(fēng)、激光雷達(dá)、超聲波等傳感器生成的稀疏、時(shí)域數(shù)據(jù)流時(shí),該領(lǐng)域的生物啟發(fā)(即,存儲(chǔ)元件也充當(dāng)互連和計(jì)算元件)方法具有額外的優(yōu)勢(shì)。然后,這些系統(tǒng)將能夠在模擬域中執(zhí)行大部分操作,通過(guò)避免耗電、不必要的多個(gè)模擬到數(shù)字轉(zhuǎn)換,以及使用非時(shí)鐘、數(shù)據(jù)驅(qū)動(dòng)的體系結(jié)構(gòu)來(lái)簡(jiǎn)化數(shù)據(jù)流。時(shí)鐘的缺失和僅在信號(hào)脈沖期間在存儲(chǔ)器元件中的耗散導(dǎo)致在沒(méi)有輸入的情況下極低的功耗(因此其適用于稀疏信號(hào)),并且可能不需要特定的睡眠模式來(lái)獲得電池供電的操作狀態(tài)。此外,非易失性只需要在系統(tǒng)首次通電或最終更新時(shí)進(jìn)行參數(shù)設(shè)置,而不需要在每次通電時(shí)從外部源進(jìn)行傳輸。
然而,新電阻存儲(chǔ)器的使用不僅限于這種“邊緣”或“生物靈感”的應(yīng)用,而且也有利于在神經(jīng)加速器中執(zhí)行慢非易失性緩存/快速大容量存儲(chǔ)中間存儲(chǔ)器電平功能的傳統(tǒng)全數(shù)字時(shí)鐘系統(tǒng)。在這種情況下,這樣做的好處是減少了快速DRAM和SRAM緩存區(qū)域,同時(shí)還減少了訪問(wèn)大容量存儲(chǔ)的延遲。
Hardware Platforms for bio-inspired computing
生物啟發(fā)計(jì)算的硬件平臺(tái)
從技術(shù)角度來(lái)看,rram是一個(gè)很好的神經(jīng)形態(tài)應(yīng)用的候選,因?yàn)榫哂蠧MOS兼容性、高擴(kuò)展性、強(qiáng)持久性和良好的保留特性。然而,定義大規(guī)模共集成混合神經(jīng)形態(tài)系統(tǒng)(具有電阻存儲(chǔ)突觸的CMOS神經(jīng)元)的實(shí)際實(shí)現(xiàn)策略和有用的應(yīng)用仍然是一個(gè)困難的挑戰(zhàn)。
電阻RAM(RRAM)器件如相變存儲(chǔ)器(PCM)、導(dǎo)電橋RAM(CBRAM)和氧化物RAM(OxRAM)被提出來(lái)模擬突觸功能的生物學(xué)特性,這些特性對(duì)于實(shí)現(xiàn)神經(jīng)形態(tài)硬件是必不可少的。在不同類型的模擬突觸特征中,尖峰時(shí)間依賴性可塑性(STDP)是最常用的方法之一,但肯定不是唯一的可能性,有些可能在實(shí)際應(yīng)用中更有用。
實(shí)現(xiàn)這些想法并驗(yàn)證方法的電路示例是SPIRIT,ay IEDM 2019提出。所實(shí)現(xiàn)的SNN拓?fù)涫且粋€(gè)單層的、全連通的拓?fù)?#xff0c;其目標(biāo)是在MNIST數(shù)據(jù)庫(kù)上執(zhí)行推理任務(wù),每個(gè)類有10個(gè)輸出神經(jīng)元。為了減少突觸的數(shù)量,圖像縮小到12×12像素(每個(gè)神經(jīng)元有144個(gè)突觸)。突觸是用單級(jí)細(xì)胞(SLC)rram實(shí)現(xiàn)的,即只考慮低電阻和高電阻水平。結(jié)構(gòu)為1T-1R型,每個(gè)單元有一個(gè)接入晶體管。多個(gè)電池并聯(lián)連接,以實(shí)現(xiàn)不同的重量。在該學(xué)習(xí)框架上進(jìn)行的突觸量化實(shí)驗(yàn)表明,在-4到+4之間的整數(shù)值是分類精度和RRAM數(shù)之間的一個(gè)很好的折衷。由于目標(biāo)是獲得加權(quán)電流,因此必須使用4 rram作為正權(quán)重。對(duì)于負(fù)權(quán)重,符號(hào)位也可以使用rram進(jìn)行編碼:但是,由于需要容錯(cuò)的三重冗余,因此最好使用4個(gè)附加rram來(lái)實(shí)現(xiàn)負(fù)權(quán)重。
“整合與激發(fā)(IF)”模擬神經(jīng)元的設(shè)計(jì)是由數(shù)學(xué)等價(jià)性的需要指導(dǎo)的,tanh激活函數(shù)用于有監(jiān)督的離線學(xué)習(xí)。其特征如下:(1)突觸重量等于±4的刺激必須產(chǎn)生一個(gè)尖峰;(2)神經(jīng)元必須產(chǎn)生正負(fù)尖峰;(3)必須有一個(gè)不應(yīng)期,在此期間不能發(fā)出尖峰,但必須繼續(xù)整合。神經(jīng)元是圍繞一個(gè)MOM 200fF電容器構(gòu)建的。兩個(gè)比較器用于比較其電壓電平與正負(fù)閾值。由于RRAM必須在其終端之間的電壓降限制為100mV的情況下讀取,為了防止將設(shè)備設(shè)置為L(zhǎng)RS,獲得的電流不能被神經(jīng)元直接積分,而是由電流注入器復(fù)制。評(píng)估了編程條件的影響,并使用適當(dāng)?shù)木幊虠l件來(lái)確保足夠大的內(nèi)存窗口。放松機(jī)制確實(shí)出現(xiàn)在很短的時(shí)間尺度上(不到一個(gè)小時(shí))。因此,分類精度不會(huì)隨著時(shí)間的推移而降低。讀取穩(wěn)定性也得到了驗(yàn)證,高達(dá)800米的峰值發(fā)送到電路。
對(duì)MNIST數(shù)據(jù)庫(kù)的10K測(cè)試圖像的分類準(zhǔn)確率為84%。必須將該值與從88%的理想模擬中獲得的精度進(jìn)行比較,該精度受簡(jiǎn)單網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(1層10個(gè)輸出神經(jīng)元)的限制。每個(gè)突觸事件的能量消耗相當(dāng)于3.6pj。當(dāng)考慮到電路邏輯和SPI接口時(shí),達(dá)到了180pj(可以通過(guò)優(yōu)化通信協(xié)議來(lái)降低)。測(cè)量表明,圖像分類平均需要136個(gè)輸入峰值(對(duì)于ΔS=10):這小于每個(gè)輸入累積的一個(gè)峰值,與130nm節(jié)點(diǎn)中等效的形式編碼MAC操作相比,能量增益是5倍。能量增益來(lái)自于(1)基運(yùn)算的輕巧性(累加,而不是經(jīng)典編碼中的乘法累加);(2)尖峰編碼導(dǎo)致的活動(dòng)稀疏性。稀疏效益隨層數(shù)的增加而增加。
這個(gè)小的演示程序展示了如何在與傳統(tǒng)的嵌入式方法相同的性能水平上實(shí)現(xiàn)性能水平,但功耗卻大大降低。事實(shí)上,SNN演示中使用的速率碼使得這種實(shí)現(xiàn)與經(jīng)典編碼的實(shí)現(xiàn)等效:從經(jīng)典域到峰值域的轉(zhuǎn)換不會(huì)導(dǎo)致任何精度損失。然而,從這個(gè)概念證明中使用的簡(jiǎn)單拓?fù)浣Y(jié)構(gòu)來(lái)看,與使用更大網(wǎng)絡(luò)和更多層的最先進(jìn)深度學(xué)習(xí)模型相比,單層感知器解釋的分類精度略低。為了克服這一差異,目前正在實(shí)施一種更為復(fù)雜的拓?fù)浣Y(jié)構(gòu)(MobileNet類),分類精度將相應(yīng)提高,同時(shí)具有相同的能量效益。
同樣的方法將擴(kuò)展到嵌入麥克風(fēng)或激光雷達(dá)的電路中,以本地和實(shí)時(shí)地分析數(shù)據(jù)流,從而避免了通過(guò)網(wǎng)絡(luò)傳輸?shù)男枰K俾示幋a和時(shí)間編碼都可以根據(jù)信號(hào)的信息量來(lái)優(yōu)化網(wǎng)絡(luò)。最初,學(xué)習(xí)將集中進(jìn)行,只有推理集成到系統(tǒng)中,但在以后的幾代人中會(huì)引入一定程度的增量學(xué)習(xí)。
另一種利用RRAM特性有益于嵌入式AI產(chǎn)品的方法是使用基于RRAM的crossbar陣列的模擬架構(gòu)。與傳統(tǒng)的數(shù)字實(shí)現(xiàn)相比,可以提供更密集的乘法器-累加器(MAC)功能的實(shí)現(xiàn),在推理和學(xué)習(xí)電路中都是核心。如果進(jìn)入時(shí)域并消除時(shí)鐘的進(jìn)一步步驟被采取,那么超越當(dāng)前技術(shù)水平的緊湊型低功耗系統(tǒng)是可以實(shí)現(xiàn)的。雖然這種方法非常有前途,學(xué)術(shù)界也進(jìn)行了大量的研究,但仍然沒(méi)有被業(yè)界廣泛接受,這表明了設(shè)計(jì)、驗(yàn)證、描述和驗(yàn)證模擬異步設(shè)計(jì)的困難,以及擴(kuò)展模擬解決方案的困難。在看來(lái),所有這些障礙都是可以克服的,有利于極為節(jié)能的解決方案。
這些存儲(chǔ)的部分感知困難來(lái)自于觀察到的可變性,但那是實(shí)驗(yàn)條件的反射。觀察到在300毫米范圍內(nèi)操作和集成過(guò)程更加成熟時(shí),分布會(huì)更好,因此假設(shè)在工業(yè)化過(guò)程中可以解決變異性問(wèn)題。設(shè)計(jì)工具也在出現(xiàn),更精確的模型也逐漸可用。溫度變化當(dāng)然會(huì)產(chǎn)生影響,但這種計(jì)算的統(tǒng)計(jì)性質(zhì)及其在推斷階段對(duì)某種程度的參數(shù)變化的內(nèi)在穩(wěn)健性,使其最終影響遠(yuǎn)不如社區(qū)習(xí)慣的傳統(tǒng)模擬設(shè)計(jì)相關(guān)。模擬縱橫制方法的優(yōu)點(diǎn)之一是,當(dāng)應(yīng)用“零”數(shù)據(jù)時(shí),自動(dòng)沒(méi)有電流。然而,當(dāng)應(yīng)用“一”數(shù)據(jù)時(shí),存儲(chǔ)的“零”值存在泄漏電流貢獻(xiàn),這會(huì)限制橫桿的合理尺寸,并推動(dòng)研究朝著電阻水平的最佳值方向發(fā)展。
有些問(wèn)題更為根本。第一個(gè)問(wèn)題是,功耗效率和高并行度來(lái)自于時(shí)間復(fù)用(操作頻率)與面積的權(quán)衡:網(wǎng)絡(luò)大小(問(wèn)題或類數(shù)大小)的限制是什么?這種權(quán)衡是有利的,如何依賴于實(shí)現(xiàn)節(jié)點(diǎn)?另一個(gè)是這些存儲(chǔ)的循環(huán)性。雖然對(duì)于推理階段來(lái)說(shuō)已經(jīng)足夠了,并且交叉桿的編程可以在初始化階段以可接受的開銷完成,但是由于過(guò)度的寫入負(fù)載,使用經(jīng)典反向傳播方案和迭代次數(shù)的片上學(xué)習(xí)是不可能的。然而,使用其學(xué)習(xí)方法的非常有希望的途徑正在被尋求,并有望在未來(lái)幾年內(nèi)提供有效的解決方案。
在引入這種類型的電路之前,像RRAM和3D集成這樣的技術(shù)可以在傳統(tǒng)的實(shí)現(xiàn)中使用,從而以更小的功耗預(yù)算和更小的外形因數(shù)提供已經(jīng)存在的解決方案。用于高度定制應(yīng)用的FPGA實(shí)現(xiàn)、運(yùn)行在mcu或cpu上的純軟件實(shí)現(xiàn)或?qū)S玫母叨炔⑿械亩嗪?加速器(類似或類似于gpu的通用應(yīng)用)是當(dāng)今的主流。所有這些芯片還可以受益于本地非易失性存儲(chǔ)器的可用性,這可能導(dǎo)致FPGA更緊湊、更優(yōu)化的MCU/CPU和多核/加速器芯片的存儲(chǔ)層次。特別是,使用單片3D集成的專用版本,在模擬神經(jīng)元平面之間插入RRAM平面,可以產(chǎn)生更緊湊、功耗更低的系統(tǒng)。
在歐洲H2020計(jì)劃NeuRAM3的框架下,研究了這種方法,領(lǐng)導(dǎo)了一個(gè)著名的歐盟研發(fā)機(jī)構(gòu)多學(xué)科小組,致力于研究先進(jìn)器件技術(shù)、電路結(jié)構(gòu)和算法之間的最佳匹配,以制造神經(jīng)形態(tài)芯片。在該項(xiàng)目的許多結(jié)果中,如下圖所示,可以看到在CoolCube 3D單片工藝中制造的OxRAM示例,該工藝連接到頂部和底部CMOS層。向前看,這種技術(shù)可以用于在專門用于人工智能的復(fù)雜CMOS電路結(jié)構(gòu)中集成非常密集的陣列。
圖. CoolCube 3D單片集成OxRam內(nèi)部互連
頂部和底部的CMOS層為密集多層神經(jīng)網(wǎng)絡(luò)開辟了道路。
3DTSV和3D-by-Cu鍵合也有希望具有緊湊的神經(jīng)形態(tài)系統(tǒng),包括高度集成的體系結(jié)構(gòu)中的各種元件,其中根據(jù)應(yīng)用優(yōu)化分區(qū),或者嵌入AI元件與成像儀或其傳感或執(zhí)行元件緊密耦合。
結(jié)論
本文綜述了RRAM在仿生計(jì)算系統(tǒng)中的作用,并討論了一些有希望的結(jié)果和概念。
總結(jié)
以上是生活随笔為你收集整理的电阻存储器为edge-AI提供了仿生架构的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 为什么edge AI是一个无需大脑的人
- 下一篇: 用小神经网络和光谱仪优化关键词识别