DSP与CEVA芯片
DSP與CEVA芯片
dsp芯片的特點
通常來說dsp芯片的程序和數據是分開存放的,內部存在快速的RAM,可以通過數據總線同時訪問指令和數據。Dsp芯片支持無開銷循環及跳轉的硬件,能夠并行執行多個操作,像取指、譯碼等,可以重復操作,具有穩定性好、精度高、大規模集成性等多個優點。不過功率消耗大,成本高。
dsp芯片和通用微處理器有什么區別
1、通用微處理器有被讓人們稱為單片機,將計算機系統集成到了一塊芯片中。通用微處理器是以某中微處理內核為核心,擁有A/D、Flash RAM等各種功能和外設。一個單片機能夠延生多種產品,最大限度與應用需求相匹配,減小了功耗和成本。
2、dsp芯片是為了快速處理數字信號,在結構上和數據、地址總線是分開的,沒有像微處理器一樣將計算機系統集成在一起,主要處理帶有智能邏輯的消費類產品,生物信息識別終端, ADSL 接入、虛擬現實顯示等,運算量大,功率消耗也比較大。與單片機相比,通用功能會相對比較弱一些。
CEVA DSP 架構
? 第四代 CEVA-XC架構可提供1,600 GOPS動態多線程和流水線,并且在7nm下實現1.8GHz主頻
? CEVA-XC16 DSP是首個基于第四代 CEVA-XC架構的處理器,瞄準5G智能無線電接入網絡(RAN)和企業接入點應用,將峰值性能提高2.5倍
CEVA,人工智能處理器 IP 的授權許可廠商 (納斯達克股票交易所代碼:CEVA) ,推出DSP架構Gen4 CEVA-XC。架構瞄準5G端點和無線接入網絡(RAN),企業接入點,以及其它數千兆數據處理,且低延遲應用,并行處理工作負載的性能。
第四代CEVA-XC統一了標量和矢量運算處理,可實現兩次8路VLIW和前所未有的14,000位數據級并行。采用流水線架構,在7nm工藝節點,可實現1.8 GHz主頻,使用了物理設計架構,實現綜合的設計流程,以及創新的多線程設計,允許處理器動態地配置為寬SIMD機,或劃分為較小的同時SIMD線程。第四代CEVA-XC架構,使用2048位內存帶寬的新穎內存子系統,具有緊耦合的內存,以支持并發多線程和內存接入。
第四代CEVA-XC架構是CEVA,進行DSP并行處理的創新。這款架構具有動態可重配置的多線程和高速設計,用于控制和運算處理的全面功能,為用于5G基礎架構和端點的ASIC,ASSP器件奠定了基礎。
基于第四代CEVA-XC架構的處理器是多核CEVA-XC16,運行DSP內核,瞄準5G RAN體系結構部署,包括開放式RAN(O-RAN)、基帶單元(BBU)聚合以及Wi-Fi和5G企業接入點。CEVA-XC16還適用于與基站運作信號處理和AI工作負載。
CEVA-XC16在設計時考慮了3GPP規范,基于CEVA無線基礎架構供應商合作開發,蜂窩基礎架構ASIC經驗。CEVA前代CEVA-XC4500和CEVA-XC12 DSP,現在助力4G和5G蜂窩網絡,一家無線設備供應商已將新型CEVA-XC16用于其下一代5G ASIC設計。
CEVA-XC16提供每秒1600 GOPS并行性能,重新配置為兩個單獨的并行線程,兩者可以同時運行,共享具有高速一致性緩存的L1數據存儲器,提升PHY控制處理的延遲和性能效率,無需使用額外的CPU。相比在擁擠區域連接大量用戶的單核/單線程架構,將每平方毫米的性能提高了50%。這對于定制5G基站芯片普遍采用的大型內核集群,可節省35%的芯片面積。
CEVA-XC16的其它主要功能包括:
? 最新一代雙CEVA-BX標量處理器單元——支持真正的并發多線程運行
? 可將矢量單位資源動態分配給處理線程——利用矢量單位資源,并減少復雜流程的開銷
? 先進的標量控制架構和工具,通過使用最新的動態分支預測和循環優化,以及基于LLVM的編譯器,相比前代產品,可將代碼大小減少30%
? 用于FFT和FIR的全新指令集架構——可將性能提高兩倍
? 增強的多用戶功能,支持大帶寬分配給單一用戶,支持精細的用戶分配
? 上代CEVA-XC4500和CEVA-XC12 DSP的軟件可簡單遷移
5G是一項具有跨越消費者、工業、電信和AI領域的多種增長矢量的技術,應對這些零散而復雜的用例需要全新的處理器,而第四代CEVA-XC架構采用了這一全新方法,設計實現了DSP內核性能。CEVA-XC16 DSP是這項成就的例證,為希望從不斷增長的5G 資產開支,Open RAN網絡架構中獲益的OEM廠商,半導體供應商大幅降低了進入門檻。
關于CEVA公司
CEVA是無線連接和智能傳感技術的領先授權公司。提供數字信號處理器、AI處理器、無線平臺以及用于傳感器融合、圖像增強、計算機視覺、語音輸入和人工智能的配套軟件,所有這些都是支持智能互聯世界的關鍵技術。與全球的半導體公司和OEM合作,為移動、消費、汽車、機器人、工業和物聯網的各種終端市場,創建高效和智能的連接設備。超低功耗IP包括面向移動設備和基礎設施中的5G基帶處理,基于DSP的全面平臺,適用于任意相機設備的高級成像和計算機視覺,適用于多個物聯網市場的音頻/話音/語音以及超低功耗Always-On/感應應用。對于傳感器融合,Hillcrest Labs傳感器處理技術為AR / VR、機器人、遙控器和IoT提供了廣泛的傳感器融合軟件和IMU解決方案。對于人工智能,提供一系列AI處理器,能夠在設備上處理完整的神經網絡工作負載。對于無線物聯網,提供藍牙IP(低功耗和雙模)、Wi-Fi 4/5/6 (802.11n / ac / ax)和NB-IoT。
深度學習芯片之爭:CPU、GPU、DSP、NPU
CPU、GPU:用轎車運貨
Intel的眾核芯片也在一定程度上吸取了GPU的優勢,性能不俗,但短時間看還是GPU有優勢。不過,無論是針對人工智能的眾核芯片還是定制版的GPU,本質上都不是專用處理器。
其實,Intel和英偉達是在使用現有的比較成熟的技術去滿足深度學習的需求,眾核芯片和定制版GPU在本質上來說依舊是CPU和GPU,并非專門針對深度學習的專業芯片。用眾核芯片和GPU跑深度學習,就類似于用轎車去拉貨,受轎車自身特點的限制,貨物運輸能力與真正大馬力、高負載的貨車有一定差距。同理,即便是因為技術相對更加成熟,Intel和英偉達的芯片在集成度和制造工藝上具有優勢,但由于CPU、GPU并非針對深度學習的專業芯片,相對于專業芯片,其運行效率必然受到一定影響。
DSP:和真正神經網絡芯片有差距
共包含四個NPU核,每個NPU核包含4個內核,每個內核有兩個流處理器(Dataflow Processor),每個流處理器具有8個長位寬或16位寬的SIMD運算單元。每個NPU核的峰值性能為38Gops(16位定點)或者76Gops(8位定點)。除了多核流處理器本身用于完成卷積運算外,集成了一個超長指令字(VLIW)處理器用于完成神經網絡中的超越函數等運算。另有256KB的L2Cache以及DMA模塊用于大塊數據的搬移。
從其低位寬的定點運算器推斷,僅可支持神經網絡正向運算,無法支持神經網絡的訓練。從片上存儲結構看,基于傳統的片上緩存(Cache),而非像最近流行的神經芯片或FPGA方案一樣使用便簽式存儲。因此,在技術上看星光智能一號是典型的“舊瓶裝新酒”方案,將傳統的面向數字信號處理的DSP處理器架構用于處理神經網絡,主要在運算器方面作了相應修改,例如低位寬和超越函數,而并非是“狹義的”神經網絡專用處理器,如IBM的“真北”芯片。
因此,DSP,而非NPU,能夠適用于卷積神經網路(CNN),而對循環神經網絡(RNN)和長短期記憶網絡(LSTM)等處理語音和自然語言的網絡有可能就無能為力了。
用傳統SIMD/DSP架構來適配神經網絡的技術思想在國際上已有不少先例,甚至有成熟的產品,例如CEVA公司的XM4處理器、Cadence公司的Tensilica Vision P5處理器、Synopsys公司的EV處理器等。
NPU
由于深度學習的基本操作是神經元和突觸的處理,而傳統的處理器指令集(包括x86和ARM等)是為了進行通用計算發展起來的,其基本操作為算術操作(加減乘除)和邏輯操作(與或非),往往需要數百甚至上千條指令才能完成一個神經元的處理,深度學習的處理效率不高。因此谷歌甚至需要使用上萬個x86 CPU核運行7天來訓練一個識別貓臉的深度學習神經網絡。因此,傳統的處理器(包括x86和ARM芯片等)用于深度學習的處理效率不高,這時就必須另辟蹊徑——突破經典的馮·諾伊曼結構。
以中國的寒武紀為例,DianNaoYu指令直接面對大規模神經元和突觸的處理,一條指令即可完成一組神經元的處理,并對神經元和突觸數據在芯片上的傳輸提供了一系列專門的支持。
另外,神經網絡中存儲和處理是一體化的,都是通過突觸權重來體現。 而馮·諾伊曼結構中,存儲和處理是分離的,分別由存儲器和運算器來實現,二者之間存在巨大的差異。當用現有的基于馮·諾伊曼結構的經典計算機(如X86處理器和英偉達GPU)來跑神經網絡應用時,就不可避免地受到存儲和處理分離式結構的制約,因而影響效率。這也就是專門針對人工智能的專業芯片能夠對傳統芯片有一定先天優勢的原因之一。
用數字來說話,CPU、GPU與NPU相比,會有百倍以上的性能或能耗比差距——以寒武紀團隊過去和Inria聯合發表的DianNao論文為例——DianNao為單核處理器,主頻為0.98GHz,峰值性能達每秒4520億次神經網絡基本運算,65nm工藝下功耗為0.485W,面積3.02平方毫米mm。
在若干代表性神經網絡上的實驗結果表明——
DianNao的平均性能超過主流CPU核的100倍,但是面積和功耗僅為1/10,效能提升可達三個數量級; DianNao的平均性能與主流GPGPU相當,但面積和功耗僅為主流GPGPU百分之一量級。
就現階段而言,傳統芯片廠商(如CPU、GPU和DSP)對于深度學習市場非常重視,因此利用他們巨大體量和市場推廣、銷售能力,大力推廣用這些傳統芯片來進行深度學習處理,其本質上也是對現有的技術進行微調,用傳統SIMD架構來適配神經網絡。
然而,由于傳統CPU、GPU和DSP本質上并非以硬件神經元和突觸為基本處理單元,相對于NPU在深度學習方面天生會有一定劣勢,在芯片集成度和制造工藝水平相當的情況下,其表現必然遜色于NPU。
總結
以上是生活随笔為你收集整理的DSP与CEVA芯片的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Runtime系统
- 下一篇: QNX Hypervisor管理程序