华为 达芬奇芯片 架构_寒武纪的AI架构(华为技术有限公司)
達芬奇架構是基于AI計算功能設計的,并基于高性能3D Cube計算引擎,極大地提高了計算能力和功耗比。
根據達芬奇架構,進行了以下優化:
多核堆棧用于并行計算能力擴展
通過設計片上存儲器 on-chip memory(高速緩存/緩沖區Cache/Buffer)以縮短Cube操作和存儲距離,減少了對DDR的訪問,并減輕了馮·諾依曼的瓶頸問題。
在計算和外部存儲之間設計了高帶寬片外存儲器(HBM),以克服計算資源共享存儲器的訪問速度限制。
為了支持大規模的云側神經網絡訓練,設計了超高頻段網狀網絡(LSU),以互連多個多維數據集擴展芯片。
總而言之,達芬奇體系結構具有以下三個features:
**
1. Unified Architecture
支持從tens of milliwatts to hundreds of watts 的全場景AI系列芯片。
2. Scalable Computing
- 每個AI內核可以在一個時鐘周期內完成4096個MAC操作。
- 靈活的多核堆棧,可擴展的多維數據集:16 x 16 x N,N = 16/8/4/2/1
- 在訓練和推理方案中支持多種混合精度(int8 / int32 / FP16 / FP32)和數據精度要求。
- 集成張量,矢量和標量計算單位。
3. 可擴展的片上互連Scalable Memory
用于特定和分布式,顯式控制的內存分配設計
4 TByte / s L2緩沖區
1.2 TB / s HBM高帶寬內存
4. 可擴展的片上互連******On-chip Interconnection
超高帶寬片上網狀網絡[Ultra-high bandwidth on-chip mesh network (LSU)]
基于達芬奇的創新架構,華為首次發布了7 nm Ascend 910(Ascend-Max)和12 nm Ascend-Mini(Ascend 310)。 Ascend 910是世界上最大的單芯片計算密度。 支持在云端進行分布式大規模培訓。 如果集成了1024個Ascend 910,則將創建全球最大的AI計算集群,提供256P的性能。 無論模型多么復雜,都可以輕松地對其進行訓練。
基于達芬奇架構,華為還計劃了適用于藍牙耳機,智能手機和可穿戴設備的Ascend Ascend芯片系列(Nano,Tiny和Lite)。 將來,Ascend Ascend芯片系列將以IP模式與其他芯片集成在一起,以服務各種智能產品。
此外,達芬奇AI芯片架構還考慮了軟件定義的AI芯片的功能。 CANN是用于芯片的高度自動化的操作員開發工具。 它是為神經網絡定制的計算架構。 CANN將開發效率提高了三倍。 除效率外,還考慮了操作員績效以適應AI應用程序的快速發展。
transfer from:
https://forum.huawei.com/enterprise/en/huawei-da-vinci-ai-chip-architecture/thread/616780-895
總結
以上是生活随笔為你收集整理的华为 达芬奇芯片 架构_寒武纪的AI架构(华为技术有限公司)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iPhone如何打开免扰模式?免扰模式开
- 下一篇: VS2010 发布网站时文件丢失解决办法