寒武纪发布边缘AI芯片思元220,性能优于英伟达Xavier NX两倍
按照寒武紀公布的參數,思元 220 參數性能比肩英偉達去年發布的 Jetson 系統級模塊——AGX Xavier 和上周發布 Jetson Xavier NX。
在功耗上勝出 AGX Xavier,在計算速度上優于 Xavier NX。
11 月 14 日機器之心消息,寒武紀副總裁劉道福在深圳發布思元系列邊緣端 AI 芯片「思元 220」和思元 220-M.2 邊緣加速卡。
思元 220 的問世, 標志著寒武紀已經具備了從終端 (寒武紀 1A、1H、1M 處理器 IP)、邊緣端 (思元 220 芯片) 到云端 (思元 100、思元 270 芯片) 完整的智能芯片產品線。
最新發布的思元 220 芯片采用了寒武紀在處理器架構領域的一系列創新性技術——寒武紀最新一代智能處理器 MLUv02,實現:
最大 32TOPS(INT4)算力,而功耗僅 10W。
對比英偉達在去年發布的 Jetson 系統級模塊——AGX Xavier 和上周發布 Jetson Xavier NX。
AGX Xavier 有 10W/15W/30W 三種選擇,神經網絡運算輸出為 32TOPS,可應付多達四路的 HEFC 4K 、60fps 視頻流。在功耗上有待進一步提升。
在功耗上有待進一步提升。
而就在上周,英偉達進一步推出 Jetson 的最新成員 Jetson Xavier NX,號稱「全球最小邊緣超算」。
可提供高達 14 TOPS(功耗為 10W 時)或 21 TOPS(功耗為 15W 時)的性能,能夠并行運行多個神經網絡,并在與 Nano 同樣尺寸(70x45mm)的小巧外形中同時處理來自多個高分辨率傳感器的數據。
Xavier NX 將于明年 3 月開始發售,價格 399 美元。雖主打邊緣超算,但這個價格有些讓人望而卻步。
說回思元 220,據介紹,它可提供 16/8/4 位可配置的定點運算,客戶可以根據實際應用靈活的選擇運算類型來獲得卓越的人工智能推理性能。
在軟件方面,通過端云一體的軟件平臺,思元 220 繼續支持寒武紀 Neuware 軟件工具鏈,支持業內各主流編程框架,包括 Tensorflow,Caffe,mxnet,以及 pytorch 等。
思元 220 是一款專門用于深度學習的 SOC 邊緣加速芯片,采用 TSMC 16nm 工藝,它具有高算力,低功耗和豐富的 I/O 接口。
基于思元 220,寒武紀前期面向市場推出小尺寸的 M.2 加速卡,未來會推出更高算力的產品形態。
思元 220-M.2
思元 220-M.2 邊緣加速卡在尺寸為 U 盤大小的卡片上實現了 16TOPS(INT4)或 8TOPS(INT8)的算力。客戶可以通過標準的 M.2 接口快速部署到已有的業務中實現業務的智能升級和邊緣加速解決方案。
寒武紀表示,面向未來,針對不同的場景,包括邊緣計算、自動駕駛車載計算、訓練等場景。寒武紀將持續投資,推出更多的 AI 處理器,面向全場景持續提供更先進靈活、快速高效、性能卓越 AI 算力產品及服務。
1
邊緣端為何重要
活動現場,寒武紀副總裁劉道福認為:相比數據中心計算或者說云計算,邊緣計算有幾個優勢:
1)大幅降低傳輸成本。
在很多如電力、能源等工業領域,網絡條件并不好,并且通訊基礎設施的改造成本很高,因此數據直接在邊緣進行處理,處理完的數據直接用于邊緣決策,或者有效信息傳回云端集中決策,這都可以減少傳輸成本。
2)大幅降低延時。
邊緣計算往往具有實時的要求,因為要對各種設備進行實時決策,而傳統的云計算,由于網絡延時,很難做到實時。
3)保護數據隱私和安全。
邊緣計算可以無需將數據或者原始數據傳回云端,從而可以大大保護數據的安全和隱私,減少數據泄漏。
在昨天的報道《繼英偉達最小邊緣超算,英特爾再推 10 倍提升 VPU,終端 AI 芯片創業壓力加劇》里,我們也談到,邊緣智能,作為人工智能的最后一公里,很長一段時間里被創業者視為得以繞開巨頭打壓的藍海市場,但今年市場被催熟的趨勢明顯,英特爾 Nervana、英偉達 Jeston 系列、以及谷歌 Coral 和華為鯤鵬等巨頭逐步進場收割,AI 芯片創業生態競爭加劇。
2
云邊終三端布局
除了目前云邊結合的思元系列,寒武紀在更早推出的是終端產品線:終端 IP 處理器系列。
從第一代產品,2016 年推出的首個商用深度學習處理器 Cambrion-1A,到 17 年面向計算機視覺領域專用的二代處理器 Cambricon-1H(Cambricon-1H8、Cambricon-1H16),再到延續了前兩代產品完備性優點的第三代最新產品,面向本地訓練的 Cambricon-1M。
采用 7nm 臺積電工藝的 Cambricon-1M,性能十倍超越于已被廣泛使用各大移動手機終端的 Cambricon-1A。可以實現 5TOPS/W 能效比,單個處理器核即可支持 CNN、RNN、SOM 等多樣化的深度學習模型,更進一步支持 SVM、k-NN、k-Means、決策樹等經典機器學習算法。
科大訊飛就曾在發布會上披露,寒武紀處理器在語音智能處理的測試結果,顯示出了能耗效率上的優越性。其領先于競爭對手的云端 GPU 方案至少 5 倍,語音本地識別準確率相對于傳統處理器也有 9.8% 的提升。
IP 處理器成名的寒武紀在終端產品不斷成熟之后,緊接著推出云端芯片,本次思元系列的前兩款產品:思元 100 和思元 270。
回顧這兩款云端芯片在實際運用中,均表現出如下幾點共同的優勢:
- 作為通用處理器,支持各類深度學習技術,支持多模態智能處理(視覺、語音和自然語言處理),應用領域廣泛;
- 從指令集和架構角度來看,相比于 GPU,對于在深度學習和人工智能場景中表現出了更高的效能比;
- 配套軟件開發環境完善,用戶體驗良好;
- 為「端云一體「策略而開發的最佳執行者。
此次發布的思元 220,更是旨在彌補市場內邊緣端加速方案的空白而存在,同時也徹底完善了寒武紀產品線中邊緣端芯片的空白。
寒武紀借助由于人口因素帶來的數據優勢,更加擅長于訓練,因此多款芯片均可以看出技術優勢帶來的側重點在于訓練。
目前寒武紀無論是云端,終端,還是邊緣芯片,都采用統一的處理器架構和指令集,以及統一的軟件棧。
這三個領域的生態可以相互促進,形成正循環。云端提供了完整的開發,調試,調優的軟件,云端開發好的程序,可以很方便快速的部署到終端和邊緣,解決終端和邊緣開發難,調試難,調優難的問題,而終端和邊緣,可以積累大量的客戶和開發者,反哺于云端生態,最終實現云,邊,端生態的繁榮。
總結
以上是生活随笔為你收集整理的寒武纪发布边缘AI芯片思元220,性能优于英伟达Xavier NX两倍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 首颗国产DRAM芯片的技术与专利,合肥长
- 下一篇: 重磅!中国火星探测任务首次公开亮相