阅片机器人性能增8倍,帮电网大省钱:英特尔加速AI推理细节
?
智東西(公眾號: zhidxcom)文 | 心緣
智東西7月13日消息,英特爾AIDC開發(fā)者大會于本周四在深圳舉行,在上午場中,英特爾展示圍繞硬件、軟件和生態(tài)活動的AI產(chǎn)品陣列。(英特爾AIDC秀肌肉:展示AI軟硬件+生態(tài)全景圖)
下午場更加側重于實操演示和案例分享,兩家英特爾人工智能構建者計劃的成員健培科技和賽特斯分別分享了他們在醫(yī)療影像分析、電網(wǎng)和交通領域和英特爾之間的合作細節(jié)。
健培科技從事醫(yī)療影像分析,在基層醫(yī)療和體檢等方面有很多部署。賽特斯是軟件定義通信解決方案供應商,目前主要把AI應用在國網(wǎng)防觸電以及海事監(jiān)測等方面。
期間,智東西同少數(shù)媒體對健培科技董事長程國華、賽特斯信息科技方案架構師蔡旭陽進行深入交流,具體了解英特爾軟硬件產(chǎn)品如何幫他們實現(xiàn)AI推理性能的提升,并透露了下一步合作的優(yōu)化方向。
一、健培閱片機器人:準確率比肩放射科醫(yī)生
據(jù)健培科技董事長程國華介紹,醫(yī)學影像貫穿整個診療過程,占據(jù)中國80%的醫(yī)療數(shù)據(jù)均為影像數(shù)據(jù)。對于多數(shù)醫(yī)院來說,影像數(shù)據(jù)存儲成本大、負擔重,計算難題迫切需要解決。
作為國內智慧醫(yī)療解決方案的先行者,健培早早提出一種“1個加速器+1個網(wǎng)絡+1個啄醫(yī)生”的方案,并提供金融級四級安全防護。
由于AI推理在醫(yī)療成像方面的應用十分復雜,需克服數(shù)據(jù)多樣化、深度分析、復雜標記等問題,而且需支持3D甚至4D深度神經(jīng)網(wǎng)絡架構,高度依賴平臺內存。
健培科技打造的“啄醫(yī)生”閱片機器人,采用高級AI算法和深度學習技術進行構建,能對醫(yī)學影像疾病進行定性、定量的智能診斷,可應用到臨床決策系統(tǒng)中,縮短放射科醫(yī)生完成診斷的時間。
早在2016年,這款閱片機器人就在國際首次醫(yī)療影像機器人與放射科醫(yī)生的“人機大戰(zhàn)”中,就取得了1:1的戰(zhàn)績,而且效率遠高于人工。
據(jù)悉,健培科技已有超過200家醫(yī)院客戶使用其閱片機器人,每家客戶平均每天可診斷80個病歷,每天提供的肺結核篩查超過2萬例。
身為智慧醫(yī)療的老兵,程國華也談到他對醫(yī)療行業(yè)對算力需求的變化。過去醫(yī)療平臺更多依賴于云端,現(xiàn)在基層醫(yī)療機構需求越來越大,低成本、可快速部署的邊緣計算成為一種趨勢。
二、英特爾助力圖像分析性能提升8倍
在與英特爾合作前,健培也在其他平臺中做個測試,但或多或少經(jīng)歷各種不適配的問題。
例如,此前閱片機器人準備上央視節(jié)目時,健培原本設計了16塊GPU方案,但要買到這么多GPU至少需要2個月,而央視節(jié)目的排期已經(jīng)臨近,這使得健培必須尋找另一種解決方案。
在嘗試應用的過程中,健培陸續(xù)發(fā)現(xiàn)其他方案存在各種吃力的情況,他們往往不得不放棄一些其他性能,來滿足對速度的需求。而英特爾處理器384GB的超高內存,完全能滿足他們對高通量、3D計算的要求。
為了用更好的支撐醫(yī)學影像大數(shù)據(jù),加速支持AI的成像分析和診斷,健培科技將閱片機器人遷移至英特爾可擴展處理器。
考慮到醫(yī)療數(shù)據(jù)對安全性的高要求,英特爾直接將服務器集成到健培的測試環(huán)境,完全不通過云端,嚴格保證數(shù)據(jù)的私密性。
硬件方面,“啄醫(yī)生”閱片機器人采用英特爾至強金牌6140處理器。
軟件方面,啄醫(yī)生借助英特爾優(yōu)化版TensorFlow以及英特爾MKL-DNN加速庫,大幅提高診斷效率和準確性,與硬件搭配使用。
英特爾對TensorFlow做了5000多項優(yōu)化,當前這一代指令集支持AVX512,而最新一代Cascade Lake的指令集名稱變作AVX512-VNNI,指令集進一步擴充,增加了可變式神經(jīng)網(wǎng)絡指令集。
現(xiàn)在用一個可變的VNNI,只需一條命令就能執(zhí)行以往3條命令才能執(zhí)行的任務,從最底層帶來運算速度的提升。
如圖,經(jīng)雙方合作,醫(yī)學數(shù)字成像和通信(DICOM)圖像分析性能提升8倍,醫(yī)療分割分析領域性能提升6倍。
這得益于英特爾針對算法做的優(yōu)化。
起初,英特爾與健培基于語義分割模型UNet做配置優(yōu)化,它的準確度得到一定提升,但當他們試圖用一些不同的方法,比如增加內存、改變框架的參數(shù)時,增幅并不明顯。
第二次試驗時,他們轉變思路,選擇以卷積神經(jīng)網(wǎng)絡(Faster R-CNN)作為突破口,英特爾的優(yōu)化版TensorFlow完全支持Faster R-CNN,優(yōu)化結果明顯提升,準確度達90%。
今年,英特爾與健培新一輪合作的升級首先體現(xiàn)在硬件層面,去年的合作時采用的是第一代至強可擴展處理器黃金版6140,今年的將更上一層樓,使用第二代至強可擴展處理器鉑金版8260,,用以打造新一代啄醫(yī)生閱片機器人。
另外,程國華透露,希望與英特爾展開更多軟件層面的合作,比如考慮引入OpenVINO工具包。
三、賽特斯智能電網(wǎng)與交通系統(tǒng):成熟應用已落地
OpenVINO工具包帶來的AI推理提升,在賽特斯科技的AI應用中得到了具體的展示。賽特斯和英特爾的合作的AI應用具體在電網(wǎng)和交通領域,并已有成熟應用落地。
在電網(wǎng)領域,湖畔釣魚者觸電事件頻發(fā),而警示牌往往起不到作用。據(jù)介紹,根據(jù)有關資料的統(tǒng)計,每年因為釣魚觸電引發(fā)事故有100多起,約占總觸電事故的1/3。
據(jù)賽特斯信息科技方案架構師蔡旭陽介紹,為了減少此類事件發(fā)生,賽特斯打造電網(wǎng)釣魚監(jiān)控系統(tǒng)。這一系統(tǒng)自今年4月份在某市級部署至今,已處理280多起事件,迄今未發(fā)生過觸電事件。
在交通領域,船舶流量趨于飽和,為了減輕海事值班人員工作量,有效提升船舶統(tǒng)計的準確性,賽特斯與某國家海事局共同研發(fā)了海事智能船舶統(tǒng)計系統(tǒng)。
該系統(tǒng)主要實現(xiàn)三類功能,一是分江面上下行自動統(tǒng)計過往船舶數(shù)量,二是船舶行為規(guī)范性統(tǒng)計,三是危化品船舶全航程跟蹤檢測。另外,系統(tǒng)還提供檢測視頻質量的運維功能,能實現(xiàn)在無需人工干預的情況下全天候運行。
這兩個系統(tǒng)的基本構成和處理流程相似,都是由前端智能攝像頭、中心分析平臺、桌面及移動顯示端和聲光報警設備組成。
首先在邊緣設備端做圖像預處理,然后用深度學習算法進行目標檢測,在檢測到目標后,將圖像通過網(wǎng)絡下發(fā)到中心分析平臺,平臺借助深度學習算法對目標進行細致檢測、跟蹤和軌跡分析,判斷是否人或船是否存在違規(guī)行為。
四、基于英特爾OpenVINO的三大優(yōu)化
英特爾對賽特斯智能系統(tǒng)的優(yōu)化主要體現(xiàn)在三個方面:智能攝像頭、云邊協(xié)同和算法優(yōu)化。
經(jīng)過優(yōu)化的系統(tǒng),其計算速度、目標識別準確度均較此前方法有大幅提升。深度學習目標檢測的計算速度較通用版本提升了26.1倍。
另據(jù)透露,英特爾與賽特斯計劃下一步將著重找選擇更合適的的拓撲網(wǎng)絡,前提是在英特爾優(yōu)化版Caffe上支持,同時OpenVINO引入INT8技術,在保證不丟失精度的情況下提升整體性能。
1、硬件優(yōu)化:智能攝像頭
賽特斯的系統(tǒng)經(jīng)過了三次迭代。
第一代方案采用非智能攝像頭,這種方案的設備成本很低,但這意味著所有視頻數(shù)據(jù)都要送到中心分析平臺去處理,對網(wǎng)絡傳輸要求非常高,同時會消耗大量平臺計算力,對中心服務器壓力非常大。
第二代方案改用帶有GPU的前端智能攝像頭,這一方案將速度大大提升,但同時也造成成本大幅上漲,一個攝像頭的成本就超過了8000元。
在第三代方案中,賽特斯的系統(tǒng)采用英特爾架構前端智能攝像頭,并借助英特爾OpenVINO工具包進行優(yōu)化,有效節(jié)省了攝像頭的采購成本,一個攝像頭的成本僅為兩三千元。
同時使用智能算法分布式部署的方案,降低對網(wǎng)絡傳輸依賴,減輕了中心分析平臺的計算壓力。
以前一個服務器只能檢測8路視頻,現(xiàn)在一個服務器可以檢測20甚至30路視頻。100路視頻原先需要部署二三十個中心服務器,現(xiàn)在只需部署5個中心服務器,一個中心服務器的價格約在5-6萬元,節(jié)省10個中心服務器就省了約50-60萬元。這樣以來,很多服務器硬件的采購成本得以節(jié)省。
新方案在檢測速度上也有提升,第二代GPU方案的處理速度為每秒9幀,而第三代方案將速度提升為每秒12幀,將比第二代方案采用GPU的檢測速度提升1.4倍。
2、部署方案優(yōu)化:云邊協(xié)同
過去,賽特斯將硬件加速資源都集中部署在中心分析平臺的服務器,而現(xiàn)在采用邊緣智能設備+中心服務器的“云邊協(xié)同”方式。
云邊協(xié)同受限于邊緣計算本身,通常面臨邊緣設備算力有限、速度慢的問題,以及邊緣設備硬件平臺與軟件系統(tǒng)不統(tǒng)一的問題。
英特爾OpenVINO恰恰可以有效解決異構難題。OpenVINO僅需一次開發(fā)就能進行所有英特爾架構平臺的部署,可以使用英特爾的CPU、GPU、VPU、FPGA等各種硬件加速的加速資源,針對不同硬件端,提供不同加載,增加整個深度學習模型的泛用性。
同時,OpenVINO為深度學習算法推理性能也帶來提升,并且執(zhí)行過程中支持異構處理和異步執(zhí)行,能減少由于系統(tǒng)資源等待占用的時間。
3、算法優(yōu)化:性能提升
英特爾OpenVINO使用經(jīng)優(yōu)化后的OpenCV和OpenVX,同時提供很多應用示例,能夠有效縮短開發(fā)時間。
這些庫都支持異構的執(zhí)行,編寫一次后即可通過異構的接口支撐跑在其他的硬件平臺上。
蔡旭陽表示,經(jīng)英特爾OpenVINO優(yōu)化后的算法,比以往在GPU上算法的精度也有所提升。
結語:邊緣計算成新風口
從健培和賽特斯的案例中,我們看到英特爾通過人工智能創(chuàng)建者項目,為企業(yè)和開發(fā)者提供軟硬件技術支持,幫助他們快速實現(xiàn)產(chǎn)品落地,并帶來性能和速度的倍增。
與此同時,我們也可以看到邊緣計算正成為英特爾AI戰(zhàn)略中極為重要的一步棋。
隨著邊緣側設備數(shù)量猛增,對網(wǎng)絡通信、時延、數(shù)據(jù)安全和云端成本都造成了更大的壓力,一種產(chǎn)品打天下已經(jīng)不現(xiàn)實了,更多需求正在轉移至邊緣側,需要更多輕量級、低功耗、便于移動的硬件產(chǎn)品。這是英特爾等老牌芯片公司都在面臨的挑戰(zhàn)。
在這樣的背景下,英特爾也從以至強處理器為主打,轉為提供端到端的全棧式AI解決方案,不僅推出新型類腦芯片、FPGA等更為多樣化的硬件產(chǎn)品陣列,同時輔以適配的軟件平臺進行協(xié)同優(yōu)化,從而應對越來越復雜多變的深度應用場景,幫助企業(yè)以更大程度滿足性能需求、同時更節(jié)約經(jīng)濟成本的方式,實現(xiàn)智能化升級。
總結
以上是生活随笔為你收集整理的阅片机器人性能增8倍,帮电网大省钱:英特尔加速AI推理细节的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 山东大学为中外学生“学伴”项目不当选项致
- 下一篇: 不用等到2050年,现在已经有人跟机器人