xMedia来了!支付宝客户端的智能化“武器”
阿里妹導(dǎo)讀:智能終端經(jīng)過10多年的發(fā)展,又一次站在巨變前夕,智能化、去中心化逐漸成為趨勢。今天,我們將深入解析支付寶客戶端的智能化之路,了解如何在終端側(cè)構(gòu)建完整的xMedia SDK,為用戶提供更加豐富的智能化體驗,積極探索和適配新的硬件形態(tài),創(chuàng)造新的應(yīng)用場景和方式,提升用戶體驗。
1、智能終端的發(fā)展趨勢
1983年摩托羅拉第一臺移動電話問世開始,手機(jī)已走過了30多年的歷史。在最初的功能機(jī)時代,手機(jī)提供語音通話和短信功能,初步解決了人和人之間的交流需求;在隨后的智能機(jī)時代,高質(zhì)量的圖像、視頻能力成為競爭的重點,語音消息、圖片共享、視頻通話成為社交的主流方式,有效的豐富了人們之間的交流體驗。
從蘋果2007年發(fā)布IPhone開始,智能手機(jī)經(jīng)過10年的發(fā)展,目前的視網(wǎng)膜分辨率、4K2K視頻拍攝,12M雙目拍照已經(jīng)成為業(yè)界主流,音頻、視頻的效果已基本達(dá)到普通用戶的體驗上限。更高的顯示分辨率、更高的圖像、視頻分辨率對用戶的邊際價值越來越低,智能手機(jī)又一次走到了發(fā)展的拐點。
1.1 傳感器
攝像頭作為最重要的傳感器,在過去幾十年產(chǎn)生了翻天覆地的變化:
分辨率:從最初的2M增長到現(xiàn)在的主流12M,Nokia曾推出過高達(dá)41M的手機(jī);
多目相機(jī):雙目相機(jī)成為主流,通過雙目視覺計算周邊環(huán)境的深度Depth信息,從而實現(xiàn)大光圈效果、 3D建模等能力;據(jù)傳華為新一代P20聚成將搭載三目攝像頭,增強(qiáng)變焦效果;
主動光源相機(jī):蘋果IPhoneX首次將結(jié)構(gòu)光相機(jī)引入手機(jī),獲得高精度深度Depth信息,實現(xiàn)FaceID;
麥克風(fēng)作為重要但是容易被忽視的傳感器,也有了很大的演進(jìn)。以IPhoneX為例,通過不同個位置的4個麥克風(fēng)形成麥克風(fēng)陣列,實現(xiàn)對聲場的重建,實現(xiàn)聲源定位、遠(yuǎn)距離拾音、定向拾音等一系列相應(yīng)功能。其他手機(jī)也基本采用類似設(shè)計,提升語音交互及音頻體驗。
除此之外,手機(jī)中集成了陀螺儀(Gyro),加速傳感器、距離傳感器、氣壓計、磁力感應(yīng)器等多種類的傳感器,并且精度和種類越來越多,隨著多傳感器的信息融合,可以提供更豐富的對外界的感知能力。
1.2 計算能力
手機(jī)搭載的CPU、GPU能力持續(xù)增強(qiáng),蘋果iPhoneX的A11芯片集成43億個晶體管, 6核CPU (2大4小),3核GPU(對3D游戲、深度學(xué)習(xí)、AR進(jìn)行優(yōu)化),搭載神經(jīng)網(wǎng)絡(luò)引擎。高通、華為等手機(jī)均在主芯片上搭載NPU支持,可有效的加速深度學(xué)習(xí)在終端上的運行效果。
1.3 發(fā)展趨勢
我們認(rèn)為隨著各種傳感器的增加、計算能力的增強(qiáng),尤其是NPU的普及,智能手機(jī)會迎來新的變革:
智能化:即手機(jī)會更加智能化。手機(jī)的發(fā)展的重點從增強(qiáng)人和人之間的連接(更高分辨率、更高的圖片視頻質(zhì)量)變?yōu)閷χ苓叚h(huán)境、對人和環(huán)境之間的感知,更加智能化的服務(wù)用戶。現(xiàn)在的雙目相機(jī)計算深度信息,麥克風(fēng)陣列計算用戶位置,已經(jīng)實現(xiàn)了初步的周邊環(huán)境感知能力;
多樣化:手機(jī)作為中心的交互方式會逐漸弱化,更自然、更多樣的終端設(shè)備(例如智能音箱、智能手環(huán)、VR/AR設(shè)備等)會承接手機(jī)的部分功能,從而逐漸減弱手機(jī)作為核心交互設(shè)備的重要性。目前Amazon/Google/Apple大力投入的智能音箱,就是希望音箱能成為用戶在家庭中的一個更自然的交互入口。雖然未來是否能成功有待探索,仍然是一個有益的嘗試;
2、多媒體客戶端基礎(chǔ)
隨著支付寶業(yè)務(wù)需求,從2015年初開始多媒體技術(shù)部啟動語音、圖片、小視頻等富媒體通信相關(guān)工作。目前在音頻視頻前端處理領(lǐng)域形成了完整的技術(shù)能力,支撐支付寶內(nèi)各業(yè)務(wù)場景,為用戶提供極致的音視頻體驗。
前端數(shù)據(jù)采集是智能化能力的基礎(chǔ),不論人臉識別,圖像理解還是語音識別,高質(zhì)量、低噪聲的原始數(shù)據(jù)是后續(xù)高精度識別的基礎(chǔ)。我們希望通過多媒體相關(guān)技術(shù),在終端上結(jié)合算法和工程能力,獲取到高質(zhì)量的原始數(shù)據(jù),并高速穩(wěn)定的傳輸?shù)皆贫?#xff0c;作為后續(xù)智能化做好準(zhǔn)備。
2.1 富媒體通信
目前作為支付寶基礎(chǔ)組件,對接云端AFTS/Django/TFS等系統(tǒng),提供完整的音頻/圖像/視頻編解碼、處理、渲染、傳輸及存儲能力,支撐眾多業(yè)務(wù)場景。在自研算法庫、緩存優(yōu)化、網(wǎng)絡(luò)優(yōu)化等領(lǐng)域形成自己特有技術(shù)能力,并通過數(shù)據(jù)大盤實現(xiàn)業(yè)務(wù)數(shù)據(jù)精細(xì)化監(jiān)控,有效支撐各業(yè)務(wù)場景精細(xì)優(yōu)化;
2.2 視頻直播
2017年自研視頻直播組件系統(tǒng)上線,陸續(xù)接入口碑、螞蟻會員周周樂、商家開放平臺培訓(xùn)等直播業(yè)務(wù),支持最新直播答題特性;
2.3 視頻通話
2017年自研視頻通話系統(tǒng)上線,支撐閑魚、菜鳥、IT等業(yè)務(wù)場景。在支付寶內(nèi)支持財富遠(yuǎn)程證券開戶(即將上線)。
3、多媒體客戶端智能化
基于多媒體客戶端高質(zhì)量的數(shù)據(jù)采集,多媒體技術(shù)部在終端上布局系列技術(shù),提升終端的理解能力(xNN)、空間感知能力(xSLAM)、3D渲染能力(xAnt3D),人機(jī)交互能力(手勢識別、人體姿態(tài)識別等等)。多種能力結(jié)合支撐更加智能化的業(yè)務(wù)場景,為用戶提供更加智能化的體驗。
3.1 客戶端深度學(xué)習(xí)引擎xNN
近年來,深度學(xué)習(xí)(DL)在圖像識別、語音識別、自然語言處理等諸多領(lǐng)域都取得了突破性進(jìn)展。DL通常給人以計算復(fù)雜、模型龐大的印象。常規(guī)應(yīng)用場景都是手機(jī)終端采集數(shù)據(jù),云端識別處理。但是對于很多需要低延時、低帶寬、高隱私的應(yīng)用而言,客戶端的DL能力是非常必要的。對于支付寶這種海量用戶APP,如果能將部分DL工作轉(zhuǎn)移到客戶端來實現(xiàn),對用戶體驗和云端降成本都有很大的價值。
2017年8月,自研客戶端深度學(xué)習(xí)引擎xNN上線支付寶10.0.20版本,將DL能力推到終端,通過邊緣計算實現(xiàn)高實時應(yīng)用,有效的降低云端負(fù)載,提升用戶體驗。自研xNN具有如下特點:
小引擎:通過移動端SDK的深度裁減,安卓平臺只有200KB;
輕模型:通過高效的模型壓縮算法,實現(xiàn)高精度+小尺寸的模型;
快速:結(jié)合指令層和算法層的優(yōu)化,綜合提升DL計算的效率;
普適:不僅支持經(jīng)典的CNN、DNN網(wǎng)絡(luò),也支持RNN、LSTM、TFLite等網(wǎng)絡(luò)形態(tài);
易用:完整模型轉(zhuǎn)換工具鏈,算法工程師能快速完成云端模型到移動端模型的轉(zhuǎn)換和部署;
xNN上線后,已經(jīng)幫助螞蟻的多個業(yè)務(wù),包括支付寶(掃五福等)、保險、財富、芝麻信用、網(wǎng)商銀行,完成客戶端DL算法的部署,并輸出到多個外部合作公司。阿里巴巴集團(tuán)范圍內(nèi),也有多個BU在逐步接入。這得益于xNN自身優(yōu)秀的性能,具體的:一方面,xNN能夠提供提供高達(dá)近數(shù)十倍的模型壓縮能力,解決了DL算法模型尺寸過大的落地瓶頸;另一方面,xNN不僅支持基礎(chǔ)的分類任務(wù),而且已能夠為更為復(fù)雜的目標(biāo)檢測、語義特征點提取等任務(wù)提供高效的移動端解決方案。
3.2 客戶端位姿計算引擎xSLAM
在我們面臨的很多問題中,需要知道手機(jī)在空間中的位置和姿態(tài),從而反向推斷出用戶所在的位置和姿態(tài)。SLAM(simultaneous localization and mapping)作為業(yè)界廣泛使用的定位技術(shù),通過機(jī)器視覺和手機(jī)傳感器相結(jié)合,解算出手機(jī)在空間中的位置和姿態(tài)(6自由度)。SLAM涵蓋了圖像視覺、多視幾何的幾乎所有關(guān)鍵算法,對于算法能力、性能優(yōu)化、終端適配及魯棒性提出了很高的要求。
2017年9月,自研xSLAM引擎在支付寶10.1.5版本上線。自研算法針對算法在三維空間估計和位姿估計的準(zhǔn)確度上,以及不同機(jī)型的硬件差異(特別是Andriod手機(jī)的IMU質(zhì)量參差不齊),做了大量的算法及工程適配優(yōu)化工作,同時在工程上基于各類芯片的GPU/DSP進(jìn)行極致優(yōu)化。
SLAM上線后,第一個業(yè)務(wù)是AR平臺掃可口可樂福娃活動。目前保險、萌寶等業(yè)務(wù)接入中。作為手機(jī)位置姿態(tài)的基礎(chǔ)能力,我們確信后續(xù)會支撐更多的業(yè)務(wù)場景。
3.3 客戶端3D渲染引擎xAnt3D
3D渲染是三維計算機(jī)圖形學(xué)最重要的研究課題之一,并且在實踐領(lǐng)域與其他技術(shù)密切相關(guān),是智能化技術(shù)的交互入口。3D渲染是指將3D模型文件(包括幾何、視點、紋理、照明和陰影等信息)進(jìn)行實時渲染獲得3D效果。
支付寶3D渲染引擎xAnt3D來自于2017年春節(jié)紅包的AR互動需求。多媒體技術(shù)部雖然之前在圖片裁剪/美顏、視頻渲染等等較多場景下使用過OpenGL技術(shù),但和2D渲染場景相比,3D渲染涉及3D數(shù)學(xué)模型、view、project矩陣計算,以及粒子、陰影、光線、平面計算等知識,覆蓋光學(xué)、視覺感知、數(shù)學(xué)及軟件工程等技術(shù)點,對我們產(chǎn)生較大的挑戰(zhàn)。
經(jīng)過1年多的研發(fā)工作,xAnt3D移動端輕量級3D渲染引擎,在圖像跟蹤、陀螺儀跟蹤、SLAM跟蹤等條件下對模型動畫進(jìn)行穩(wěn)定的渲染。同時在工程上做了深度的優(yōu)化工作,Android4.3以上全機(jī)型兼容,支持特性有骨骼動畫、節(jié)點動畫、材質(zhì)貼圖、粒子效果、光線、透明視頻、文字渲染,同時具備JS腳本擴(kuò)展支持能力,并可以實現(xiàn)30fps的流暢渲染效果(依賴于手機(jī)采集幀率)。在支付寶環(huán)境中,xAnt3D渲染引擎在移動端輕量級包大小分在1MB左右。隨著更高質(zhì)量的人機(jī)交互要求,xAnt3D渲染引擎肯定會起到更多的作用,支撐更多業(yè)務(wù)場景。
體驗效果可參考上面3.2中xSLAM福娃3D渲染效果。
3.4 客戶端人機(jī)交互能力
隨著終端處理能力和用戶要求的提高,我們希望給用戶提供類似手勢識別、人體姿態(tài)識別等更加自然的交互方式,創(chuàng)造更加新穎有趣的玩法,打造新的應(yīng)用形態(tài)。
2018年春節(jié)AR紅包中的“五福到”紅包,首次利用人臉+人手手勢的方式進(jìn)行用戶交互。為了降低云端負(fù)載,提高用戶相應(yīng)時間,手勢識別在客戶端實現(xiàn),業(yè)務(wù)獲得了較大的影響和用戶的好評。我們后續(xù)有計劃在更多業(yè)務(wù)場景中使用手勢識別,并且將支
持更加復(fù)雜的手勢。
人體姿態(tài)估計作為對人體姿態(tài)的理解能力,可給大量線上線下場景賦能,創(chuàng)造新的應(yīng)用空間。例如在線上場景,可以在無需額外體感設(shè)備的條件下提供體感操作、體感娛樂的功能(例如QQ高能舞室)。在線下可以實現(xiàn)類似跳舞機(jī)的產(chǎn)品;在營銷活動中,無論線上還是線下,該技術(shù)均可為商家營銷提供用戶互動體驗。
4、多媒體泛終端能力
如最初所述,用戶交互方式會逐漸從圍繞手機(jī)的中心化逐漸離散化,多媒客戶端SDK也在技術(shù)上做好相應(yīng)準(zhǔn)備,以便將手機(jī)上的多媒體能力快速的移植到其他硬件平臺,支撐多樣性的用戶終端,支持業(yè)務(wù)發(fā)展。
網(wǎng)絡(luò)能力:網(wǎng)絡(luò)傳輸使用發(fā)布/訂閱消息模式,使用小型傳輸、開銷小、協(xié)議交互最小化的協(xié)議。不同消息傳輸發(fā)布不同服務(wù)質(zhì)量類型消息,可支持低帶寬、不可靠的網(wǎng)絡(luò)傳輸及弱硬件能力設(shè)備;
跨平臺能力:增加底層代碼跨平臺覆蓋,和平臺特性無關(guān)邏輯下沉通過C實現(xiàn)增加Kernel層,上層涉及平臺差異性邏輯再通過iOS/Android/Liunx等系統(tǒng)方法來調(diào)用;
底層驅(qū)動能力:傳感器采集等其他硬件驅(qū)動擴(kuò)展支持儲備,如智能貨柜場景需要支持多攝像頭數(shù)據(jù)采集處理,增加了對USB驅(qū)動、Camera驅(qū)動等技術(shù)儲備。
目前相關(guān)技術(shù)已經(jīng)應(yīng)用在行業(yè)智能機(jī)具管控平臺、無人貨柜、遠(yuǎn)程娃娃機(jī)等項目中。
5、xMedia技術(shù)沙盤
多媒體技術(shù)部圍繞多媒體基礎(chǔ)體驗、智能化體驗、工程及優(yōu)化能力,形成完整的多媒體客戶端方案xMedia。在核心算法層構(gòu)建算法技術(shù)壁壘,在組件層形成多樣的多媒體能力,可以快速上線支撐業(yè)務(wù)發(fā)展。xMeida SDK具有如下特點:
完備:完整多媒體解決方案,包括內(nèi)容采集、處理、理解、交互、網(wǎng)絡(luò)、緩存等,實現(xiàn)業(yè)務(wù)快速接入;
智能:豐富的智能化算法能力,包括智能壓縮、處理、視覺理解、深度學(xué)習(xí),可在客戶端實現(xiàn)豐富功能;
普適:精細(xì)化的緩存管理,深入的終端適配工作,終端兼容性高;
傳輸:多樣性的網(wǎng)絡(luò)傳輸協(xié)議、自適應(yīng)的網(wǎng)絡(luò)調(diào)度策略,支持富媒體、視頻通話、直播等業(yè)務(wù)場景;
5.1 算法層
算法及相應(yīng)的工程化是xMedia的競爭力核心,我們在多媒體數(shù)據(jù)采集、處理、理解、交互及工程化等環(huán)節(jié)都進(jìn)行了深入的工作:
多媒體數(shù)據(jù)采集:(1)在目前雙目及多目相機(jī)、多麥克風(fēng)、多揚聲器成為標(biāo)配的現(xiàn)狀下,如何充分利用既有硬件提升圖像、視頻、音頻的采集和播放效果,創(chuàng)造新的應(yīng)用場景是我們面臨的重要問題。目前我們已充分掌握多目相機(jī)及麥克風(fēng)陣列等硬件設(shè)計及開發(fā)能力,既能充分使用終端上的硬件能力,也可以根據(jù)需求定制相應(yīng)的軟件硬件方案,形成自己技術(shù)壁壘。(2)IMU是終端上另一種重要的傳感器數(shù)據(jù),對于SLAM有重要的作用,而Andriod平臺的IMU精度是我們面臨的最大問題。通過大量數(shù)據(jù)的采集和測試,我們初步完成了終端適配和數(shù)據(jù)降噪問題,可以滿足大部分場景;(3)未來相機(jī)、麥克風(fēng)、IMU等傳感器數(shù)據(jù)融合是必然的趨勢,在不同場景下取長補(bǔ)短,獲得高精度的數(shù)據(jù)。相關(guān)的技術(shù)也在儲備中;
多媒體數(shù)據(jù)處理:(1)壓縮:我們對于語音、圖像、視頻提供豐富的編解碼支持,基于HEVC的圖像編解碼器也已上線灰度;(2)處理:我們提供豐富的圖像及視頻裁剪、降噪、增強(qiáng)能力;(3)人臉:我們提供豐富的人臉特效,支撐社交及其他場景的應(yīng)用;(4)音頻及語音:我們對于語音3A、音頻信號處理有深入理解,支撐音頻錄制、語音通話、音樂播放等相關(guān)場景;
多媒體數(shù)據(jù)理解:(1)深度學(xué)習(xí)xNN 深度優(yōu)化的移動端上DL引擎;(2)位姿計算xSLAM提供高精準(zhǔn)和穩(wěn)定的三維空間估計和位姿估計;(3)目標(biāo)跟蹤x3Dot提供2D、3D的檢測及跟蹤能力;(4)OCR識別用于銀行卡識別、燃?xì)獗碜R別、汽車行駛里程等業(yè)務(wù)場景;
多媒體工程能力:工程能力和用戶體驗息息相關(guān),高質(zhì)量的工程能力決定了算法能否成功落地。(1)性能優(yōu)化,包括攝像頭啟動耗時優(yōu)化,精細(xì)化內(nèi)存緩沖區(qū)管理,網(wǎng)絡(luò)上傳耗時優(yōu)化,通過IP直連、域名收斂、線程通道隔離等優(yōu)化網(wǎng)絡(luò)下載成功率及耗時;(2)魯棒性&兼容性,xMedia SDK在支付寶上經(jīng)受復(fù)雜應(yīng)用場景的考驗,閃退率遠(yuǎn)低于萬分之一的指標(biāo);尤其是解決眾多Android多廠商及多系統(tǒng)各種各樣的兼容性問題; (3)包大小,深度裁剪優(yōu)化;
5.2 組件層
基于核心算法,我們提供豐富的多媒體組件供業(yè)務(wù)層使用:
多媒體基礎(chǔ)能力:提供豐富的語音、圖像及視頻處理接口,提供完整的富媒體通信、直播及通話引擎,業(yè)務(wù)可以快速接入;
多媒體智能能力:提供客戶端上深度學(xué)習(xí)引擎、位姿計算引擎、目標(biāo)檢測引擎、3D渲染引擎、手勢識別/人體姿態(tài)識別的人機(jī)交互能力,支撐各種應(yīng)用場景;
6、總結(jié)及展望
智能終端經(jīng)過10多年的發(fā)展,又一次站在巨變前夕,智能化、去中心化逐漸成為趨勢。多媒體技術(shù)部集成算法、工程及硬件能力,希望在終端側(cè)構(gòu)建完整的xMedia SDK:在手機(jī)上提供更加豐富的智能化體驗,積極探索和適配新的硬件形態(tài),創(chuàng)造新的應(yīng)用場景和方式,提升用戶體驗。我們希望通過自己的努力,實現(xiàn)用戶、商家、設(shè)備之間的互聯(lián)互通,實現(xiàn)我們?nèi)巳嘶ネ?#xff0c;萬物互聯(lián)的夢想!
廣告篇
能看到這里的一定是同道中人,或者對未來智能終端方面有興趣的同學(xué)們,如果有技術(shù)交流或者技術(shù)合作的需求,歡迎聯(lián)系zhenghui.zh@antfin.com。
另外最最重要的在智能化的熱潮中,我們是求賢若渴,歡迎求簡歷、求推薦!
算法組:聯(lián)系pulin.wpl@antfin.com、dajiang.zdj@antfin.com
算法優(yōu)化專家(匯編優(yōu)化大師、gpu優(yōu)化大師、反向逆向工程專家等等)、
圖像視覺專家(攝像頭圖像ISP、AR/VR/3D視覺算法、深度學(xué)習(xí)機(jī)器學(xué)習(xí)、圖形圖像處理等)
音頻算法專家 聯(lián)系heyang.th@antfin.com
客戶端:聯(lián)系zhenghui.zh@antfin.com
Android/iOS開發(fā)
3D渲染(有圖形學(xué)經(jīng)驗優(yōu)先)
移動端/互聯(lián)網(wǎng)后臺測試專家
嵌入式相關(guān),包括Linux嵌入式技術(shù)專家、Android系統(tǒng)驅(qū)動移植等
服務(wù)端:勾搭熱線xiaofeng.dxf@antfin.com
GPU/CUDA優(yōu)化專家;
IoT/java技術(shù)專家
3月24日,我們與你相約“調(diào)度&容器技術(shù)沙龍”上海站!《B 站 Kubernetes 容器平臺建設(shè)之路》《企業(yè)級富容器引擎技術(shù) PouchContainer 詳解》《 HADOOP YARN 的發(fā)展現(xiàn)狀和未來》《 Mesos Container 在 360 的實踐與應(yīng)用》四大主題為業(yè)務(wù)解決方案提供最新思路,更有 Hadoop YARN Committer&PMC Member 到場分享 Hadoop Yarn 最新進(jìn)展。
報名地址:http://sc-meetup.mikecrm.com/L15edXD
名額有限,先到先得~
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的xMedia来了!支付宝客户端的智能化“武器”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI时代的神马搜索!神马智能对话技术深度
- 下一篇: 万万没想到,分布式存储系统的一致性是..