當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

xMedia来了！支付宝客户端的智能化“武器”

發(fā)布時間：2024/9/3 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 xMedia来了！支付宝客户端的智能化“武器” 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

阿里妹導(dǎo)讀：智能終端經(jīng)過10多年的發(fā)展，又一次站在巨變前夕，智能化、去中心化逐漸成為趨勢。今天，我們將深入解析支付寶客戶端的智能化之路，了解如何在終端側(cè)構(gòu)建完整的xMedia SDK，為用戶提供更加豐富的智能化體驗，積極探索和適配新的硬件形態(tài)，創(chuàng)造新的應(yīng)用場景和方式，提升用戶體驗。

1、智能終端的發(fā)展趨勢

1983年摩托羅拉第一臺移動電話問世開始，手機(jī)已走過了30多年的歷史。在最初的功能機(jī)時代，手機(jī)提供語音通話和短信功能，初步解決了人和人之間的交流需求；在隨后的智能機(jī)時代，高質(zhì)量的圖像、視頻能力成為競爭的重點，語音消息、圖片共享、視頻通話成為社交的主流方式，有效的豐富了人們之間的交流體驗。

從蘋果2007年發(fā)布IPhone開始，智能手機(jī)經(jīng)過10年的發(fā)展，目前的視網(wǎng)膜分辨率、4K2K視頻拍攝，12M雙目拍照已經(jīng)成為業(yè)界主流，音頻、視頻的效果已基本達(dá)到普通用戶的體驗上限。更高的顯示分辨率、更高的圖像、視頻分辨率對用戶的邊際價值越來越低，智能手機(jī)又一次走到了發(fā)展的拐點。

1.1 傳感器

攝像頭作為最重要的傳感器，在過去幾十年產(chǎn)生了翻天覆地的變化：

分辨率：從最初的2M增長到現(xiàn)在的主流12M，Nokia曾推出過高達(dá)41M的手機(jī)；

多目相機(jī)：雙目相機(jī)成為主流，通過雙目視覺計算周邊環(huán)境的深度Depth信息，從而實現(xiàn)大光圈效果、 3D建模等能力；據(jù)傳華為新一代P20聚成將搭載三目攝像頭，增強(qiáng)變焦效果；

主動光源相機(jī)：蘋果IPhoneX首次將結(jié)構(gòu)光相機(jī)引入手機(jī)，獲得高精度深度Depth信息，實現(xiàn)FaceID；

麥克風(fēng)作為重要但是容易被忽視的傳感器，也有了很大的演進(jìn)。以IPhoneX為例，通過不同個位置的4個麥克風(fēng)形成麥克風(fēng)陣列，實現(xiàn)對聲場的重建，實現(xiàn)聲源定位、遠(yuǎn)距離拾音、定向拾音等一系列相應(yīng)功能。其他手機(jī)也基本采用類似設(shè)計，提升語音交互及音頻體驗。

除此之外，手機(jī)中集成了陀螺儀（Gyro），加速傳感器、距離傳感器、氣壓計、磁力感應(yīng)器等多種類的傳感器，并且精度和種類越來越多，隨著多傳感器的信息融合，可以提供更豐富的對外界的感知能力。

1.2 計算能力

手機(jī)搭載的CPU、GPU能力持續(xù)增強(qiáng)，蘋果iPhoneX的A11芯片集成43億個晶體管， 6核CPU （2大4小），3核GPU（對3D游戲、深度學(xué)習(xí)、AR進(jìn)行優(yōu)化），搭載神經(jīng)網(wǎng)絡(luò)引擎。高通、華為等手機(jī)均在主芯片上搭載NPU支持，可有效的加速深度學(xué)習(xí)在終端上的運行效果。

1.3 發(fā)展趨勢

我們認(rèn)為隨著各種傳感器的增加、計算能力的增強(qiáng)，尤其是NPU的普及，智能手機(jī)會迎來新的變革：

智能化：即手機(jī)會更加智能化。手機(jī)的發(fā)展的重點從增強(qiáng)人和人之間的連接（更高分辨率、更高的圖片視頻質(zhì)量）變?yōu)閷χ苓叚h(huán)境、對人和環(huán)境之間的感知，更加智能化的服務(wù)用戶。現(xiàn)在的雙目相機(jī)計算深度信息，麥克風(fēng)陣列計算用戶位置，已經(jīng)實現(xiàn)了初步的周邊環(huán)境感知能力；

多樣化：手機(jī)作為中心的交互方式會逐漸弱化，更自然、更多樣的終端設(shè)備（例如智能音箱、智能手環(huán)、VR/AR設(shè)備等）會承接手機(jī)的部分功能，從而逐漸減弱手機(jī)作為核心交互設(shè)備的重要性。目前Amazon/Google/Apple大力投入的智能音箱，就是希望音箱能成為用戶在家庭中的一個更自然的交互入口。雖然未來是否能成功有待探索，仍然是一個有益的嘗試；

2、多媒體客戶端基礎(chǔ)

隨著支付寶業(yè)務(wù)需求，從2015年初開始多媒體技術(shù)部啟動語音、圖片、小視頻等富媒體通信相關(guān)工作。目前在音頻視頻前端處理領(lǐng)域形成了完整的技術(shù)能力，支撐支付寶內(nèi)各業(yè)務(wù)場景，為用戶提供極致的音視頻體驗。

前端數(shù)據(jù)采集是智能化能力的基礎(chǔ)，不論人臉識別，圖像理解還是語音識別，高質(zhì)量、低噪聲的原始數(shù)據(jù)是后續(xù)高精度識別的基礎(chǔ)。我們希望通過多媒體相關(guān)技術(shù)，在終端上結(jié)合算法和工程能力，獲取到高質(zhì)量的原始數(shù)據(jù)，并高速穩(wěn)定的傳輸?shù)皆贫?#xff0c;作為后續(xù)智能化做好準(zhǔn)備。

2.1 富媒體通信

目前作為支付寶基礎(chǔ)組件，對接云端AFTS/Django/TFS等系統(tǒng)，提供完整的音頻/圖像/視頻編解碼、處理、渲染、傳輸及存儲能力，支撐眾多業(yè)務(wù)場景。在自研算法庫、緩存優(yōu)化、網(wǎng)絡(luò)優(yōu)化等領(lǐng)域形成自己特有技術(shù)能力，并通過數(shù)據(jù)大盤實現(xiàn)業(yè)務(wù)數(shù)據(jù)精細(xì)化監(jiān)控，有效支撐各業(yè)務(wù)場景精細(xì)優(yōu)化；

2.2 視頻直播

2017年自研視頻直播組件系統(tǒng)上線，陸續(xù)接入口碑、螞蟻會員周周樂、商家開放平臺培訓(xùn)等直播業(yè)務(wù)，支持最新直播答題特性；

2.3 視頻通話

2017年自研視頻通話系統(tǒng)上線，支撐閑魚、菜鳥、IT等業(yè)務(wù)場景。在支付寶內(nèi)支持財富遠(yuǎn)程證券開戶（即將上線）。

3、多媒體客戶端智能化

基于多媒體客戶端高質(zhì)量的數(shù)據(jù)采集，多媒體技術(shù)部在終端上布局系列技術(shù)，提升終端的理解能力（xNN）、空間感知能力（xSLAM）、3D渲染能力（xAnt3D），人機(jī)交互能力（手勢識別、人體姿態(tài)識別等等）。多種能力結(jié)合支撐更加智能化的業(yè)務(wù)場景，為用戶提供更加智能化的體驗。

3.1 客戶端深度學(xué)習(xí)引擎xNN

近年來，深度學(xué)習(xí)（DL）在圖像識別、語音識別、自然語言處理等諸多領(lǐng)域都取得了突破性進(jìn)展。DL通常給人以計算復(fù)雜、模型龐大的印象。常規(guī)應(yīng)用場景都是手機(jī)終端采集數(shù)據(jù)，云端識別處理。但是對于很多需要低延時、低帶寬、高隱私的應(yīng)用而言，客戶端的DL能力是非常必要的。對于支付寶這種海量用戶APP，如果能將部分DL工作轉(zhuǎn)移到客戶端來實現(xiàn)，對用戶體驗和云端降成本都有很大的價值。

2017年8月，自研客戶端深度學(xué)習(xí)引擎xNN上線支付寶10.0.20版本，將DL能力推到終端，通過邊緣計算實現(xiàn)高實時應(yīng)用，有效的降低云端負(fù)載，提升用戶體驗。自研xNN具有如下特點：

小引擎：通過移動端SDK的深度裁減，安卓平臺只有200KB；

輕模型：通過高效的模型壓縮算法，實現(xiàn)高精度+小尺寸的模型；

快速：結(jié)合指令層和算法層的優(yōu)化，綜合提升DL計算的效率；

普適：不僅支持經(jīng)典的CNN、DNN網(wǎng)絡(luò)，也支持RNN、LSTM、TFLite等網(wǎng)絡(luò)形態(tài)；

易用：完整模型轉(zhuǎn)換工具鏈，算法工程師能快速完成云端模型到移動端模型的轉(zhuǎn)換和部署；

xNN上線后，已經(jīng)幫助螞蟻的多個業(yè)務(wù)，包括支付寶（掃五福等）、保險、財富、芝麻信用、網(wǎng)商銀行，完成客戶端DL算法的部署，并輸出到多個外部合作公司。阿里巴巴集團(tuán)范圍內(nèi)，也有多個BU在逐步接入。這得益于xNN自身優(yōu)秀的性能，具體的：一方面，xNN能夠提供提供高達(dá)近數(shù)十倍的模型壓縮能力，解決了DL算法模型尺寸過大的落地瓶頸；另一方面，xNN不僅支持基礎(chǔ)的分類任務(wù)，而且已能夠為更為復(fù)雜的目標(biāo)檢測、語義特征點提取等任務(wù)提供高效的移動端解決方案。

3.2 客戶端位姿計算引擎xSLAM

在我們面臨的很多問題中，需要知道手機(jī)在空間中的位置和姿態(tài)，從而反向推斷出用戶所在的位置和姿態(tài)。SLAM（simultaneous localization and mapping）作為業(yè)界廣泛使用的定位技術(shù)，通過機(jī)器視覺和手機(jī)傳感器相結(jié)合，解算出手機(jī)在空間中的位置和姿態(tài)（6自由度）。SLAM涵蓋了圖像視覺、多視幾何的幾乎所有關(guān)鍵算法，對于算法能力、性能優(yōu)化、終端適配及魯棒性提出了很高的要求。

2017年9月，自研xSLAM引擎在支付寶10.1.5版本上線。自研算法針對算法在三維空間估計和位姿估計的準(zhǔn)確度上，以及不同機(jī)型的硬件差異（特別是Andriod手機(jī)的IMU質(zhì)量參差不齊），做了大量的算法及工程適配優(yōu)化工作，同時在工程上基于各類芯片的GPU/DSP進(jìn)行極致優(yōu)化。

SLAM上線后，第一個業(yè)務(wù)是AR平臺掃可口可樂福娃活動。目前保險、萌寶等業(yè)務(wù)接入中。作為手機(jī)位置姿態(tài)的基礎(chǔ)能力，我們確信后續(xù)會支撐更多的業(yè)務(wù)場景。

3.3 客戶端3D渲染引擎xAnt3D

3D渲染是三維計算機(jī)圖形學(xué)最重要的研究課題之一，并且在實踐領(lǐng)域與其他技術(shù)密切相關(guān)，是智能化技術(shù)的交互入口。3D渲染是指將3D模型文件（包括幾何、視點、紋理、照明和陰影等信息）進(jìn)行實時渲染獲得3D效果。

支付寶3D渲染引擎xAnt3D來自于2017年春節(jié)紅包的AR互動需求。多媒體技術(shù)部雖然之前在圖片裁剪/美顏、視頻渲染等等較多場景下使用過OpenGL技術(shù)，但和2D渲染場景相比，3D渲染涉及3D數(shù)學(xué)模型、view、project矩陣計算，以及粒子、陰影、光線、平面計算等知識，覆蓋光學(xué)、視覺感知、數(shù)學(xué)及軟件工程等技術(shù)點，對我們產(chǎn)生較大的挑戰(zhàn)。

經(jīng)過1年多的研發(fā)工作，xAnt3D移動端輕量級3D渲染引擎，在圖像跟蹤、陀螺儀跟蹤、SLAM跟蹤等條件下對模型動畫進(jìn)行穩(wěn)定的渲染。同時在工程上做了深度的優(yōu)化工作，Android4.3以上全機(jī)型兼容，支持特性有骨骼動畫、節(jié)點動畫、材質(zhì)貼圖、粒子效果、光線、透明視頻、文字渲染，同時具備JS腳本擴(kuò)展支持能力，并可以實現(xiàn)30fps的流暢渲染效果（依賴于手機(jī)采集幀率）。在支付寶環(huán)境中，xAnt3D渲染引擎在移動端輕量級包大小分在1MB左右。隨著更高質(zhì)量的人機(jī)交互要求，xAnt3D渲染引擎肯定會起到更多的作用，支撐更多業(yè)務(wù)場景。

體驗效果可參考上面3.2中xSLAM福娃3D渲染效果。

3.4 客戶端人機(jī)交互能力

隨著終端處理能力和用戶要求的提高，我們希望給用戶提供類似手勢識別、人體姿態(tài)識別等更加自然的交互方式，創(chuàng)造更加新穎有趣的玩法，打造新的應(yīng)用形態(tài)。

2018年春節(jié)AR紅包中的“五福到”紅包，首次利用人臉+人手手勢的方式進(jìn)行用戶交互。為了降低云端負(fù)載，提高用戶相應(yīng)時間，手勢識別在客戶端實現(xiàn)，業(yè)務(wù)獲得了較大的影響和用戶的好評。我們后續(xù)有計劃在更多業(yè)務(wù)場景中使用手勢識別，并且將支

持更加復(fù)雜的手勢。

人體姿態(tài)估計作為對人體姿態(tài)的理解能力，可給大量線上線下場景賦能，創(chuàng)造新的應(yīng)用空間。例如在線上場景，可以在無需額外體感設(shè)備的條件下提供體感操作、體感娛樂的功能（例如QQ高能舞室）。在線下可以實現(xiàn)類似跳舞機(jī)的產(chǎn)品；在營銷活動中，無論線上還是線下，該技術(shù)均可為商家營銷提供用戶互動體驗。

4、多媒體泛終端能力

如最初所述，用戶交互方式會逐漸從圍繞手機(jī)的中心化逐漸離散化，多媒客戶端SDK也在技術(shù)上做好相應(yīng)準(zhǔn)備，以便將手機(jī)上的多媒體能力快速的移植到其他硬件平臺，支撐多樣性的用戶終端，支持業(yè)務(wù)發(fā)展。

網(wǎng)絡(luò)能力：網(wǎng)絡(luò)傳輸使用發(fā)布/訂閱消息模式，使用小型傳輸、開銷小、協(xié)議交互最小化的協(xié)議。不同消息傳輸發(fā)布不同服務(wù)質(zhì)量類型消息，可支持低帶寬、不可靠的網(wǎng)絡(luò)傳輸及弱硬件能力設(shè)備；

跨平臺能力：增加底層代碼跨平臺覆蓋，和平臺特性無關(guān)邏輯下沉通過C實現(xiàn)增加Kernel層，上層涉及平臺差異性邏輯再通過iOS/Android/Liunx等系統(tǒng)方法來調(diào)用；

底層驅(qū)動能力：傳感器采集等其他硬件驅(qū)動擴(kuò)展支持儲備，如智能貨柜場景需要支持多攝像頭數(shù)據(jù)采集處理，增加了對USB驅(qū)動、Camera驅(qū)動等技術(shù)儲備。

目前相關(guān)技術(shù)已經(jīng)應(yīng)用在行業(yè)智能機(jī)具管控平臺、無人貨柜、遠(yuǎn)程娃娃機(jī)等項目中。

5、xMedia技術(shù)沙盤

多媒體技術(shù)部圍繞多媒體基礎(chǔ)體驗、智能化體驗、工程及優(yōu)化能力，形成完整的多媒體客戶端方案xMedia。在核心算法層構(gòu)建算法技術(shù)壁壘，在組件層形成多樣的多媒體能力，可以快速上線支撐業(yè)務(wù)發(fā)展。xMeida SDK具有如下特點：

完備：完整多媒體解決方案，包括內(nèi)容采集、處理、理解、交互、網(wǎng)絡(luò)、緩存等，實現(xiàn)業(yè)務(wù)快速接入；

智能：豐富的智能化算法能力，包括智能壓縮、處理、視覺理解、深度學(xué)習(xí)，可在客戶端實現(xiàn)豐富功能；

普適：精細(xì)化的緩存管理，深入的終端適配工作，終端兼容性高；

傳輸：多樣性的網(wǎng)絡(luò)傳輸協(xié)議、自適應(yīng)的網(wǎng)絡(luò)調(diào)度策略，支持富媒體、視頻通話、直播等業(yè)務(wù)場景；

5.1 算法層

算法及相應(yīng)的工程化是xMedia的競爭力核心，我們在多媒體數(shù)據(jù)采集、處理、理解、交互及工程化等環(huán)節(jié)都進(jìn)行了深入的工作：

多媒體數(shù)據(jù)采集：（1）在目前雙目及多目相機(jī)、多麥克風(fēng)、多揚聲器成為標(biāo)配的現(xiàn)狀下，如何充分利用既有硬件提升圖像、視頻、音頻的采集和播放效果，創(chuàng)造新的應(yīng)用場景是我們面臨的重要問題。目前我們已充分掌握多目相機(jī)及麥克風(fēng)陣列等硬件設(shè)計及開發(fā)能力，既能充分使用終端上的硬件能力，也可以根據(jù)需求定制相應(yīng)的軟件硬件方案，形成自己技術(shù)壁壘。（2）IMU是終端上另一種重要的傳感器數(shù)據(jù)，對于SLAM有重要的作用，而Andriod平臺的IMU精度是我們面臨的最大問題。通過大量數(shù)據(jù)的采集和測試，我們初步完成了終端適配和數(shù)據(jù)降噪問題，可以滿足大部分場景；（3）未來相機(jī)、麥克風(fēng)、IMU等傳感器數(shù)據(jù)融合是必然的趨勢，在不同場景下取長補(bǔ)短，獲得高精度的數(shù)據(jù)。相關(guān)的技術(shù)也在儲備中；

多媒體數(shù)據(jù)處理：（1）壓縮：我們對于語音、圖像、視頻提供豐富的編解碼支持，基于HEVC的圖像編解碼器也已上線灰度；（2）處理：我們提供豐富的圖像及視頻裁剪、降噪、增強(qiáng)能力；（3）人臉：我們提供豐富的人臉特效，支撐社交及其他場景的應(yīng)用；（4）音頻及語音：我們對于語音3A、音頻信號處理有深入理解，支撐音頻錄制、語音通話、音樂播放等相關(guān)場景；

多媒體數(shù)據(jù)理解：（1）深度學(xué)習(xí)xNN 深度優(yōu)化的移動端上DL引擎；（2）位姿計算xSLAM提供高精準(zhǔn)和穩(wěn)定的三維空間估計和位姿估計；（3）目標(biāo)跟蹤x3Dot提供2D、3D的檢測及跟蹤能力；（4）OCR識別用于銀行卡識別、燃?xì)獗碜R別、汽車行駛里程等業(yè)務(wù)場景；

多媒體工程能力：工程能力和用戶體驗息息相關(guān)，高質(zhì)量的工程能力決定了算法能否成功落地。（1）性能優(yōu)化，包括攝像頭啟動耗時優(yōu)化，精細(xì)化內(nèi)存緩沖區(qū)管理，網(wǎng)絡(luò)上傳耗時優(yōu)化，通過IP直連、域名收斂、線程通道隔離等優(yōu)化網(wǎng)絡(luò)下載成功率及耗時；（2）魯棒性&兼容性，xMedia SDK在支付寶上經(jīng)受復(fù)雜應(yīng)用場景的考驗，閃退率遠(yuǎn)低于萬分之一的指標(biāo)；尤其是解決眾多Android多廠商及多系統(tǒng)各種各樣的兼容性問題；（3）包大小，深度裁剪優(yōu)化；

5.2 組件層

基于核心算法，我們提供豐富的多媒體組件供業(yè)務(wù)層使用：

多媒體基礎(chǔ)能力：提供豐富的語音、圖像及視頻處理接口，提供完整的富媒體通信、直播及通話引擎，業(yè)務(wù)可以快速接入；

多媒體智能能力：提供客戶端上深度學(xué)習(xí)引擎、位姿計算引擎、目標(biāo)檢測引擎、3D渲染引擎、手勢識別/人體姿態(tài)識別的人機(jī)交互能力，支撐各種應(yīng)用場景；

6、總結(jié)及展望

智能終端經(jīng)過10多年的發(fā)展，又一次站在巨變前夕，智能化、去中心化逐漸成為趨勢。多媒體技術(shù)部集成算法、工程及硬件能力，希望在終端側(cè)構(gòu)建完整的xMedia SDK：在手機(jī)上提供更加豐富的智能化體驗，積極探索和適配新的硬件形態(tài)，創(chuàng)造新的應(yīng)用場景和方式，提升用戶體驗。我們希望通過自己的努力，實現(xiàn)用戶、商家、設(shè)備之間的互聯(lián)互通，實現(xiàn)我們?nèi)巳嘶ネ?#xff0c;萬物互聯(lián)的夢想！

廣告篇

能看到這里的一定是同道中人，或者對未來智能終端方面有興趣的同學(xué)們，如果有技術(shù)交流或者技術(shù)合作的需求，歡迎聯(lián)系zhenghui.zh@antfin.com。

另外最最重要的在智能化的熱潮中，我們是求賢若渴，歡迎求簡歷、求推薦！

算法組：聯(lián)系pulin.wpl@antfin.com、dajiang.zdj@antfin.com

算法優(yōu)化專家（匯編優(yōu)化大師、gpu優(yōu)化大師、反向逆向工程專家等等）、

圖像視覺專家（攝像頭圖像ISP、AR/VR/3D視覺算法、深度學(xué)習(xí)機(jī)器學(xué)習(xí)、圖形圖像處理等）

音頻算法專家聯(lián)系heyang.th@antfin.com

客戶端：聯(lián)系zhenghui.zh@antfin.com

Android/iOS開發(fā)

3D渲染（有圖形學(xué)經(jīng)驗優(yōu)先）

移動端/互聯(lián)網(wǎng)后臺測試專家

嵌入式相關(guān)，包括Linux嵌入式技術(shù)專家、Android系統(tǒng)驅(qū)動移植等

服務(wù)端：勾搭熱線xiaofeng.dxf@antfin.com

GPU/CUDA優(yōu)化專家；

IoT/java技術(shù)專家

3月24日，我們與你相約“調(diào)度&容器技術(shù)沙龍”上海站！《B 站 Kubernetes 容器平臺建設(shè)之路》《企業(yè)級富容器引擎技術(shù) PouchContainer 詳解》《 HADOOP YARN 的發(fā)展現(xiàn)狀和未來》《 Mesos Container 在 360 的實踐與應(yīng)用》四大主題為業(yè)務(wù)解決方案提供最新思路，更有 Hadoop YARN Committer&PMC Member 到場分享 Hadoop Yarn 最新進(jìn)展。

報名地址：http://sc-meetup.mikecrm.com/L15edXD

名額有限，先到先得～

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的xMedia来了！支付宝客户端的智能化“武器”的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： AI时代的神马搜索！神马智能对话技术深度
下一篇：万万没想到，分布式存储系统的一致性是..