隔空手势操作、智能护眼模式——详解优酷最新交互技术
目前,人臉和圖像識別的相關技術已經廣泛投入到商業應用中,比如以 FaceU 為代表的視頻拍攝工具類 APP,以及各種直播類 APP 中都有基于臉部的動態貼紙特效功能。此外各大硬件廠商也在設備的系統層面上提供了類似的功能,比如蘋果從 iPhoneX 開始提供的 Animoji 玩法,華為在 Mate30 系列以及 Google 的 Pixel4 手機上都提供了通過隔空手勢來操作設備的功能。
作為視頻平臺,優酷天然地與用戶有非常多的潛在互動場景。從去年開始,我們加快了在“創新交互”上的預研,主要方向為基于圖像識別算法、基于智能硬件的應用實踐,以下為技術上的思考總結,希望對大家有啟發。
一、基于圖像識別算法實現隔空手勢操作
1.背景介紹
當用戶使用移動端設備,選擇一個綜藝或劇集后,會處于一個長時間的靜止觀看狀態,雙手自然地被釋放出來,且距離屏幕如此地近,隔空手勢操作就成為一個很好的切入點。因為既然用戶不需要經常性的操作設備,用戶就更有動機不會長時間地接觸設備,從而釋放雙手去同時做其他的事情,那么當用戶偶爾地需要再次操作設備時,比如臨時地暫停 / 播放就帶來了操作成本(需要再次起身走近或拿起設備),因此如果通過隔空手勢能完成這些操作就給用戶降低了這種場景的操作成本,從而為用戶體驗帶來了價值。
并且,我們發現優酷的 iPad 版本是最適合接入這個功能的,它更適合近距離觀看,而且有攝影頭。
基于 iPad 本身的特性,我們對圖像識別技術的性能也是有要求的,平板電腦本身還是個移動設備,因此不能帶來設備的耗電量加劇、設備過熱發燙等影響,最終我們與阿里達摩院的 AILabs 團隊合作。AILabs 團隊的手勢識別效果已經在天貓精靈上得到驗證,其識別成功率上在 95% 以上,并且在我們接入后基于優酷 iPad 的用戶規模會帶來更多的數據回流以供算法模型的訓練,從而良性循環地持續提升識別成功率。
同時對硬件 CPU 的消耗也很低,經過實測在非低端設備上的耗電量、發燙等問題均在可接受范圍內。
2.實現方案:
我們在優酷 iPad 的部分機型上通過 4 種手勢實現了六種隔空手勢操作:播放 / 暫停、快進、快退、全屏 / 半屏切換。
同時考慮到性能影響,在滿足識別需要的同時采用了攝像頭最低的 540 分辨率以及 15 幀率的圖像數據。并且,由于回流的數據屬于敏感的用戶隱私數據,我們對回流的數據執行嚴格的無人為處理并且供數據模型訓練后及時銷毀。
3.線上效果:
目前開啟該功能的用戶,日均使用 30 次左右,目前利用數據回流帶來的算法模型優化手勢識別的成功率達到了 97.4%,并且還在持續提高。從媒體和渠道的反饋看,用戶對這類簡單好用的互動功能,接受度很高,比如有用戶就給了“吃飯時看視頻神器”的標簽。
接下來,我們還會嘗試接入新的手勢及其他類型的交互方式,給用戶帶來更好的體驗。
二、基于設備硬件實現兒童護眼模式
1.背景介紹
相信有孩子的家長們一定做過這樣的事:當孩子看視頻時,經常會叮囑“離屏幕遠一點”。自從蘋果的 iPhoneX 和 2018 年的 iPad Pro 開始就集成了前置的原深感攝像頭,可以獲取到人臉相關信息,實現人臉識別解鎖等功能。這部分能力已開放,可以以幀為單位實時獲取識別到的人臉數據,包括 51 種臉部局部表情,人臉 3D 模型的物理世界坐標,甚至包括眼部等局部位置的坐標信息等。iOS 系統提供的 Animoji 也是基于這套硬件實現的。那么如果利用系統提供的這個“天然”的能力,我們就可以將其應用到實時監測兒童的眼睛距離屏幕的距離,來實現“自動提示”的護眼模式。
2.實施方案
我們選定 40 厘米作為兒童眼睛距離屏幕的安全距離,當眼睛距離屏幕中心小于該距離時播放畫面會給出護眼提示,同時暫停播放內容。當眼睛移至 40 厘米之外時,再次恢復播放狀態。
3.分享一個技術實現細節
設備監測到的雙眼坐標是“基于以攝像頭為原點的三維笛卡爾坐標系”,即人眼到攝像頭的距離,而實際上我們需要獲取的是“人眼距離屏幕中心點”的距離,兩者存在一定誤差,我們希望盡可能的縮小或消除它。
優化策略:系統返回的坐標信息就是基于以攝像頭為原點的仿射變換 4 維矩陣,該矩陣的第四列向量的前三個元素即為 x、y、z 坐標數據,以米為單位。那么我們只需要構造出包含屏幕中心點相對于攝像頭的變換矩陣即可,因為處于同一坐標系,且距離單位相同,通過計算就可以得到相對更準確的距離。
這里屏幕中心點距離攝像頭的距離即 x 軸分量可以通過拿尺子實際測量的方式來獲取,由于屏幕中心點相對于攝像頭位置是永遠不變的且同處在 xy 平面內,因此只需要一個 4 階單位矩陣將其第四列向量中的 x 軸分量值替換成實際測量的距離并以米為單位就可以了。
三、總結
如何應用現有的技術,小步快跑地提升用戶體驗?我的一點經驗是:一是基于對技術的需求,以合作實現最終目的,二是依賴系統提供的現有能力找到適合自己業務場景的應用。三是要提升用戶體驗,不一定要覆蓋全部用戶。我們在交互方式上的兩種探索,都是以極低成本,先為一部分用戶帶來實際價值,再去思考創新延展。
作者 | 阿里文娛高級開發工程師 思也
總結
以上是生活随笔為你收集整理的隔空手势操作、智能护眼模式——详解优酷最新交互技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 武汉大学 计算机博士复试分数线,武汉大学
- 下一篇: 《行为经济学》北京大学 孟涓涓 第四章