极测未来|淘宝千人千面内容下的智能评测技术与实践
背景挑戰
全面個性化、內容化的淘寶,構造了基于內容的豐富的導購場景,包括猜你喜歡、有好貨、每日好店、必買清單、哇哦視頻、微淘、買家秀、頭條、洋蔥盒子….。個性化,給消費者帶來更精準的貨品分發。內容化為消費者帶來更多驚喜和好的體驗,“好的商品,應該以更好的形式展現給消費者”。
不同于傳統測試業務,導購業務非確定性的輸入輸出,給質量工作帶來的兩大挑戰,接下來會從這兩個方面介紹:
- 用戶側--千人千面導購推薦系統如何評估
- 平臺側--多來源,多類型,高標準下如何高效管控素材質量
個性化評測
1.多維評估體系
推薦系統模型研發過程包含離線特征處理--模型網絡設計--離線訓練--離線預估--在線部署-- ab 實驗--模型優化。
通常的評估手段包含兩類:
- 離線預估:從算法模型視角,包含 auc、f1score、precision、recall、NDCG 等指標
- 在線評估:從業務效果視角,包含點擊率、轉化率、互動率、pv、uv 等指標
以上兩類評估手段在用戶體驗方面存在不足,會產生中長期用戶體驗詬病,比如買了還推,全域趨同等。基于此,我們從五個維度定出了對于導購推薦全局評估指標體系:
- 豐富度:包含打散度、多樣性、覆蓋率等指標,打散度為例,指同一坑位或者同一頁面,圖片主體,商品主體是否過于同質,是否有更豐富的商品推薦。
- 友好度:包含曝光過濾、購買過濾等指標,買了還推等問題也是用戶對電商類推薦系統詬病比較集中的地方。用戶有比較,比價等相關延展性的消費訴求,但相比純內容推薦,用戶對電商類推薦疲勞度會更低。
- 相關度:包含相關性、發現性等指標。推薦系統普遍基于協同過濾策略,相關性對于短期匹配效率和發現性對于中長期興趣、貨品挖掘,各有優劣,需要整體平衡。
- 可信度:除涉黃、涉政等紅線標準,淘寶對于素材是否真實準確描述貨品要求極高。包含標題黨,主體糅雜,主體模糊,不完整,切割等。
- 美觀度:牛皮蘚、構圖布局,惡心主體等,比如特寫牙齒病,皮膚病等素材不適合在首頁、會場等公域場景透出。
2.統計學習評估流程
確定了評估標準,評估流程包含以下幾大步驟,通過模型測試集輸出推薦結果,利用統計學習方法,進行指標自動計算,各指標相關性分析,進行整體業務評估度量。
為什么采用統計學習方法:
- 更精準的指標刻畫:比如推薦商品打散度,服飾和箱包vs服飾和家裝,從傳統規則(類目、標簽等)分類,他們是一樣的差異,但運用word2vec,映射到高維向量空間,能更精準地去刻畫距離,用于打散度和多樣性等指標計算。
- 多維度的全局評估:整體指標好壞是一個非凸優化的問題,各指標間有相互的平衡關系,每一個場景在不同業務階段,關注的核心指標也會存在差異。需要通過統計學習的方法,進行相關性分析,因子分析等,在幾十個指標基礎上形成置信基線的全局評估。
例:下圖為某導購場景評測指標相關性矩陣,橫縱分別為各評測指標,例如在某一個階段,A指標和X指標正線性強相關,卻和Y指標負線性強相關。需要對評測指標進行綜合統計分析,才能對導購系統做出合理性的評估。
3.當前結果
基于5個維度,建立多評測指標計算服務,產出指標合理性置信區間基線,運用于日常導購和大促會場等個性化評測。在淘寶大促個性化會場,及時發現打散不足、推薦不足、重復推薦、推薦趨同、視覺同圖等5類,250+個性化會場問題。提前優化,第一次評測整體通過率90%,通過多輪輪評測驗證,會場上線前整體通過率提升到99%。
素材質量管控
1.淘寶素材質量標準
電商平臺素材包含商家商品發布、招商報名、導購選品、達人創作等來源,文本、圖像、商品、內容類等類型。素材質量對于用戶體驗、增長轉化、平臺質量都起到重要作用。而在這其中,圖像(圖片、視頻)作為體驗表達的重要媒介,是我們重點管控對象。
電商類業務在素材質量標準上,有以下三個特點(以某會場商品白底圖部分基礎規范為例):
(1)素材信息表達要求準確:避免圖片與實物不符,誤導用戶,包含主體完整,單主體,無模特等要求。
(2)高質量圖片轉化效率更高:feeds流下用戶視覺輸入的信息量大,精美,布局合理的圖片更能脫穎而出,有更好的轉化,平臺也能提供更好的用戶體驗,包含牛皮蘚、純白底、無陰影和摳圖等。
(3)不同場景顆粒度差異:比如商品主圖的牛皮蘚,在公域會場和性價比營銷場景,標準顆粒度不一樣(輕微可接受、輕微不可接受)。
2.素材質量管控方案
所以素材質量管控方案,需要考慮不同場景檢測能力能夠快速生成,甚至是能夠讓業務運營同學參與進來。基于此,淘寶內容導購質量團隊與淘寶基礎算法團隊合作,基于多任務共享特征網絡模型,構建圖像質量檢測服務方案--水滴。通過快速圖像檢測能力生成,解決不同場景劣質素材質量運營的問題,提升素材質量和用戶體驗。
整體方案:
將模型訓練研發過程樣本獲取,特征處理,構建訓練模型網絡,參數調優等工作通過共享模型訓練和統一平臺方式消減。快速、復用、靈活泛化的多模型產生。例:牛皮癬檢測模型1,牛皮癬檢測模型2,牛皮癬檢測模型n…,并通過持續樣本調整,構建運營業務標準和建模橋梁。
共享模型策略特點:
- 多任務共享特征提高識別效率:多任務遷移學習網絡模型,各個任務共享基礎特征,減少基礎特征重復計算,提高預測效率;多任務網絡模型,各個任務共享基礎特征,可以減少深度網絡模型對各個任務的訓練數據量需求,比如對于牛皮癬、logo、水印等高度相似任務,特征具有高度相似性,可以顯著提高各任務識別精度。但當任務間相似程度不是很?情況,會增加模型的擬合難度,為此我們采? CurriculumLearning 訓練策略、從簡到難逐步進行網絡學習,同時模型上也結合半監督正則項,充分利用了海量無標簽數據,進一步提高精度。
- 噪聲樣本識別提高模型精度:循環學習策略識別噪聲標簽樣本,提高訓練數據質量,進而提高模型最終識別精度;詳見論文《O2U-Net: ASimple Noisy Label Detection Approach for Deep Neural Networks》,已被 ICCV (國際計算機視覺大會)采錄。
為了提高模型最終精度,深度網絡對于訓練數據精度要求很高,然而很多圖像質量任務都存在邊界定義模糊、難標注等問題,導致訓練數據往往存在噪聲標簽,為了解決圖像質量數據難標注、噪聲問題,我們提出一種噪聲標簽識別方法:通過采用循環學習策略方法,使得模型反復在 overfifitting 和 underfifitting 之間相互轉換,網絡在這種學習過程中干凈標簽樣本和噪聲標簽樣本會出現明顯的區分性特征,利用這種方法可以幫助我們很快找到那些訓練數據集中的噪聲標簽樣本,提高訓練數據質量,最終保證模型精度。
工程架構和運轉機制:
3.當前結果
建立牛皮癬、多主體、模特衣架、低俗情趣、水印、二維碼等 40+ 劣質素材檢測模型,提供離在線檢測服務,周均 2 億+服務運行,對導購業務各類商品、內容劣質素材從供給端進行質量檢測,卡口治理,累計檢測出劣質素材 7500 萬+,并下線過濾。
擴展—無線CVT測試
除了用于素材質量整體管控,我們也在思考是否能將視覺技術引入測試領域,構造檢測斷言,用計算機代替測試人員的眼睛,這樣高效,精準(像素級)發現問題,自動回歸。基于此,構造了CVT--基于計算機視覺技術的自動化測試方案并落地實施。
基于feeds流的無線測試通常涉及到這些方面工作
- 多機多版本下適配測試
- 容災測試(當服務端或模型產生異常,兜底數據方案是否會正確透出)
- 異常檢測(是否出現空窗,白屏,錯誤提示框等)
- 視覺布局檢測(文字截圖,重疊,布局留白等,視覺要求像素級標準檢測)
- 性能測試(我們需要準確采集各機型毫秒級真實體感的渲染時間、可交互時間等)
通過目標檢測、輪廓提取、ocr、以及快速機器學習多任務模型生成能力,全面運用到以上上線前內部的測試工作中。
例:CVT適配自動化測試
例:CVT視覺異常檢測(空窗、白屏、錯誤框、模糊、截斷等...)
3.當前結果
覆蓋淘系大促會場、導購、二三方小程序、拍賣、阿里眾籌等業務場景,運行總任務數5500+個,發現問題近100個,包括視覺還原像素級、空坑、多余留白、文本覆蓋、文本截斷、服務異常等問題。
總體展望
大數據系統質量評估需要業務、算法、體驗目標三位一體綜合衡量。數學思想、統計方法與質量工作結合,很好提升測試效率和科學性。我們今年會持續在更多質量領域,比如數據質量,素材質量運營,無線測試驅動,去深化演進質量體系,為用戶帶來極致的體驗。
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的极测未来|淘宝千人千面内容下的智能评测技术与实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL单表数据不要超过500万行:是
- 下一篇: 滴滴经验分享:SQLFlow如何让运营专