SIGIR 2020 | 第四范式提出深度稀疏网络模型,显著提升高维稀疏表数据分类效果...
?
如今,在金融、零售、電商、互聯(lián)網(wǎng)等領域的 AI 應用中,表數(shù)據(jù)都是最為常見且應用廣泛的數(shù)據(jù)格式。將表數(shù)據(jù)進行準確的分類預測,對業(yè)務的提升起著至關重要的作用。
日前,第四范式提出了全新的深度神經(jīng)網(wǎng)絡表數(shù)據(jù)分類模型——深度稀疏網(wǎng)絡(Deep Sparse Network,又名 NON),通過充分捕捉特征域內信息、刻畫特征域間潛在相互作用、深度融合特征域交互操作的輸出,獲得超過 LR、GBDT 等常用算法以及 FFM、Wide&Deep、xDeepFM、AutoInt 等基于深度學習算法的分類效果,提升了表數(shù)據(jù)的預測準確度。
論文標題:Network On Network for Tabular Data Classificationin Real-world Applications
論文作者:羅遠飛、周浩、涂威威、陳雨強、戴文淵、楊強
論文鏈接:https://arxiv.org/abs/2005.10114
表數(shù)據(jù)分類模型的現(xiàn)狀
在表格數(shù)據(jù)中,每行對應一個實例(樣本),每列對應一個特征域。表數(shù)據(jù)分類是根據(jù)實例的特征域,將其分到對應的類別中。表數(shù)據(jù)通常同時具有連續(xù)特征域和類別特征域,而類別特征域通常是高維稀疏的。例如在在線廣告中,類別特征域“advertiser_id”可能包含數(shù)百萬個不同的廣告主 id。
?
過往,包括隨機森林、GBDT 在內的樹模型常用于表數(shù)據(jù)分類,它們對連續(xù)數(shù)值表數(shù)據(jù)有很好的效果,但對包含高維離散特征域的表數(shù)據(jù)不友好。一方面,樹模型需要枚舉所有特征域的所有特征,這對于高維的類別特征域來說效率很低。另一方面,由于類別特征域的稀缺性,對其進行分割所獲得的收益較小。
?
因此,在實際應用場景中,對數(shù)幾率回歸(Logistic Regression,LR)成為了大規(guī)模稀疏表數(shù)據(jù)分類的常用方法之一,但由于其線性特性,它缺乏對特征域間非線性交互的學習能力。因此 LR 通常需要進行大量的特征工程,來刻畫目標與特征域之間的非線性。
?
此外,FM 與 FFM 將稀疏輸入特征嵌入到低維稠密向量中,并利用向量的內積顯式學習特征間二階交互。FM 和 FFM 取得了較好的效果,但由于它們的結構較淺,其表達能力也受到了限制。
?
近年來,基于深度學習的表格數(shù)據(jù)分類方法以其強大的表示能力和泛化能力得到了廣泛的研究,并取得了一定的成功。包括 Wide&Deep、DeepFM(Deep Factorization Machine)、xDeepFM、AutoInt 在內的深度學習模型大多采用如下設計范式:
1)將每個特征域的輸入映射為低維稠密向量;
2)使用 DNN 或 FM 等多種操作直接融合不同特征域對應的向量;
3)將各操作的輸出進行線性加權,得到最終的預測結果。
?
然而此類方法有以下三個問題:
首先,現(xiàn)有方法直接融合不同特征域的向量表示,而未顯式地考慮域內信息。我們將“每個特征域內的不同特征值,均屬于同一個特征域”記為域內信息。對于每個特征域中的特征,它們的內在屬性是都屬于同一個特征域。
以在線廣告場景為例,假設特征域 ‘a(chǎn)dvertiser_id’ 和 ‘user_id’ 分別表示廣告商和用戶的 ID,則特征域 ‘a(chǎn)dvertiser_id’(‘user_id’)中的不同的廣告商 ID(用戶 ID)都屬于廣告商(用戶)這個特征域。此外,特征域有自己的含義,如 “advertiser_id” 和 “user_id” 分別代表廣告主和用戶,而不管域內特征的具體取值。
?
其次,大多數(shù)現(xiàn)有方法使用預定義的特征域交互操作組合(如 DNN、FM),而未考慮輸入數(shù)據(jù)。事實上,預定義的操作組合并不適用于所有的數(shù)據(jù),而是應該根據(jù)數(shù)據(jù)選擇不同的操作,以獲得更好的分類效果。
?
最后,現(xiàn)有方法忽略了特征域交互操作(如 DNN 和 FM)的輸出之間的非線性。
全新模型結構帶來出色的效果
為了解決上述問題,第四范式提出了深度稀疏網(wǎng)絡,它由三部分組成:底層為域內網(wǎng)絡(Field-wise Network),中層為域間網(wǎng)絡(Across Field Network),頂層為融合網(wǎng)絡(Operation Fusion Network)。
?
域內網(wǎng)絡為每個特征域使用一個 DNN 來捕獲域內信息,域間網(wǎng)絡采用多種域間交互操作來刻畫特征域間潛在的相互作用,最后,融合網(wǎng)絡利用 DNN 對所選特征域交互操作的輸出進行深度融合,得到最終的預測結果。
2.1 域內網(wǎng)絡
現(xiàn)有的主流深度表數(shù)據(jù)分類方法中,特征域內信息沒有被顯示地考慮并加以利用。深度稀疏網(wǎng)絡利用域內網(wǎng)絡來顯示地學習特征域內信息。在域內網(wǎng)絡中,每個特征域都與一個 DNN 相連,并且每個特征域的 embedding 首先輸入到該 DNN 中。鑒于 DNN 的強大的表達能力,特征域內信息可以被充分地學習。
?
在實際應用中,不同特征域對應的域內網(wǎng)絡可以堆疊(stacking)起來,使用并行計算進行加速。另外,域內網(wǎng)絡輸出的 embedding 可以直接輸入到域間網(wǎng)絡,也可以通過和原始的 embedding 相互作用,來修正得到的 embedding,常見的修正方法有拼接、按位相乘、門操作等。
2.2 域間網(wǎng)絡
域間網(wǎng)絡采用多種交互操作來刻畫特征域間的潛在相互作用,常見的特征域交互操作包括 LR、DNN、FM、Bi-Interaction 和多頭自注意網(wǎng)絡等。現(xiàn)有方法中,域間交互操作的方式是用戶事先制定的。而在深度稀疏網(wǎng)絡中,可以通過數(shù)據(jù),自適應地選擇最合適的操作組合,即在深度稀疏網(wǎng)絡中,操作組合的選擇是數(shù)據(jù)驅動的。
2.3 融合網(wǎng)絡
現(xiàn)有的方法對不同操作的輸出線性地加權求和,然后通過 sigmoid 函數(shù)得到最終的預測結果,而忽略了不同操作輸出之間的非線性關系。在深度稀疏網(wǎng)絡中,融合網(wǎng)絡通過 DNN 對域間網(wǎng)絡所選操作的輸出進行深度融合,并得到最終的預測結果。
2.4 逐層監(jiān)督訓練
?
雖然 NON 模型結構增強了模型的表現(xiàn)力,但其模型復雜度也隨之升高,訓練更加困難。對此,第四范式引入逐層監(jiān)督訓練技術,即在神經(jīng)網(wǎng)絡的中間層引入額外的損失函數(shù),使得中間層的表達更具判別性。經(jīng)測試,該方案不僅能夠增加模型最終預測效果,也使得模型能在更短的時間內,取得更好的效果。
實驗
3.1 實驗數(shù)據(jù)
本次實驗共選取了六個數(shù)據(jù)集,包括三個流行的基準數(shù)據(jù)集 Criteo、Avazu、Movielens (ML-20M) ,以及三個實際業(yè)務數(shù)據(jù)集 Talkshow、Social、Sports。數(shù)據(jù)集從百萬到千萬級,具體統(tǒng)計信息如下表所示。
3.2?全新的結構設計提升泛化性能
經(jīng)多個公開數(shù)據(jù)集驗證,域內網(wǎng)絡捕獲的域內信息有助于提高模型的泛化性能;且隨著 NON 不同的組件堆疊,模型的預測效果持續(xù)增長。
3.3?效果全面領先主流深度模型
與 FFM、DNN、Wide&Deep、NFM、xDeepFM、AutoInt 等模型相比,深度稀疏網(wǎng)絡在實驗數(shù)據(jù)集上均能獲得最好的結果,AUC 可提高 0.64%~0.99%。
3.4?根據(jù)數(shù)據(jù)選定合適的特征域間交互操作
在域間網(wǎng)絡中,深度稀疏網(wǎng)絡將不同的交互操作視為超參數(shù),并根據(jù)在具體數(shù)據(jù)上的預測效果,選擇最適合的交互操作。其中,DNN 被視為必選,而其他操作(LR、Bi-Interaction和multi-head self-attention)被視為可選。同時,我們通過固定深度稀疏網(wǎng)絡的其他層,只變換域間網(wǎng)絡中不同的操作組合來進行更多驗證。
可以看出沒有一個操作組合能夠在所有數(shù)據(jù)集上都取得最優(yōu)效果,這表明了根據(jù)數(shù)據(jù)選擇操作組合的必要性。而大數(shù)據(jù)集傾向于選擇容量大、復雜的操作組合,小數(shù)據(jù)集傾向于輕量、簡單的操作組合。
?
3.5?深度稀疏網(wǎng)絡能夠有效捕獲域內信息
通過對域內網(wǎng)絡處理前后特征值對應的向量進行可視化和比較,可以看出經(jīng)過域內網(wǎng)絡后,每個域內的特征在向量空間中更加接近,不同域間的特征也更容易區(qū)分。
通過進一步計算數(shù)據(jù)中特征的平均余弦距離(數(shù)值越大,相似度越高),域內網(wǎng)絡可以使余弦距離提高一到兩個量級,即能有效地捕獲每個域內特征的相似性。
未來,第四范式還將基于軟硬一體化技術持續(xù)優(yōu)化深度稀疏網(wǎng)絡,在保證模型效果、計算效率提升的同時,進一步降低算力成本,以推動新技術應用落地。
?
更多閱讀
?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的SIGIR 2020 | 第四范式提出深度稀疏网络模型,显著提升高维稀疏表数据分类效果...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 哈佛混不下去的学者 32 年后拿下诺奖:
- 下一篇: 高通发布 Networking Pro