【论文解读】用Dropout思想做特征选择保证效果,还兼顾了线上性能?
作者:煉丹小生
這篇論文《Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach》教會(huì)了我們?nèi)绾巫龃峙拍P图骖櫮P偷男屎托Ч?提出了可學(xué)習(xí)的特征選擇方法FSCD,并在真實(shí)電商系統(tǒng)中應(yīng)用.
簡介
如上圖(a)所示,受系統(tǒng)時(shí)延約束,推薦系統(tǒng)往往是多階段的.再看圖(b),論文提到簡單的representation-focused(RF)模型會(huì)嚴(yán)重制約我們模型的表達(dá)能力(如傳統(tǒng)雙塔,最后一層向量Dot,就是簡單RF模型),主要是缺少特征交叉.所以我們能否在特征上做優(yōu)化,只保留效果好的特征又能保證模型推斷效率更高,用上和精排一樣interaction-focused(IF)的模型呢?當(dāng)然是可以的!
FSCD
粗排用上精排的模型并且要保持高效率,也就意味著在某些方面要做犧牲,那果斷就是在特征上入手了,因此IF的粗排模型用上的特征是精排的子集.如上圖所示,FSCD方法中效果是通過梯度優(yōu)化,效率是通過特征維度的正則化來保證.在訓(xùn)練過程中就可以挖掘到一批有用的特征.
對(duì)于每個(gè)特征而言,都有個(gè)可學(xué)習(xí)的dropout參數(shù)Z𝑗 ∈ {0, 1}?,并且是符合伯努利分布:
該分布的超參是由特征復(fù)雜度cj決定的,cj是由特征的計(jì)算復(fù)雜度oj,向量維度ej,還有key的多少nj一起決定的.
最終損失函數(shù)如下所示:
我們可以看到每個(gè)zj還會(huì)乘上正則化系數(shù):
又因?yàn)閦j的伯努利分布不可導(dǎo),可以近似為:
實(shí)驗(yàn)
參考文獻(xiàn)
1、Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach
https://arxiv.org/pdf/2105.07706.pdf
2、https://zhuanlan.zhihu.com/p/375943741
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【论文解读】用Dropout思想做特征选择保证效果,还兼顾了线上性能?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 太多字段 排除某一列_Ati
- 下一篇: java访问同一个变量_java – 从