隐式反馈的去噪,模型取得巨大提升
Denoising Implicit Feedback for Recommendation!
本篇內容細節會涉及的更多一些,大家可以再次溫故一遍,個人覺得非常有意思的一篇工作。
現實推薦問題的建模中,我們會使用大量的隱反饋來緩解了數據稀疏的問題,不過缺點也非常明顯:
- 隱反饋在反映用戶的實際滿意度方面不夠清晰。
例如,在電子商務中,很大一部分點擊并不能轉化為購買,許多購買最終都會得到負面評價。
隱反饋的噪聲特性目前研究的工作相對較少。本文則探討了去噪內隱反饋推薦訓練。我們發現:
- 含噪聲的內隱反饋會產生嚴重的負面影響,即擬合含噪聲的數據會阻礙推薦者學習實際的用戶偏好。
我們的目標是識別和剪枝噪聲交互,提高推薦訓練的有效性。通過觀察正常的推薦器訓練過程,我們發現噪聲反饋在早期階段通常具有較大的損失值。受此啟發,我們提出了一種新的訓練策略,稱為自適應去噪訓練(ADT),它能自適應地剪除訓練過程中的噪聲干擾。具體來說,我們設計了兩種自適應損失公式:
我們在廣泛使用的binary cross-entropy loss使用,并在三個有代表性的推薦器上測試了所提出的ADT策略,并取得了很好的的效果。
我們令:
實踐中,因為噪音交互的存在,將會誤導模型對于用戶喜好的學習。為了能更好的學習,我們需要盡可能去降低隱式反饋的影響。
此處我們已經訓練了loss提出了ADT來預估,為了減少FP交互的影響,ADT動態的剪枝硬交互,(大損失),在訓練的時候,特別地,ADT選擇對大的loss進行丟棄或者重新加權的方式來減少訓練目標的影響。本文設計兩種方法來構建損失函數來降噪訓練。
- Truncated Loss:這是用動態閾值函數將硬交互的損失值截斷為0;
- Reweighted Loss:在訓練過程中,它自適應地分配與較小權重的硬交互。
1.Truncated Cross-Entropy Loss
T是預定義的閾值, T-CE損失從訓練中移除了一些正向的交互。在實踐中,當我們固定的時候,訓練效果并不是非常好,因為隨著訓練的增加,我們是損失會不斷下降。
最終,我們的drop rate函數如下:
2. Reweighted Cross-Entropy Loss
- 在訓練的時候動態調整權重;
- 該函數應當可以減少硬交互的影響;
- 權重減少的程度可以輕易調整適用于擬合不同的模型和數據集;
此處我們將權重定義為:
- 在訓練的時候能生成動態權重;
- 非常大的CE損失乘上小的權重會被降低;
超參數β動態控制hard和easy交互的權重gap。
為了避免大損失值的負相互作用對優化的影響,權重函數被修正為:
這樣,就可以降低false-negative交互的影響。
由于完全依賴推薦系統來識別FP交互作用,ADT的可靠性可能會受到質疑。
目前已有的許多工作已經指出了大損失和噪聲相互作用之間的聯系,并解釋了潛在的因果關系:
- 深度模型的“記憶”效應。也就是說,深度模型將首先在初始訓練階段學習簡單而干凈的模式,然后逐漸記住所有交互,包括嘈雜的交互。因此,在早期階段丟失深層模型有助于濾除噪聲交互。
另一個問題是,放棄硬交互會限制模型的學習能力,因為有些硬交互可能比簡單交互更具信息量。事實上,正如先前關于課程學習的研究[2]中所討論的,噪聲數據中的硬交互可能會混淆模型,而不是幫助模型建立正確的決策面。因此,它們可能導致較差的泛化。它實際上是去噪和學習之間的折衷。
1.試驗效果
由于ADT在訓練過程中刪減了許多交互,因此我們探討了ADT是否會因為交互商品稀疏而影響非活動用戶的偏好學習。
- 我們可以觀察到,在所有情況下,所提出的ADT策略都比正常訓練獲得了穩定的性能增益,驗證了ADT對非活躍用戶也是有效的。
2.深度分析
- False-positive交互作用的CE損失值逐漸增加,而總體訓練損失逐漸穩定下降。增加的Loss表明推薦參數沒有在False-positive交互作用上得到優化;
- T-CE識別和丟棄這種交互作用的能力,False Positive交互作用的CE損失也呈現下降趨勢,表明推薦系統仍然適合這種交互作用。
- 它們的損失值仍然大于真實的訓練損失,這表明用R-CE損失分配較小權重的假陽性交互是有效的。它會阻止模型快速擬合它們。
我們可以得出這樣的結論:
- 兩種方式都減少了false-positive交互作用對推薦模型訓練的影響,這也解釋它們比正常訓練的好的原因。
本文探討了去為推薦模型訓練去除隱式反饋的方法。我們發現了噪聲隱式反饋的負面影響,并提出了自適應去噪訓練策略來降低其影響。本文描述了兩種損失函數:
- 截斷損失;
- 重新加權損失。
這兩種方式都是通用的,可以應用于不同的推薦損失函數、神經推薦器和優化器。在本文的工作中,我們將這兩個方式應用于廣泛使用的二元交叉熵損失,并在三個數據集進行了實驗,這兩個方式能有效地減少了噪聲干擾隱式反饋,在三個數據集上都取得了非常好的效果。
一元@煉丹筆記總結
以上是生活随笔為你收集整理的隐式反馈的去噪,模型取得巨大提升的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 聊聊Batch Normalizatio
- 下一篇: 推荐系统User-Item Embedd