负样本修正:CVR预估时间延迟问题
你的標簽錯了,而且錯了很多!
一元@煉丹筆記在推薦搜索的建模中,我們經(jīng)常會使用D+1天的數(shù)據(jù)作為label,從1~D天的數(shù)據(jù)中的進行特征抽取等工作,和我們時間序列問題建模類似,但和很多其他的時間序列問題建模不一樣的地方在于,我們的label不一定可靠,比如在傳統(tǒng)的時間序列回歸中,D+1天的銷量是多少就是多少,我們沒有太多的猶豫,因為不大會有其他的情況。但是在電商的問題中,就存在下面這種情況:
D+1天未購買可能并不一定是真正意義上的未購買,而可能是加入購物車或者意愿清單了, 只是沒有在當天下單, 而是過了一天在D+2天的時候下了單, 而這樣的標簽如果我們直接默認其為負樣本就會有較大的問題,因為它并不是真正意義上的負樣本,只是反饋延遲了。這在搜索推薦系統(tǒng)中,我們稱之為延遲反饋的問題。
那么這個問題嚴重嗎?如果只有1%不到的數(shù)據(jù)在第二天甚至之后出現(xiàn)了延遲,那么或許并不是一個問題,但實際呢?在Criteo公司早期,
- 有35%的商品會在點擊后一個小時內(nèi)得到轉(zhuǎn)化;
- 有50%的商品會在點擊后24h內(nèi)得到轉(zhuǎn)化;
- 有13%的商品會在點擊后2周之后才得到轉(zhuǎn)化。
那么如何解決該問題呢?
對時間延遲建模
這個問題較早在2014文章Modelling Delayed Feedback in Display Advertising中被提出,該文十分經(jīng)典,同時提出的問題十分具有實踐價值,但是已經(jīng)過去了6年, 本文我們就研討最新的IJCAI20關(guān)于CVR預(yù)估標簽延遲的paper.《An Attention-based Model for CVR with Delayed Feedback via Post-Click Calibration》。
最新延遲反饋論文解讀
問題背景
在早期對于標簽反饋延遲的建模都是建立在LR等傳統(tǒng)模型上,會存在模型表示能力欠缺以及需要大量人工專家特征的問題,本文將傳統(tǒng)的模型替換為現(xiàn)在火熱的深度學(xué)習(xí)模型,從而大大提高模型的表示能力。
但是在深度模型用于推薦問題時,又會出現(xiàn)大量類別特征EMbedding的稀疏性問題,這在CTR建模的時候是很容易得到解決的,因為CTR數(shù)據(jù)集是非常大的,模型往往可以學(xué)習(xí)到不錯的Embedding信息,但是CVR的數(shù)據(jù)集是相對較小的。
所以如何解決數(shù)據(jù)稀疏性的問題是一個非常大的挑戰(zhàn);
此外,早期的文章都假設(shè),也就是說,用戶在點擊商品之后到現(xiàn)在的時間是不影響我們商品的最終轉(zhuǎn)化以及轉(zhuǎn)化時間,這其實是不對的。
很明顯地,用戶在點擊完某個商品之后對于其他商品的點擊會影響最終是否會購買該商品?
以及最終購買該商品的時間(本文做了一定泛化,依然假設(shè)點擊item之后到目前的時間不會影響最終商品是否會轉(zhuǎn)化,但是會影響商品最終轉(zhuǎn)化的時間)。
所以本篇文章就是Focus在解決數(shù)據(jù)稀疏性以及標簽延遲反饋的問題上提出了一種新的解決方案。
下面我們看看本文是如何來解決這兩大挑戰(zhàn)的。數(shù)據(jù)稀疏性問題&時間延遲建模
模型部分
數(shù)據(jù)稀疏性問題
為了處理因為數(shù)據(jù)樣本量稀少而帶來的大量ID特征學(xué)習(xí)不充分的問題,本文使用預(yù)訓(xùn)練好的Telepath從Item的圖像中學(xué)習(xí)得到結(jié)果替換稀疏的ID特征,以此來緩解該問題。從文章最后的實驗中我們也發(fā)現(xiàn),數(shù)據(jù)稀疏性帶來的影響是巨大的,具體地可以參見實驗部分。
轉(zhuǎn)化模型&時間延遲模型
在稀疏ID的Embedding處理完成之后,接下來我們看一下我們的模型框架,
本文的模型框架主要分為左右兩個模塊,左側(cè)的轉(zhuǎn)化模型以及右側(cè)的時間延遲模型。
1.左側(cè)轉(zhuǎn)化模型:
我們可以用自己設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)來構(gòu)建自己的轉(zhuǎn)化模型. 本文的轉(zhuǎn)化模型的構(gòu)建主要有三個模塊,我們由后往前看,
2.時間延遲模型
2.1 關(guān)系梳理
和《Modeling Delayed Feedback in Display Advertising》論文中類似,我們還需要得到
我們將轉(zhuǎn)換的延遲時間全部轉(zhuǎn)化為天的粒度, 在Survival Analysis中我們知道, 只要得到其中任意一個的表示,就可以得到其他的表示,也就是說我們對f(t)或者s(t)進行假設(shè)之后,就可以推導(dǎo)得到f(t),h(t)以及s(t)三者的表示.
2.2 網(wǎng)絡(luò)表示
那么接下來我們只需要看一下該概率是如何通過網(wǎng)絡(luò)層進行表示的,具體可以參考文章給出的右側(cè)的網(wǎng)絡(luò)大致框架進行解讀。和之前的一樣,我們由后往前看,
實驗結(jié)果
1.整體性能比較:
我們看一下本文的實驗結(jié)果,
從上面的實驗中,我們發(fā)現(xiàn):
- Item的Embedding初始化對效果的影響是巨大的;
- Time Delay模塊的影響僅次于Item的Embedding初始化;
- SelfAttention的影響是WP1和JD-MP數(shù)據(jù)集上的影響是相對較小的。
2.Time Delay分析:
我們從Figure2中可以看到,我們的在訓(xùn)練集和測試集上的時間延遲分布是類似的,此處我們用Jensen-Shannon divergence來刻畫不同模型對于time delay的預(yù)測,而從結(jié)果上看,本文的算法對于時間延遲的預(yù)測也是最好的。
一本有仙氣的筆記,記錄了AI里的不凡 與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的负样本修正:CVR预估时间延迟问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Normalization在CTR问题中
- 下一篇: 当推荐系统遇上用户画像:你的画像是怎么来