负样本修正:既然数据是模型的上限,就不要破坏这个上限
在清洗數(shù)據(jù)構(gòu)造正負(fù)樣本時(shí),由于日志的延遲上報(bào)問(wèn)題,在點(diǎn)擊事件的問(wèn)題中構(gòu)造樣本時(shí),往往會(huì)出現(xiàn)將曝光未點(diǎn)擊數(shù)據(jù)誤以為是負(fù)樣本的情況,可真實(shí)的負(fù)樣本真的是這樣嗎?
在Facebook的《Embedding based Retrieval in Facebook Search》論文中,
在訓(xùn)練練數(shù)據(jù)挖掘方面,Facebook基于召回指標(biāo)驗(yàn)證召回流程中不同正負(fù)樣本的選擇策略。
針對(duì)以用戶點(diǎn)擊為正樣本時(shí)的負(fù)樣本選擇:
- 從文檔池隨機(jī)選取作為負(fù)樣本,即easy case;
- 同一次會(huì)話中的曝光未點(diǎn)擊文檔作為負(fù)樣本,即hard case。
結(jié)果表明,曝光未點(diǎn)擊作為負(fù)樣本的召回率遠(yuǎn)低于隨機(jī)負(fù)樣本,約55%的召回率退化。作者認(rèn)為原因在于全部以hard case做負(fù)樣本的訓(xùn)練數(shù)據(jù)和實(shí)際召回任務(wù)面對(duì)的數(shù)據(jù)分布不一致,實(shí)際索引中大多數(shù)是和用戶query差別很大的easy case。
針對(duì)正樣本的選擇策略:
- 用戶點(diǎn)擊為正樣本
- 曝光即為正樣本
實(shí)驗(yàn)表明,用戶點(diǎn)擊和曝光分別作為正樣本的召回指標(biāo)相差不多,添加曝光數(shù)據(jù)并不能增加額外價(jià)值,增大訓(xùn)練數(shù)據(jù)規(guī)模也不能。
IJCAI20關(guān)于CVR預(yù)估標(biāo)簽延遲的論文《An Attention-based Model for CVR with Delayed Feedback via Post-Click Calibration》,討論了搜索推薦系統(tǒng)中延遲反饋的的負(fù)樣本問(wèn)題。
在推薦搜索的建模中,我們經(jīng)常會(huì)使用D+1天的數(shù)據(jù)作為label,從1~D天的數(shù)據(jù)中的進(jìn)行特征抽取等工作,和我們時(shí)間序列問(wèn)題建模類似,但和很多其他的時(shí)間序列問(wèn)題建模不一樣的地方在于,我們的label不一定可靠,比如在傳統(tǒng)的時(shí)間序列回歸中,D+1天的銷量是多少就是多少,我們沒(méi)有太多的猶豫,因?yàn)椴淮髸?huì)有其他的情況。但是在電商的問(wèn)題中,就存在下面這種情況:
D+1天未購(gòu)買可能并不一定是真正意義上的未購(gòu)買,而可能是加入購(gòu)物車或者意愿清單了, 只是沒(méi)有在當(dāng)天下單, 而是過(guò)了一天在D+2天的時(shí)候下了單, 而這樣的標(biāo)簽如果我們直接默認(rèn)其為負(fù)樣本就會(huì)有較大的問(wèn)題,因?yàn)樗⒉皇钦嬲饬x上的負(fù)樣本,只是反饋延遲了。這在搜索推薦系統(tǒng)中,我們稱之為延遲反饋的問(wèn)題。
本文的模型框架主要分為左右兩個(gè)模塊,左側(cè)的轉(zhuǎn)化模型以及右側(cè)的時(shí)間延遲模型。
1.左側(cè)轉(zhuǎn)化模型:
2.時(shí)間延遲模型
關(guān)系梳理
這個(gè)問(wèn)題較早在2014文章《Modelling Delayed Feedback in Display Advertising》中被提出,當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)等還沒(méi)那么流行,但是解決的思路非常值得借鑒。在廣告推薦中,有一個(gè)指標(biāo)價(jià)值是非常大的:
eCPM=CPA?P(conversion,click)=CPA?P(click)?P(conversion|click),
CPA: Cost per conversion, 廣告商愿意為每個(gè)轉(zhuǎn)化支付的金額, 如果eCPM高的話,意味著我們可能獲得更多的錢。
從上面這點(diǎn)可以看出,我們希望能很好地預(yù)估某個(gè)廣告的轉(zhuǎn)化概率(最終轉(zhuǎn)化即可,對(duì)應(yīng)到下文P(C=1|X=x).
我們先定義五個(gè)變量,
問(wèn)題轉(zhuǎn)化
曝光Bias:暴露偏差的發(fā)生是因?yàn)橛脩糁唤佑|到特定項(xiàng)目的一部分,因此未觀察到的交互并不總是代表消極偏好。
特殊地,用戶和商品之間未被觀察到的交互可以歸因于兩大原因:1)商品與用戶興趣不匹配;2)用戶不知道該商品。因此,在解釋未觀察到的相互作用時(shí)會(huì)產(chǎn)生歧義。無(wú)法區(qū)分真正的消極互動(dòng)(如暴露但不感興趣)和潛在的積極互動(dòng)(如未暴露)將導(dǎo)致嚴(yán)重的Bias。以前的研究已經(jīng)調(diào)查了數(shù)據(jù)暴露的幾個(gè)方面:
1)暴露受先前推薦系統(tǒng)的策略的影響,這些策略控制要顯示哪些商品。
最近的一些工作也將這種“曝光偏差”(exposure bias)稱為“前一模式偏差”(previous mode bias)。2) 因?yàn)橛脩艨梢灾鲃?dòng)搜索和查找自己感興趣的商品,這樣會(huì)導(dǎo)致相關(guān)的商品更大概率的被曝光。在這種情況下,exposure bias也被稱作為是selection bias;
3)用戶的背景是商品曝光的另一個(gè)因素,例如社交朋友、他們所屬的社區(qū)和地理位置等;
4)流行的商品有更大的概率被曝光(popularity bias)。我們認(rèn)為流行度bias也是Exposure Bias的一種。
曝光偏差會(huì)誤導(dǎo)模型的訓(xùn)練和評(píng)估。
1. 評(píng)估的Debiasing
目前處理該問(wèn)題的策略主要還是使用inverse propersity score。為了解決這個(gè)問(wèn)題,類似于外顯反饋數(shù)據(jù)中的選擇偏差處理,Yang等人建議用隱式反饋數(shù)據(jù)傾向的倒數(shù)來(lái)加權(quán)每個(gè)觀測(cè)值。intuition是把經(jīng)常觀察到的交互降權(quán),而對(duì)少的樣本進(jìn)行升權(quán);
2. 模型訓(xùn)練的Debiasing
為了解決曝光偏差的問(wèn)題,傳統(tǒng)的策略就是將所有被觀測(cè)的交互作為負(fù)例并且明確它們的交互。confidence weight可以被分為三類:
1.Heuristic:典型的例子是加權(quán)的矩陣分解以及動(dòng)態(tài)MF,未觀測(cè)到的交互被賦予較低的權(quán)重。還有很多工作則基于用戶的活躍度指定置信度等;但是賦予準(zhǔn)確的置信權(quán)重是非常有挑戰(zhàn)的,所以這塊依然處理的不是非常好。
2.Sampling: 另一種解決曝光bias的方式就是采樣,經(jīng)常采用的采樣策略有均勻的負(fù)采樣,對(duì)于流行的負(fù)樣本過(guò)采樣,但是這些策略卻較難捕捉到真實(shí)的負(fù)樣本。
3.Exposure-based model:另外一個(gè)策略是開(kāi)發(fā)基于曝光的模型,這樣可以知道一個(gè)商品被曝光到某個(gè)用戶的可能性等。
4.Others:例如考慮用戶的序列行為等,對(duì)應(yīng)的設(shè)計(jì)inverse propensity的模型等。
總結(jié)
以上是生活随笔為你收集整理的负样本修正:既然数据是模型的上限,就不要破坏这个上限的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 再谈序列化推荐
- 下一篇: 搜索推荐系统实战:终极奥秘