当推荐系统遇上多模态Embedding
在微信視視頻號(hào)推薦算法大賽中,給出來融合了OCR、ASR、圖像、文字的多模態(tài)的內(nèi)容理解特征向量Feed Embedding,共512維向量。對(duì)于給定的一定數(shù)量到訪過微信視頻號(hào)“熱門推薦”的用戶,根據(jù)這些用戶在視頻號(hào)內(nèi)的歷史n天的行為數(shù)據(jù),通過算法在測(cè)試集上預(yù)測(cè)出這些用戶對(duì)于不同視頻內(nèi)容的互動(dòng)行為(包括點(diǎn)贊、點(diǎn)擊頭像、收藏、轉(zhuǎn)發(fā)等)的發(fā)生概率。
可見,多模態(tài)Embedding在推薦系統(tǒng)后續(xù)發(fā)展中的重要性,在本文之前,煉丹筆記也探討類似的問題,包括《推薦融合GNN,圖譜、多模態(tài)竟取得了如此驚艷的效果》和《多模態(tài)推薦之用戶評(píng)論篇》,新關(guān)注的同學(xué)對(duì)具體細(xì)節(jié)感興趣的可以直接點(diǎn)擊標(biāo)題跳轉(zhuǎn)了解。
先看下整體模型架構(gòu):
MKGAT可以拆解為兩個(gè)子模塊,多模態(tài)embeding模塊和推薦模塊。在介紹各個(gè)子模塊前,我們先介紹兩個(gè)小的模塊:
- 多模態(tài)圖譜實(shí)體編碼器:給不同類型實(shí)體編碼。
- 多模態(tài)圖譜注意力層:用注意力機(jī)制,融合所有鄰居節(jié)點(diǎn)的信息,學(xué)習(xí)新實(shí)體的embedding。
多模態(tài)embeding把聯(lián)合知識(shí)圖譜作為輸入,充分利用上面提到的兩個(gè)小模塊,去學(xué)習(xí)各個(gè)entity的表達(dá)。再用各個(gè)實(shí)體embeding的表達(dá),去學(xué)習(xí)圖譜之間的關(guān)系。推薦模塊充分利用知識(shí)圖譜學(xué)到的embedding ,和聯(lián)合知識(shí)圖譜去豐富用戶和items的表達(dá),從而提升推薦效果。
目前非常多的推薦系統(tǒng)主要使用用戶的一些基礎(chǔ)反饋信息來作為最終的標(biāo)簽進(jìn)行模型的訓(xùn)練,例如點(diǎn)擊/購(gòu)買等。
但是卻鮮有文章去進(jìn)一步挖掘用戶的其它反饋。例如用戶對(duì)于該產(chǎn)品的評(píng)論,很多的評(píng)論相較于點(diǎn)擊等反饋更加具有表示性,比如你經(jīng)常向一個(gè)用戶推薦一類商品,該商品雖然點(diǎn)擊率很高,但是該用戶之前已經(jīng)評(píng)論了惡心之類的,這么繼續(xù)推下去的化很可能使得該用戶不再使用該軟件。所以推薦系統(tǒng)里面的用戶評(píng)論是否有用呢,按理說是有用的,比如有些不良的商品點(diǎn)擊率極高,但是評(píng)論卻極差,通過挖掘評(píng)論的信息是可以很好地挖掘出此類的信息。
但是此類的評(píng)論信息是否真的有用,有多大的用戶都是一個(gè)問好,實(shí)驗(yàn)顯示:在大多數(shù)實(shí)踐情況下, 最近的系統(tǒng)加入評(píng)論的效果是不如簡(jiǎn)單基線模型效果的;許多這樣的系統(tǒng)在模型中隱藏評(píng)論時(shí),性能只會(huì)有微小的變化;所以本文得出了下面的幾個(gè)結(jié)論:
- 評(píng)論可能是非常重要的,但是最近的建模技術(shù)是很值得商榷的;
- 評(píng)論被作為一個(gè)正則而不是數(shù)據(jù)加入模型看起來更加有效;
- 該爐溫更加關(guān)注一致的經(jīng)驗(yàn)評(píng)估,尤其是數(shù)據(jù)集的選擇和預(yù)處理策略;
KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall 多模態(tài)召回賽題由阿里巴巴達(dá)摩院智能計(jì)算實(shí)驗(yàn)室發(fā)起并組織,關(guān)注電商行業(yè)中的多模信息學(xué)習(xí)問題。
賽道提供了淘寶商城的真實(shí)數(shù)據(jù),包括兩部分,
1)搜索短句(Query)相關(guān),為原始數(shù)據(jù);
2)商品圖片相關(guān),考慮到知識(shí)產(chǎn)權(quán)等,提供的是使用Faster RCNN在圖片上提取出的特征向量,兩部分?jǐn)?shù)據(jù)被組織為基于Query的圖片召回問題,即有關(guān)文本模態(tài)和圖片模態(tài)的召回問題。
大規(guī)模的營(yíng)收和高速增長(zhǎng)同時(shí)預(yù)示著,消費(fèi)者對(duì)于電商服務(wù)有著巨大的需求。跟隨這一增長(zhǎng),電商行業(yè)中各種模態(tài)的信息越來越豐富,如直播、博客等等。怎樣在傳統(tǒng)的搜索引擎和推薦系統(tǒng)中引入這些多模信息,更好地服務(wù)消費(fèi)者,值得相關(guān)從業(yè)者深入探討。
美團(tuán)的季軍方案主體部分包含兩方面的內(nèi)容:
1)通過聯(lián)合多樣化的負(fù)采樣策略和蒸餾學(xué)習(xí)以橋接訓(xùn)練數(shù)據(jù)和測(cè)試集的分布,處理分布不一致問題;
2)采取細(xì)粒度的文本-圖片匹配網(wǎng)絡(luò),進(jìn)行多模信息融合,處理復(fù)雜多模信息匹配問題。
3)最后,通過兩階段訓(xùn)練和多模融合,進(jìn)一步提升了模型表現(xiàn)。
整個(gè)方案的流程如下圖所示:
具體細(xì)節(jié),盡管通過多樣負(fù)采樣策略和預(yù)訓(xùn)練,可從不同角度去逼近真實(shí)分布,但由于未直接利用測(cè)試集信息指導(dǎo)負(fù)采樣,這些采樣策略仍有不足。因此,該方案采用蒸餾學(xué)習(xí)的辦法,來進(jìn)一步優(yōu)化負(fù)采樣邏輯,以求拿到更貼近測(cè)試集的樣本集分布。
亞軍方案從單流模型和雙流模型中各選擇了相應(yīng)SOTA的算法ImageBERT和LXMERT。具體而言,針對(duì)比賽任務(wù),兩種算法分別進(jìn)行了如下改進(jìn):
(1)本方案中一共用到了兩個(gè)版本的 ImageBERT模型:
ImageBERT-A:將Segment Embedding統(tǒng)一編碼為0,不對(duì)圖片特征和Query文本單獨(dú)進(jìn)行編碼,在[CLS]位輸出Query與Image的匹配關(guān)系,通過Cross Entropy Loss計(jì)算損失。
ImageBERT-B:Position Embedding去掉了ImageBert中圖像目標(biāo)框位置信息的Position Embedding結(jié)構(gòu)。同時(shí)文本的Segment Embedding編碼為0,圖片特征的Segment Embedding編碼為1。
(2)LXMERT模型方面主要的改進(jìn)包括:
- 圖片特征部分融入了目標(biāo)框類別標(biāo)簽所對(duì)應(yīng)的文本特征。
- Text-Image Matching Task中使用兩層全連接網(wǎng)絡(luò)進(jìn)行圖片和文本融合特征的二分類,其中第一個(gè)全連接層之后使用GeLU進(jìn)行激活,然后通過LayerNorm進(jìn)行歸一化處理。
- 在第二個(gè)全連接層之后采用Cross Entropy Loss訓(xùn)練網(wǎng)絡(luò)。
總結(jié)
以上是生活随笔為你收集整理的当推荐系统遇上多模态Embedding的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用预训练GNN预估点击率有奇效?
- 下一篇: Facebook向量召回双塔模型