推荐系统笔记(模型融合)
思維導(dǎo)圖:
? ? ? ? ? ? ? ? ? ? ? ?
?
推薦系統(tǒng)在技術(shù)實(shí)現(xiàn)上一般劃分三個(gè)階段:挖掘、召回、排序。
模型融合:
挖掘的工作就是對(duì)用戶和物品做非常深入的結(jié)構(gòu)化分析,對(duì)各個(gè)角度的特征都被呈現(xiàn)出來(lái),并且建好索引,供召回階段使用,大部分挖掘工作都是離線進(jìn)行的。
召回:
因?yàn)槲锲诽?#xff0c;每次給一個(gè)用戶計(jì)算推薦結(jié)果時(shí),如果對(duì)全部物品挨個(gè)計(jì)算,那將是一場(chǎng)災(zāi)難,取而代之的是用一些手段從全量的物品中篩選出一部分比較靠譜的
最后就是排序,針對(duì)篩選出的一部分靠譜的做一個(gè)統(tǒng)一的論資排輩,最后這個(gè)統(tǒng)一的排序就是融合
示意圖如下:
在召回階段,其實(shí)就是各種簡(jiǎn)單的,復(fù)雜的推薦算法,比如說(shuō)基于內(nèi)容的推薦,會(huì)產(chǎn)生一些推薦結(jié)果,比如基于物品的協(xié)同過(guò)濾會(huì)產(chǎn)生一些結(jié)果,矩陣分解會(huì)產(chǎn)生一些結(jié)果,等等。
總之,每種算法都會(huì)產(chǎn)生一些推薦結(jié)果,一般同時(shí)還附帶給每個(gè)結(jié)果產(chǎn)生一個(gè)推薦結(jié)果,是各自算法給出來(lái)的。不同算法只負(fù)責(zé)推舉出候選結(jié)果,真正最終是否推薦給用戶,由另一個(gè)統(tǒng)一的模型說(shuō)了算,這個(gè)叫做模型的融合。
典型的模型融合:邏輯回歸和梯度提升決策樹組合
組合原理:
在推薦系統(tǒng)的模型融合階段,就要以產(chǎn)品目標(biāo)為導(dǎo)向。
簡(jiǎn)單的例子:信息流推薦,如果以提高ctr為目標(biāo),則模型融合就要把預(yù)估ctr作為本職工作,這個(gè)工作一直一來(lái)就是邏輯回歸完成
邏輯回歸:
ctr 預(yù)估就是在推薦一個(gè)物品之前,預(yù)估一下用戶點(diǎn)擊它的概率有多大,再根據(jù)這個(gè)預(yù)估的點(diǎn)擊率對(duì)物品排序輸出。
邏輯回歸經(jīng)常被選來(lái)執(zhí)行這個(gè)任務(wù),它的輸出值范圍就是0和1之間,剛好滿足點(diǎn)擊率預(yù)估的輸出,這是一個(gè)基礎(chǔ)。因?yàn)檫壿嫽貧w是廣義線性模型,相比于傳統(tǒng)線性模型,在線性模型基礎(chǔ)上增加了 sigmoid函數(shù)。
?在對(duì)召回階段不同算法給出的候選物品計(jì)算ctr預(yù)估時(shí),需要:特征、權(quán)重
第一個(gè)是特征,就是向量化、向量的方式把一個(gè)用戶和一個(gè)物品的成對(duì)組合表示出來(lái)。量化方式包括兩種:實(shí)數(shù)和布爾。實(shí)數(shù)好理解,比如一個(gè)用戶的年齡,一個(gè)用戶平均在某個(gè)類上每個(gè)月的花銷等,布爾,就是取值0或1,針對(duì)兩種類別形式的,比如用戶所在的省市,物品的每一個(gè)標(biāo)簽。
用戶和每一個(gè)候選物品都組一下,然后以這種特征化的方式表達(dá)出來(lái),就可以計(jì)算了,否則類別形式的字段不能直接參與計(jì)算。
第二個(gè)就是權(quán)重,每個(gè)特征都有一個(gè)權(quán)重,權(quán)重就是特征的話語(yǔ)權(quán),在決定那些物品最終有機(jī)會(huì)能走到前臺(tái)的選秀過(guò)程中,用戶和物品對(duì)這對(duì)組合的所有特征都有投票權(quán),只是每個(gè)特征的權(quán)重不一樣,對(duì)最終計(jì)算ctr影響??大有小。
有了特征x,還有特征的權(quán)重,也是一個(gè)維度和特征一樣的向量w,通過(guò)對(duì) x和w做點(diǎn)擊運(yùn)算,就得到一個(gè)傳統(tǒng)線性模型的輸出,再用sigmoid函數(shù)對(duì)這個(gè)值做一個(gè)變換,就得到一個(gè)0到1之間的值,也就是預(yù)估的ctr
特征工程+線性模型,就是模型融合、ctr預(yù)估必備的方法
權(quán)重主要是損失函數(shù)最小化,就是模型的偏差是否足夠小,另一個(gè)就是模型的正則化,就是看模型的方差是否足夠小,學(xué)習(xí)模型的權(quán)重,經(jīng)典的方法就是梯度下降一類,但是梯度下降效果收斂很慢。后來(lái)google在2013年發(fā)表新的學(xué)習(xí)算法:FTRL,一種結(jié)合L!正則和L2正則的在線優(yōu)化算法
梯度提升決策樹GBDT部分請(qǐng)看:https://blog.csdn.net/weixin_41362649/article/details/82803279
模型融合的原理雖然比較簡(jiǎn)單,但是實(shí)際應(yīng)用中非常的有效。
?
?
打盡協(xié)同過(guò)濾、矩陣分解和線性模型
?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
??
‘
?
?
?
總結(jié)
以上是生活随笔為你收集整理的推荐系统笔记(模型融合)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Bag of Words(BOW)模型
- 下一篇: 推荐系统笔记(深度学习)