推荐系统之业务架构总览
前言
前一篇介紹了推薦系統(tǒng)冷啟動(dòng)的問題,既然已經(jīng)cold start了,這一節(jié)就大致講下新聞推薦系統(tǒng)的業(yè)務(wù)架構(gòu),也就是新聞推薦系統(tǒng)需要有哪些模塊組成,每一個(gè)模塊的職責(zé)是什么。
?
首先看下整個(gè)新聞推薦系統(tǒng)大圖,今天這篇文章就是為大家講解這張圖的具體含義和相互關(guān)系,今天主要是介紹大概最為開篇,接下來會(huì)有一系列文章介紹圖中每一部分的策略。
(畫圖不容易版權(quán)相關(guān),轉(zhuǎn)載請注明出處~)
圖中紅色相關(guān)的形狀是兩個(gè)輸入,分別是用戶和內(nèi)容,分別代表兩個(gè)路徑,表示的是當(dāng)推薦系統(tǒng)進(jìn)入一個(gè)用戶或一個(gè)內(nèi)容的行為軌跡。本文把整個(gè)推薦系統(tǒng)按照業(yè)務(wù)路徑分成3個(gè)部分,分別是用戶數(shù)據(jù)軌跡、內(nèi)容數(shù)據(jù)軌跡以及推薦列表生成,接下來分別介紹下每個(gè)環(huán)節(jié)的作用。
?
01
用戶軌跡
?
用戶軌跡方面,每次進(jìn)來一名用戶首先要判斷這名用戶是否是新用戶,一旦發(fā)現(xiàn)是新用戶將啟動(dòng)冷啟動(dòng)策略,這個(gè)策略在之前的文章已經(jīng)介紹過。如果用戶不涉及到冷啟動(dòng)問題,則進(jìn)入用戶畫像的構(gòu)建流程。
?
用戶畫像的構(gòu)建分為兩種,分別是用戶注冊標(biāo)簽特征(用戶注冊的時(shí)候獲取的特征),還有一種是平臺(tái)行為特征(用戶過去在平臺(tái)的一些操作日志)
?
用戶注冊標(biāo)簽特征
這部分特征是原始生成的,不需要每次用戶登錄都重新計(jì)算并修改。
-
賬號(hào)注冊信息:注冊的時(shí)候可以讓用戶填寫年齡、性別等內(nèi)容、手機(jī)號(hào)等內(nèi)容,同時(shí)也可以通過LBS信息了解用戶的活動(dòng)區(qū)域。針對這些信息可以給用戶興趣做一個(gè)初步判斷,比如年輕的都市女性,往往有較高的消費(fèi)能力,在推薦策略上可以推薦高規(guī)格的一些內(nèi)容
-
身份證信息:現(xiàn)在很多系統(tǒng)都需要實(shí)名認(rèn)證,身份證號(hào)其實(shí)可以帶來很多有用的信息,比如前兩位是省級代碼,34位是市級代碼,7-14位是生日代碼,第17位是性別代碼(奇數(shù)代表男性、偶數(shù)代表女性)
-
社交賬號(hào)登錄:如果系統(tǒng)可以設(shè)計(jì)成支持淘寶、微信等賬號(hào)登錄,也可以通過這些系統(tǒng)拿到部分用戶畫像信息
-
預(yù)采集:現(xiàn)在很多APP,當(dāng)用戶初次進(jìn)入都有一個(gè)興趣愛好勾選的按鈕,這個(gè)就是為了解決冷啟動(dòng)的一個(gè)手段,在推薦之前先通過用戶標(biāo)記獲取用戶信息
-
數(shù)據(jù)交換:注冊的時(shí)候其實(shí)可以拿到用戶的手機(jī)號(hào)碼,現(xiàn)在有很多賣數(shù)據(jù)的公司都提供用戶畫像數(shù)據(jù)的交易,只要提供手機(jī)號(hào)就能獲取特別全的用戶數(shù)據(jù)(這個(gè)貌似是個(gè)黑產(chǎn)業(yè))
平臺(tái)行為特征
需要每次用戶登錄都記錄的特征
-
用戶歷史的瀏覽記錄,比如用戶關(guān)注了哪些類目的新聞,比如體育新聞或者娛樂新聞
-
用戶在平臺(tái)上的一些反饋,評論、點(diǎn)贊、收藏都信息
-
用戶的LBS變化信息,比如用戶經(jīng)常往返于北京和杭州,這些信息需要實(shí)時(shí)抓取
?
獲取了以上用戶的特征信息,做匯總就可以入“用戶總庫”,這個(gè)用戶行為數(shù)據(jù)庫將對接下來的模型訓(xùn)練起到重要作用。
?
02
內(nèi)容軌跡
?
內(nèi)容軌跡指的是每次平臺(tái)新增新聞內(nèi)容時(shí)的操作。新聞內(nèi)容不同于其它推薦場景,對于內(nèi)容的安全審查是非常重要的。如果出現(xiàn)不健康內(nèi)容,對于平臺(tái)會(huì)有很大的傷害,具體策略日后詳細(xì)講解。執(zhí)行完內(nèi)容審查,要開始對內(nèi)容進(jìn)行打標(biāo),標(biāo)簽分兩種,分別是內(nèi)容自身特征以及平臺(tái)行為特征。
注:新聞推薦的更多是傾向于文章標(biāo)題推薦,而安全審查更多地針對文章內(nèi)容
?
內(nèi)容自身特征
內(nèi)容自身的屬性,不需要頻繁更新
-
內(nèi)容所屬類別,可以分多個(gè)級別標(biāo)記,比如可以標(biāo)為體育,體育下一級還可以標(biāo)為籃球,這個(gè)標(biāo)注是依靠算法實(shí)現(xiàn)。比如關(guān)鍵詞提取或者主題模型
-
內(nèi)容主體識(shí)別,標(biāo)記出文章包含哪些主體,比如下面這句話“費(fèi)德勒是個(gè)出色的網(wǎng)球運(yùn)動(dòng)員”。可以找出“網(wǎng)球”、“運(yùn)動(dòng)員”、“費(fèi)德勒”這3個(gè)主體
-
文章的發(fā)布時(shí)間、發(fā)布者等信息,以及是否有地理相關(guān)性的特征
?
平臺(tái)行為特征
平臺(tái)行為特征指的是新聞內(nèi)容在平臺(tái)上歷史被點(diǎn)擊、點(diǎn)贊、收藏、轉(zhuǎn)發(fā)等信息。
?
03
推薦候選集生成軌跡
?
當(dāng)收集了內(nèi)容以及用戶特征后,就組成了所有平臺(tái)上的內(nèi)容總庫以及用戶總庫,可以將這兩個(gè)組件合并構(gòu)建出模型訓(xùn)練集。訓(xùn)練集匯總了所有平臺(tái)上的某某文章被某某閱讀點(diǎn)擊過的全部行為日志,這樣就可以通過算法訓(xùn)練一個(gè)模型用來新聞推薦。
算法有很多形式可以選擇,這個(gè)在未來的章節(jié)詳細(xì)介紹
?
有了內(nèi)容推薦模型后,要進(jìn)行的操作就比較簡單了,為用戶預(yù)測出他感興趣的模型。有的同學(xué)會(huì)說,既然有了模型那么對每個(gè)用戶在全網(wǎng)所有文章的興趣點(diǎn)預(yù)測一次,取topN不就可以了?通常推薦系統(tǒng)不會(huì)這么做,因?yàn)槊總€(gè)用戶對每個(gè)文章都算一下興趣度計(jì)算量非常大,而且很難在用戶進(jìn)入新聞終端時(shí)快速拿到預(yù)測結(jié)果。
?
通常的做法是先通過召回策略篩選出部分推薦候選集,再通過內(nèi)容推薦模型對候選集進(jìn)行預(yù)測并排序,這樣就可以大大減少計(jì)算量。
?
召回策略候選集可以通過用戶畫像標(biāo)簽從內(nèi)容總庫中快速查詢獲得。
?
通過內(nèi)容推薦模型對召回候選集數(shù)據(jù)進(jìn)行預(yù)測,拿到用戶感興趣的文章排序列表,就可以推送給用戶。以上是本文的介紹,略過了中間的很多策略,待后續(xù)文章補(bǔ)充。
?
參考文獻(xiàn):http://lusongsong.com/info/post/9829.html
總結(jié)
以上是生活随笔為你收集整理的推荐系统之业务架构总览的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐系统之冷启动问题
- 下一篇: 推荐系统之信息茧房问题