个性化推荐之召回的方法
?
?
在這個信息爆炸的時代,每個人都是內容的消費者,也輕而易舉地可以成為內容的創造者。在海量的信息中,用戶找到所需、所想、所愛的優質內容變得異常困難,個性化推薦也因此應運而生。
個性化推薦是在大數據分析和人工智能技術的基礎上,通過用戶行為分析,進行深度計算,從而給用戶提供高質量的個性化內容,起到降低信息過載、發掘長尾、提高轉化率的作用,最終更好更快地滿足用戶需求。
神策智能推薦是神策數據打造的一款基于用戶行為分析的全流程智能推薦系統。該系統主要分為兩個階段:召回階段和排序階段。因此,在詳細講述召回的方法前,我們先來看看召回階段的作用和目的。
一、召回階段的作用和目的
召回階段可以理解為根據用戶的歷史行為數據,為用戶在海量的信息中粗選一批待推薦的內容,挑選出一個小的候選集,相當于粗排序。排序階段再在此基礎上進行更精準的計算,做到給每一個內容進行精確打分,相當于精排序。
如下圖,用戶畫像、內容分析、機器學習平臺是支持召回和排序的三個獨立組件,另外,通過點擊、觀看、收藏、評價等用戶行為數據作為數據輸入的主要來源。
舉個例子,神策的某個資訊類客戶,每天的內容量級為十萬以上,在召回階段根據用戶的歷史行為數據分析出其興趣和偏好,再在海量的政治、歷史、體育、娛樂等內容中,挑選出一個小的候選集,如用戶主要對歷史和體育感興趣,候選集中就主要是歷史和體育的內容,娛樂、政治等其他內容就會被過濾掉,排序階段會以此為基礎進行更精準地計算,通過機器學習預估用戶的喜歡程度對使用不同的召回方法獲得的候選集的內容進行更精細化地打分,使其變得有序,經過這兩個階段后,最終為用戶精挑細選出用戶最感興趣的高質量內容。
綜上所述,個性化推薦系統是一個流程:海量 Item——召回(粗排)——候選集合——排序(精排)——排序列表——規則(多樣化推薦)——推薦結果。
事實上,作為信息過濾的第一環,召回對于個性化推薦系統極其重要,神策智能推薦在保障數據源的準確性基礎上,使用了多種召回方法加強個性化推薦的推薦精準性。下面將為你詳解:
?
二、基于深度用戶行為分析的召回
基于深度用戶行為分析的召回,能更全面且精細化地解讀用戶真實需求,并為其推薦。市場上熟知的基于用戶行為分析的召回主要通過以下兩種思路:
1.基于內容的協同過濾
基于內容的協同過濾,簡而言之是根據用戶喜歡的內容推薦與之相似的內容。比如某個用戶喜歡 A 內容,算法就會為用戶推薦 A1、A2 等與 A 相似的內容,而不是推薦 Z9 等相關性小的內容。
舉個例子,百度視頻會根據用戶正在觀看或者歷史偏好的視頻,進行個性化的推薦。如在百度視頻首頁搜索《知否知否應是綠肥紅瘦》就會出現根據主演趙麗穎推薦的相關電視劇。
2.基于用戶的協同過濾
基于用戶的協同過濾,簡而言之,推薦相似用戶喜歡的內容。比如,A 用戶和 B 用戶喜歡的內容一致,這種方式就會向 A 用戶推薦 B 用戶喜歡但是 A 用戶沒有看的內容。
舉個例子,某咨詢類 App 有娛樂、奇趣、健康、美食等內容分類,對于喜歡娛樂新聞的用戶可以將所有同樣喜歡娛樂內容的用戶最近最愛看的一些資訊放在有娛樂新聞偏好的用戶的熱門流中。
神策智能推薦在具備多種協同過濾推薦機制的基礎上,采用基于行為的深度學習召回模型,再根據用戶行為數據訓練模型,加強了推薦系統推薦的智能性和準確性。該深度學習召回模型是借鑒谷歌的個性化推薦思路(如下圖),并汲取用戶行為分析實踐經驗結合企業的最新實踐需求進行了個性化的優化迭代。
圖片來源:谷歌發布的《Deep Neural Networks for YouTube Recommendations 》論文
相比基于矩陣分解的協同過濾方式,深度學習召回模型有如下優勢:
第一,更全面的行為表達。在模型中結合點擊、收藏、搜索等多種行為,能更全面地表示用戶行為偏好。
第二,可添加畫像特征,可加入性別、地域等用戶畫像相關的特征。如果你有額外的一些標簽或發生的信息,這個模型是可以兼容的,它可以把所有信息糅雜在同一模型里面去做,而在協同過濾模型里面是完全無法引入的。
第三,考慮用戶的行為順序。比如用戶通常的行為順序是,先買一個手機,然后再去買一個手機殼;買了一個汽車后可能會買個汽車坐墊。
第四,組合復雜特征。神經網絡可以進行更復雜的特征組合,挖掘更深層次的關聯關系。
三、基于用戶畫像的召回
1.利用已有的關注關系
關注關系就是用戶顯性化的喜愛偏好。用戶的每次瀏覽、每次點擊、每次填寫、每次搜索都隱藏了你的用戶偏好。如下圖,當用戶的站內搜索、瀏覽頁面、點擊標簽、點擊按鈕等行為的數據都能抓到并進行分析,就能做到給用戶的內容更逼近其心中所想和心中所愛。
再比如,淘寶也會根據用戶收藏和歷史的搜索行為進行推薦,如下圖淘寶的收藏中有運動褲,下面的猜你喜歡就會推薦相關的運動褲。
2.基于標簽構建用戶畫像
不同性別、年齡、職業、地區的用戶對內容的興趣偏好有所不同,即使同一性別、年齡、職業的偏好也有很大差異,所謂千人千面,每個用戶都有其特征和偏好。因此,很多企業都有自身的標簽平臺,如縱橫小說會根據用戶行為數據結合內容標簽,構建用戶畫像標簽,通過這種方式召回用戶感興趣的內容。
四、保障推薦的有效冷啟動和推薦多樣性的方法
推薦系統的冷啟動場景主要分為三類:
用戶冷啟動:即如何給新用戶做個性化推薦,事實上,第一次展現給用戶的 item 極其重要,決定了用戶的第一印象;
內容冷啟動:即如何將新的內容推薦給潛在對它感興趣的用戶;
系統冷啟動:即如何在一個新開發的產品中(無用戶、無用戶行為,只有一些內容)設計個性化推薦,從而在產品剛發布就讓用戶體驗到個性化推薦服務。
1.運用自然語言處理技術,解決內容冷啟動問題
關于冷啟動,神策智能推薦,會運用自然語言處理技術對新的內容進行語義分析,我們可以這樣理解,市面上很多都是文本數據的一些“顯式”使用方法,包括在前面介紹的標簽也是,所謂顯式,是指我們將可讀可理解的文本本身作為了相關性計算、召回以及模型排序的特征。這樣做的優勢是能夠清晰地看到起作用的是什么,但是其劣勢是無法捕捉到隱藏在文本表面之下的深層次信息。例如,“衣服”和“上衣”指的是類似的東西,“厚外套”和“棉服”具有很強的相關性,類似這樣的深層次信息,是顯式的文本處理所無法捕捉的,因此我們需要一些更復雜的方法來捕捉,而自然語言處理技術就能捕捉到,運用從詞下沉到主題的思路,挖掘更深層次的核心信息。
神策智能推薦運用自然語言處理技術——基于神經網絡的文本語義分析模型(如下圖),相比市面上通過打標簽的方式推薦,可以做到更深層次的偏好挖掘推薦,舉個例子,如果用戶閱讀了大量包含甄子丹、成龍、李小龍等關鍵詞的文章,可以挖掘出用戶對功夫類主題的內容偏好,并為其推薦。
2.運用 UCB 探索用戶的潛在興趣算法,保證推薦結果的多樣性
在推薦的過程中,需要考慮給新 item 展示的機會,比如給一個喜歡歷史分類資訊的用戶推薦一些娛樂、政治等其他資訊,解決加強推薦多樣性的問題。
大家所熟知的是通過隨機分配一部分流量給新 item 曝光,得到一些反饋,然后模型才能對其有較好的建模能力,這是比較傳統的冷啟動套路。
神策智能推薦采用的是 upperconfidence bound(UCB) 策略: 假設有 K 個新 item 沒有任何先驗,每個 item 的回報也完全不知道。每個 item 的回報均值都有個置信區間,而隨著試驗次數增加,置信區間會變窄,對應的是最大置信邊界向均值靠攏。如果每次投放時,我們選擇置信區間上限最大的那個,則就是 UCB 策略。這個策略主要是通過以下兩個原理達成更好地推薦:均值差不多時,優先給統計不那么充分的資訊多些曝光;均值有差異時,優先出效果好的。
五、根據多源數據召回,保障推薦的全面性和精準性
企業產生數據的方式多種多樣,推薦系統的個性化精準推薦,離不開對業務和用戶的精準把控,只有獲取足夠全面、顆粒度足夠細的數據才能更精準的了解用戶。神策智能推薦支持企業結合業務角度和時事熱點等多方面,利用多種數據源的整合與綜合分析,如支持將熱門、編輯精選、最新、本地化內容等多類數據進行綜合,吸取不同數據源的特點,并將這些內容放入到候選集里,為排序提供足夠全面且詳盡的內容。
比如,某個資訊類 APP 的編輯會在熱門流中精選出部分內容,形成一個精選內容集,就是一個精選出來的數據源,可將其放入候選集中,再次推薦增加曝光。再比如,當出了某些熱門事件,資訊類 APP 就可以通過編輯打標簽、手動篩選或通過某個簡單的程序抓取相關的內容,將其歸為一類放入內容池,再經過一系列操作后進行推薦。
最后,我們整體上回顧一下前面介紹的召回方法(如下圖)。
事實上,神策智能推薦是以數據為根基,4 種主要召回的方法為關鍵,保障召回的候選集的全面、準確、個性化,為后面的排序打下良好基礎。這里引用神策數據架構師房東雨的一句話,“數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已”,這也是神策智能推薦如此強調數據根基的原因,因為如果你的數據根基沒有做好,那所有的工作都是徒勞的。事實上,為企業建立良好的數據根基也是神策數據一直在做的事,如果你有需要或疑問都可以通過 4006509827 電話聯系我們,會有專業的人員為您解答。
?
總結
以上是生活随笔為你收集整理的个性化推荐之召回的方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 周四话运营:如何提高用户留存?
- 下一篇: 人文英语学习品牌「友邻优课」携手神策数据