google youtube 电影推荐算法
google youtube 電影推薦算法
在面試實習生的時候,我有個習慣,就是面試快結束的時候,會像聊天一樣和面試的學生聊一下他們對某個技術方向的看法。很多時候不是期望他們能提供什么靈感,也不期望能聊出太多結果,更多的是想通過這些溝通,看一下現在學生對這些問題的看法達到什么程度,而且這些溝通很能反映一個面試者的個性。 比如有些人對問題比較堅持, 或者叫做偏執,或者叫做執著,都能夠反映出來。
前幾天面試的時候到了最后環節的時候,忘了是說什么問題了,面試的實習生提到一般工業界使用的推薦算法都是比較簡單的,不會去嘗試復雜的算法。 我問他為什么,他說覺得工業界不會投入太多人力; 后來我告訴他還需要考慮處理的數據量和可維護性等因素。 當然他說的這個現象的確比較普遍: 工業界一般都傾向于使簡單粗暴有效的算法,只有這些方法都搞不定時,才會嘗試更復雜的潛在算法。
兩個例子: 一個是 youtube 使用的電影推薦算法(參見論文: The Youtube Video Recommendation System);另一個例子就是Baidu關鍵詞推薦系統中使用的級聯二步圖; ?應該說Baidu關鍵詞推薦系統中的級聯二步圖的思路是借鑒于youtube電影推薦算法并應用在關鍵詞推薦的場景中。 下邊就簡單介紹下youtube Video推薦算法。
算法的思想其實比較簡單:使用關聯規則找到有關聯的電影,計算權值后進行ranking推薦。其中的新意在于,這種關聯關系能夠進行多次傳遞,逐漸擴大和種子電影相關的電影集合(當然關系傳遞得越遠,一般關聯程度也會相應減弱)
具體的推薦過程可以分為3步:
建立video間的關系
建立video間關系的方式比較簡單,使用關聯規則中的共現方式即可。此處youtube使用的是24小時內session的co-visitation。具體為:
使用 r(vi, vj) = cij/f(vi,vj) 表示video i和video的關聯程度, 其中 r為兩個video/item的相關系數, ci為i,j共同出現次數, f 為 vi, vj歸一化后的分母總量(最簡單的方式就是ci * cj),這樣就能找到相關的兩個vedio
產生特定用戶的video候選
該過程在經典信息檢索中可以被理解為觸發邏輯,及找到待推薦video/item的候選(觸發邏輯在推薦系統中所處的位置及重要性參見另外一篇blog: 傳統推薦引擎系統架構)
定義S為特定用戶的種子video集合, 例如在youtube推薦系統中可以選擇用戶最新觀看(或者最新完整觀看的video),之后的問題就是怎么找到和種子詞相關的video進行推薦。我們將其分為以下3步:
經過上述3步,對于特定user的候選video就觸發完畢了。 該觸發步驟可以說是該論文中的值得借鑒的點。 組里之前一位工程架構策略都很牛的同學指導實習生實現了一個通用的級聯二步圖算法框架, 該算法框架能夠將有關聯的節點的關系進行傳遞:
?
?
?
例如對于關鍵詞,我們可以使用topic 主題(由topic model產生)建立關鍵詞之間的跳轉關系, 或是關鍵詞中的核心term(一般是歸一化后的核心term)建立跳轉關系。 而該框架更令人著迷的是, 二步圖的左右兩邊可以不是同樣的item, 例如左邊節點是keyword而右邊是user, 則可以使用topic 直接建立keyword與user的關系進行推薦。
?Ranking
youtube 的ranking策略主要考慮以下3個因素:
當然, ranking機制一般都會非常復雜, 論文中此處只是簡單介紹; 例如在構造百度關鍵詞推薦系統的過程中, 我們引入了提詞率預估, 效用預估, 價值預估等模型對返回結果進行ranking。同時也需要結合user interaction的樣式,算法出口等進行調整。 具體ranking機制會在后續blog中介紹。
效果上, 級聯二步圖的引入,能夠找到非常多靠譜的結果(當然二步圖邊的建立是核心,選對了邊的建立方式,才會有好效果),具體效果數據就不便透露了:) ? 反正是基本上能夠覆蓋全部鳳巢用戶,每個客戶都能推出數量驚人的關鍵詞(當然,需要使用字面, 語義等技術進行后續filtering and ranking)
更進一步, 級聯二步圖是圖關系挖掘的一個簡單有效的特例, 使用類似于pagerank等經典算法, 也能夠很好地找出類似的關系進行推薦。
參考來源:
The Youtube Video Recommendation System
Google Adwords
百度關鍵詞推薦工具 :http://support.baidu.com/product/fc/4.html?castk=e6f89hg77d37ada65d612
也可關注微博: weibo.com 或者直接訪問 http://semocean.com
總結
以上是生活随笔為你收集整理的google youtube 电影推荐算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 以下哪些Linux命令可以重启计算机的是
- 下一篇: 盛大Bambook原生支持epub的喜与