RecSys 2016总结
生活随笔
收集整理的這篇文章主要介紹了
RecSys 2016总结
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
版權歸作者所有,任何形式轉載請聯(lián)系作者。
作者:咚咚咚diduan(來自豆瓣)
來源:https://www.douban.com/note/583716751/
會議信息
1. RecSys 2016是推薦系統(tǒng)第十屆會議(Happy 10th. birthday to RecSys),也是RecSys有史以來規(guī)模最宏大,參與人數(shù)最多的會議,有超過300名學術界和工業(yè)界的同仁參會。
2. 本次會議共有4個tutorial,3個keynots,9個workshop,30個demo和posters,以及RecSys Challenge競賽關節(jié),共有20多個組織贊助。錄取論文包括51篇學術論文,15篇工業(yè)界論文,9篇past present and future論文;其中l(wèi)ong paper錄取率為18%,short paper錄取率為20%。研究方向覆蓋了人因(human factors),上下文感知,冷啟動,多樣性與新穎性,推薦算法(如矩陣分解,深度學習等)等方面。
趨勢
1. 深度學習在推薦系統(tǒng)中應用
相比以往的RecSys會議,深度學習方面的論文比重增加,今年有專門的深度學習workshop和論文session;工業(yè)界的Google YouTube,Google Play,Spotify都聲稱用到深度學習技術,應用領域包括構建特征,生成推薦候選集合,以及預測推薦分值。
我與幾位機器學習的研究者(Romaric Gaudel教授,曹雪智博士等)交流,他們也認為深度學習是今年的一個趨勢,但沒有預期中那么多的研究成果。Claudia Perlich(第一個Keynote演講者)在keynote上回答關于深度學習在推薦系統(tǒng)應用前景的問題時,認為深度學習適合解決結構化的問題,如NLP,聲音,圖像等,能否成為推薦系統(tǒng)的主流模型還有待觀察。
2. 完整的系統(tǒng)級的推薦系統(tǒng)研究
Joseph Konstan教授(第一屆RecSys的主席)認為,今年有更多研究是end to end完整的、系統(tǒng)級的研究,不再只偏重于具體一個方面(如算法),這個趨勢與Recommendation System會議的主旨更加相符。
3. 對Metrics有了更多的思考
? ? 在今年的會議中,大家明顯對于推薦的評價指標有了更為深入的思考和理解,不再只簡單關注短期準確率的目標,對長期目標有了較多思考,如推薦系統(tǒng)對于用戶的長期維系:
(1) Joseph Konstan:“CTR只是點擊行為,而為什么點擊?產生點擊的決策機制是什么?后面的2個問題也是推薦系統(tǒng)需要研究的”
(2) Claudia Perlich:web的點擊中有40%來自Bot,移動設備的點擊中有36%屬于用戶unintentionally的點擊;如果不加甄別地用這樣的數(shù)據來學習,學到的是大量摻雜了非用戶真實需求的模型。
(3) Xavier Amatriain: 系統(tǒng)要以“用戶的長期維系”為目標,需要綜合考慮用戶的顯示反饋行為和多元的隱式反饋行為。
(4) Michael Ekstrand: 預估CTR,往往不能理解用戶真實的意圖(desire);下載行為也不能代表用戶是滿意的,當我們深入了解用戶意圖和行為后,推薦系統(tǒng)能發(fā)揮更大巨大作用。
工業(yè)界的廣泛參與
今年RecSys來自工業(yè)界的sponsor有18家公司。參會者來自工業(yè)界的超過一半,其中阿里派出了超過10人的團隊參會;連很少在學術會議上出現(xiàn)的Apple也有人參會;其它參會公司包括Mendeley, Meetup, Bloomberg, Foursquare, Spotify, Net?flix, Pandora, Stitch Fix, Expedia, Nara Logics, GraphSQL, Retail Rocket, Quora, Google, Pinterest。各大公司均積極招聘,了解推薦系統(tǒng)的最新動向,與學術界交流緊密。
主會有3個session介紹工業(yè)界推薦系統(tǒng)的工作,其中包括1個session專門分享工業(yè)界在推薦系統(tǒng)方面的經驗(具體經驗后文有介紹)。大約1/3論文的作者有工業(yè)界背景;不少公司的推薦系統(tǒng)領導者都有很強的學術背景,如Quora的Xavier和Lei Yang,Google Now的 Shashi Thakur,Dstillery的Claudia Perlich等。
工業(yè)界的經驗分享:
1. Keynote:
Claudia Perlich ? 是Distillery(廣告解決方案公司)的首席科學家,其所在的Distillery公司每天處理500億的數(shù)據樣本,其采用的技術方案包括LR,SGD,Hashing,Streaming,L1 & L2 regularization。在keynote中,她闡述了2個觀點:
觀點1:“Predictability bias: models tend to go where the signal is”
模型為何預測的準確,因為有的signal令模型更準確,但有些signal是noise的,并非用戶的自身的喜好,比如:
(1)Bot traffic占了互聯(lián)網36%的流量,很多轉化率時間是bot做到的,結論是bot的行為容易預測,而用戶的行為仍然難以預測;
(2)移動設備上40%的點擊行為時accidental的無用點擊,結論是accidental容易預測,認得行為不容易預測。
所以要深刻理解用戶的行為。
觀點2:“bad metrics with good machine learning is almost always a disaster”
可以思考這樣的問題:CTR是最好的優(yōu)化目標嗎?百度的搜索結果為什么比不過Google,前者只用CTR標注,后者始終保持大量的人工標注(一個在Google實習的人透露的),精巧的人工標注可以讓搜索結果質量更高。
2. Lessons learned from build real-life Recsys:Xavier介紹了其在Quora和Netflix構建推薦系統(tǒng)時的經驗:
(1) Implicit feedback is more important:需要注意的是implicit feedback有時并非與用戶長期維系目標相符,所以有時需要將顯示反饋與隱式反饋結合起來
(2) 認真考慮訓練數(shù)據:定義合理的正負例
(3) 推薦的解釋有時比預測準確率重要
(4) MF是最好的single approach,MF的變形包括FM,SVD++,ALS等;Quora開源了他們的MF模型QMF
(5) Ensemble is the master algorithm
(6) Feature Engineering: 需要理解領域信息,了解推薦目的和用戶需求,將以上信息轉化為特征;好的特征具有如下特點:reusable, transformable, interpretable, reliable; 深度學習也是構建特征的一種方法
(7) 合理的評價策略
i. Offline vs. online: a critical issue is how offline metrics correlate with A/B test results
ii. Long-term metric (member retention) vs. short-term metric?
(8) Model debuggability: to determine particular model to use; features to rely on; implementation of tools.
3. Bloomberg的新聞推薦考慮用戶興趣遷移的問題,并通過對推薦結果reshuffling的機制防止用戶興趣過于集中;
4. Foursquare構建個人助理MarsBot,進行hotel,restaurant等內容的推薦,Marsbot以短信通知、push、personality and onboarding為主要特征,實施存文字的交互對話引導,當用戶感興趣后,在后續(xù)會話文字中加入產品鏈接,避免直接推薦鏈接引起用戶的不滿;
5. Spotify的音樂個性化推薦采用推薦策略包括:專家標注,元數(shù)據,音樂聲學信號,CF,以及混合策略,模型使用了latent factor model,深度學習模型;排序部分會考慮:相似度,相關度,多樣性,流行度,新鮮度,使用了MAB的方法。
6. Google Play的經驗分享
(1) Always Run live experiments
(2) 盡可能簡單
(3) 選擇合理優(yōu)化目標
7. Pinterests的經驗分享
(1) 候選集生成策略:圖片候選集生成策略較為簡單,主要使用圖片相似性,相似性計算方位共現(xiàn)次數(shù)
(2) 應用linearRankSVM模型和GBDT涌現(xiàn),特征包括圖片特征、query特征,用戶上下文特征用于個性化。
(3) collecting unbiased training data
推薦模型和技術
在推薦系統(tǒng)中被工業(yè)界廣泛使用的有效的模型主要有:logistic regression,matrix factorization,Gradient boosting decision tree,其中LR被廣泛用于CTR的預估;matrix factorization模型包括SVD++,factorization machine,ALS等方法,是工業(yè)很推崇的方法;今年RecSys challenge的前三名均使用GBDT的方法。其他被工業(yè)界使用的技術還包括:SGD,采樣,哈希,L1&L2正則,實時流數(shù)據分析等;Spotify還聲稱他們用了MAB的方法。
YouTube Recommendation使用了深度學習技術,用于候選集的生成和排序。
林智仁老師團隊應用field-aware factorization machine模型進行廣告的CTR預估,取得了2個競賽的關鍵,相關研究成果也發(fā)表在今年的RecSys上。
值得關注的論文
1. A Scalable Approach for Periodical Personalized Recommendations
2. Adaptive, Personalized Diversity for Visual Discovery?
3. Field-aware Factorization Machines for CTR Prediction?
4. Local Item-Item Models for Top-N Recommendation ?(Best paper)
5. Mechanism Design for Personalized Recommender Systems?
6. Deep Neural Networks for YouTube Recommendations?
7. Past, Present, and Future of Recommender Systems: An Industry Perspective (author:Xavier Amatriain)
8. Algorithms Aside: Recommendation as the Lens Of Life ?(演講的膠片非常藝術流)
9. Meta-Prod2Vec - Product Embeddings Using Side-Information for Recommendation
10. Are You Influenced by Others When Rating? Improve Rating Prediction by Conformity Modeling (余勇老師組做的工作)
工業(yè)界的幾篇論文:
1. When Recommendation Systems Go Bad ?(meetup)
2. News Recommendations at scale at Bloomberg Media: Challenges and Approaches (Bloomber)
3. Marsbot: Building a Personal Assistant (Foursqure)
4. Music Personalization at Spotify (Spotify)
5. Recommending for the World (Netflix)
6. The Exploit-Explore Dilemma in Music Recommendation ?(Pandora)
7. Tutorial: Lessons Learned from Building Real-life Recommender Systems ?(Xavier’ tutorial)
很高興在今年的RecSys見到以前的朋友、老師和同窗,結交新朋友。RecSys是一個朝氣蓬勃的社區(qū),面向解決實際問題的推薦和搜索人才密度高。2019年的RecSys將回到亞洲,很有可能在中國舉辦。
作者:咚咚咚diduan(來自豆瓣)
來源:https://www.douban.com/note/583716751/
會議信息
1. RecSys 2016是推薦系統(tǒng)第十屆會議(Happy 10th. birthday to RecSys),也是RecSys有史以來規(guī)模最宏大,參與人數(shù)最多的會議,有超過300名學術界和工業(yè)界的同仁參會。
2. 本次會議共有4個tutorial,3個keynots,9個workshop,30個demo和posters,以及RecSys Challenge競賽關節(jié),共有20多個組織贊助。錄取論文包括51篇學術論文,15篇工業(yè)界論文,9篇past present and future論文;其中l(wèi)ong paper錄取率為18%,short paper錄取率為20%。研究方向覆蓋了人因(human factors),上下文感知,冷啟動,多樣性與新穎性,推薦算法(如矩陣分解,深度學習等)等方面。
趨勢
1. 深度學習在推薦系統(tǒng)中應用
相比以往的RecSys會議,深度學習方面的論文比重增加,今年有專門的深度學習workshop和論文session;工業(yè)界的Google YouTube,Google Play,Spotify都聲稱用到深度學習技術,應用領域包括構建特征,生成推薦候選集合,以及預測推薦分值。
我與幾位機器學習的研究者(Romaric Gaudel教授,曹雪智博士等)交流,他們也認為深度學習是今年的一個趨勢,但沒有預期中那么多的研究成果。Claudia Perlich(第一個Keynote演講者)在keynote上回答關于深度學習在推薦系統(tǒng)應用前景的問題時,認為深度學習適合解決結構化的問題,如NLP,聲音,圖像等,能否成為推薦系統(tǒng)的主流模型還有待觀察。
2. 完整的系統(tǒng)級的推薦系統(tǒng)研究
Joseph Konstan教授(第一屆RecSys的主席)認為,今年有更多研究是end to end完整的、系統(tǒng)級的研究,不再只偏重于具體一個方面(如算法),這個趨勢與Recommendation System會議的主旨更加相符。
3. 對Metrics有了更多的思考
? ? 在今年的會議中,大家明顯對于推薦的評價指標有了更為深入的思考和理解,不再只簡單關注短期準確率的目標,對長期目標有了較多思考,如推薦系統(tǒng)對于用戶的長期維系:
(1) Joseph Konstan:“CTR只是點擊行為,而為什么點擊?產生點擊的決策機制是什么?后面的2個問題也是推薦系統(tǒng)需要研究的”
(2) Claudia Perlich:web的點擊中有40%來自Bot,移動設備的點擊中有36%屬于用戶unintentionally的點擊;如果不加甄別地用這樣的數(shù)據來學習,學到的是大量摻雜了非用戶真實需求的模型。
(3) Xavier Amatriain: 系統(tǒng)要以“用戶的長期維系”為目標,需要綜合考慮用戶的顯示反饋行為和多元的隱式反饋行為。
(4) Michael Ekstrand: 預估CTR,往往不能理解用戶真實的意圖(desire);下載行為也不能代表用戶是滿意的,當我們深入了解用戶意圖和行為后,推薦系統(tǒng)能發(fā)揮更大巨大作用。
工業(yè)界的廣泛參與
今年RecSys來自工業(yè)界的sponsor有18家公司。參會者來自工業(yè)界的超過一半,其中阿里派出了超過10人的團隊參會;連很少在學術會議上出現(xiàn)的Apple也有人參會;其它參會公司包括Mendeley, Meetup, Bloomberg, Foursquare, Spotify, Net?flix, Pandora, Stitch Fix, Expedia, Nara Logics, GraphSQL, Retail Rocket, Quora, Google, Pinterest。各大公司均積極招聘,了解推薦系統(tǒng)的最新動向,與學術界交流緊密。
主會有3個session介紹工業(yè)界推薦系統(tǒng)的工作,其中包括1個session專門分享工業(yè)界在推薦系統(tǒng)方面的經驗(具體經驗后文有介紹)。大約1/3論文的作者有工業(yè)界背景;不少公司的推薦系統(tǒng)領導者都有很強的學術背景,如Quora的Xavier和Lei Yang,Google Now的 Shashi Thakur,Dstillery的Claudia Perlich等。
工業(yè)界的經驗分享:
1. Keynote:
Claudia Perlich ? 是Distillery(廣告解決方案公司)的首席科學家,其所在的Distillery公司每天處理500億的數(shù)據樣本,其采用的技術方案包括LR,SGD,Hashing,Streaming,L1 & L2 regularization。在keynote中,她闡述了2個觀點:
觀點1:“Predictability bias: models tend to go where the signal is”
模型為何預測的準確,因為有的signal令模型更準確,但有些signal是noise的,并非用戶的自身的喜好,比如:
(1)Bot traffic占了互聯(lián)網36%的流量,很多轉化率時間是bot做到的,結論是bot的行為容易預測,而用戶的行為仍然難以預測;
(2)移動設備上40%的點擊行為時accidental的無用點擊,結論是accidental容易預測,認得行為不容易預測。
所以要深刻理解用戶的行為。
觀點2:“bad metrics with good machine learning is almost always a disaster”
可以思考這樣的問題:CTR是最好的優(yōu)化目標嗎?百度的搜索結果為什么比不過Google,前者只用CTR標注,后者始終保持大量的人工標注(一個在Google實習的人透露的),精巧的人工標注可以讓搜索結果質量更高。
2. Lessons learned from build real-life Recsys:Xavier介紹了其在Quora和Netflix構建推薦系統(tǒng)時的經驗:
(1) Implicit feedback is more important:需要注意的是implicit feedback有時并非與用戶長期維系目標相符,所以有時需要將顯示反饋與隱式反饋結合起來
(2) 認真考慮訓練數(shù)據:定義合理的正負例
(3) 推薦的解釋有時比預測準確率重要
(4) MF是最好的single approach,MF的變形包括FM,SVD++,ALS等;Quora開源了他們的MF模型QMF
(5) Ensemble is the master algorithm
(6) Feature Engineering: 需要理解領域信息,了解推薦目的和用戶需求,將以上信息轉化為特征;好的特征具有如下特點:reusable, transformable, interpretable, reliable; 深度學習也是構建特征的一種方法
(7) 合理的評價策略
i. Offline vs. online: a critical issue is how offline metrics correlate with A/B test results
ii. Long-term metric (member retention) vs. short-term metric?
(8) Model debuggability: to determine particular model to use; features to rely on; implementation of tools.
3. Bloomberg的新聞推薦考慮用戶興趣遷移的問題,并通過對推薦結果reshuffling的機制防止用戶興趣過于集中;
4. Foursquare構建個人助理MarsBot,進行hotel,restaurant等內容的推薦,Marsbot以短信通知、push、personality and onboarding為主要特征,實施存文字的交互對話引導,當用戶感興趣后,在后續(xù)會話文字中加入產品鏈接,避免直接推薦鏈接引起用戶的不滿;
5. Spotify的音樂個性化推薦采用推薦策略包括:專家標注,元數(shù)據,音樂聲學信號,CF,以及混合策略,模型使用了latent factor model,深度學習模型;排序部分會考慮:相似度,相關度,多樣性,流行度,新鮮度,使用了MAB的方法。
6. Google Play的經驗分享
(1) Always Run live experiments
(2) 盡可能簡單
(3) 選擇合理優(yōu)化目標
7. Pinterests的經驗分享
(1) 候選集生成策略:圖片候選集生成策略較為簡單,主要使用圖片相似性,相似性計算方位共現(xiàn)次數(shù)
(2) 應用linearRankSVM模型和GBDT涌現(xiàn),特征包括圖片特征、query特征,用戶上下文特征用于個性化。
(3) collecting unbiased training data
推薦模型和技術
在推薦系統(tǒng)中被工業(yè)界廣泛使用的有效的模型主要有:logistic regression,matrix factorization,Gradient boosting decision tree,其中LR被廣泛用于CTR的預估;matrix factorization模型包括SVD++,factorization machine,ALS等方法,是工業(yè)很推崇的方法;今年RecSys challenge的前三名均使用GBDT的方法。其他被工業(yè)界使用的技術還包括:SGD,采樣,哈希,L1&L2正則,實時流數(shù)據分析等;Spotify還聲稱他們用了MAB的方法。
YouTube Recommendation使用了深度學習技術,用于候選集的生成和排序。
林智仁老師團隊應用field-aware factorization machine模型進行廣告的CTR預估,取得了2個競賽的關鍵,相關研究成果也發(fā)表在今年的RecSys上。
值得關注的論文
1. A Scalable Approach for Periodical Personalized Recommendations
2. Adaptive, Personalized Diversity for Visual Discovery?
3. Field-aware Factorization Machines for CTR Prediction?
4. Local Item-Item Models for Top-N Recommendation ?(Best paper)
5. Mechanism Design for Personalized Recommender Systems?
6. Deep Neural Networks for YouTube Recommendations?
7. Past, Present, and Future of Recommender Systems: An Industry Perspective (author:Xavier Amatriain)
8. Algorithms Aside: Recommendation as the Lens Of Life ?(演講的膠片非常藝術流)
9. Meta-Prod2Vec - Product Embeddings Using Side-Information for Recommendation
10. Are You Influenced by Others When Rating? Improve Rating Prediction by Conformity Modeling (余勇老師組做的工作)
工業(yè)界的幾篇論文:
1. When Recommendation Systems Go Bad ?(meetup)
2. News Recommendations at scale at Bloomberg Media: Challenges and Approaches (Bloomber)
3. Marsbot: Building a Personal Assistant (Foursqure)
4. Music Personalization at Spotify (Spotify)
5. Recommending for the World (Netflix)
6. The Exploit-Explore Dilemma in Music Recommendation ?(Pandora)
7. Tutorial: Lessons Learned from Building Real-life Recommender Systems ?(Xavier’ tutorial)
很高興在今年的RecSys見到以前的朋友、老師和同窗,結交新朋友。RecSys是一個朝氣蓬勃的社區(qū),面向解決實際問題的推薦和搜索人才密度高。2019年的RecSys將回到亞洲,很有可能在中國舉辦。
總結
以上是生活随笔為你收集整理的RecSys 2016总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RecSys 2017总结
- 下一篇: 消息队列 ActiveMQ 、Rocke