當前位置：首頁 > 运维知识 > windows >内容正文

windows

简单复读机LR如何成为推荐系统精排之锋？

發布時間：2024/7/5 windows 65 豆豆

生活随笔收集整理的這篇文章主要介紹了简单复读机LR如何成为推荐系统精排之锋？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 水哥
源 | 知乎

saying

1. 眾所周知，人類（劃掉）推薦的本質是復讀機
2. 精排之鋒，粗排之柔，召回之厚
3. 在推薦里談“過擬合”很容易給我們造成心理上的松懈，導致我們忽略環境，氛圍等多種因素的作用。我們可以說一萬遍有過擬合，但是不采取行動，就沒有任何作用

這一講開始，我們將介紹具體的模型。前面我們說過模型有三種：精排，粗排和召回。我們也大致提過，精排的作用是完成給定的擬合任務，沒有任何其他雜念，就像一把鋒利的刃，純粹探究模型的上界。粗排是召回和精排之間的承接環節，它更需要的是平衡。而召回需要體現生態的方方面面，它包含了一個研究者對整個業務體系的厚重的思考。

我們分三個部分講解模型，首當其沖的就是精排模型。在多種多樣的模型中，最簡單的是邏輯回歸。在其他領域邏輯回歸可能是一個大家課上都學，但是沒什么人用的模型。但是在推薦領域，它做主流的時間可能比很多人想象的要長很多。我知道的一些現在很知名的公司，擺脫LR可能都沒幾年。從這一講中我們能看出，邏輯回歸雖然簡單，但是它已經能貼合推薦這件事情的本質了。

下面進入正題。我們所能想到最簡單的，最常見的建模是一個線性模型，其實就是。在很多問題中直接使接近ground truth 就可以完成一個最簡單的擬合。但是推薦模型預估的問題，一般是點擊率之類的，具體操作上是每次展示是否發生點擊。點擊與否是0/1的。這就要求我們模型的輸出應該也是0/1的，或者至少是在之間（這個時候就表明一個概率）。因此在外面會加上一個激活函數sigmoid（這個函數的輸出是限定在0-1之間的），最終得到

這就是邏輯回歸最終的形式。

但是上面這個過程，存不存在疑問呢？

為什么是sigmoid？

上面的激活函數使用了sigmoid，我們說是因為他的值域在0-1之間。但是如果仔細想想這個理由還有點牽強：是不是只要輸出在0-1之間，什么激活函數都可以？比如說我可不可以先用Tanh把輸出范圍約束到之間，再線性變換到0-1之間呢？為什么沒有人這樣做？可能有別的原因。

這個問題其實我翻找了很多的資料，大多數的回答都不是很令人信服，下面這個解釋算是我覺得最讓我接受的一個，是我在Quora上面找到一個很好的回答^[1]，這里轉述一下：

這個形式，本身是無界的。我們不能讓它去擬合一個之間的目標。假如說原來點擊的概率是，我們就要構造一個相關形式，讓它的值域是的，才能進行學習。可以首先做一個輔助函數，這樣會把輸出的范圍放大到之間。接下來再對這個式子取對數，就可以把輸出范圍變成的，符合我們的要求。即令：

把這個式子解開，就可以得到上面的邏輯回歸形式了。

工業界的應用方式

LR在工業界應用時，是有點特殊的。這個特殊的點在特征上。這時候要注意一個時代背景，即特征的處理是比較原始的，怎么簡單怎么來。推薦這個階段的特征，不像其他領域如CV，NLP是一段連續的浮點數向量或者張量，也不是后來的embedding look-up table，而是無數的“one-hot”，怎么理解呢？比如我有1w個item，分別編號1-10000，那么在item id這里，就有1w個特征，只是每一個item只能是其中的一個取值為1，其他的取值都為0（這個就是one-hot）. 相應地，也就有1w個不同的。每一種特征，我們稱之為一個slot，僅在這一種slot內是one-hot的。在我們計算的時候，是binary的，而是浮點數，這個結果其實操作的時候，就是把用戶所有不為0的對應的加起來即可。我們用下圖來表示：

在這個例子中，有三種特征，性別，年齡段，和user ID。注意到這里的表格需要存儲所有可能的特征取值。對于當前的用戶我們就分析，他的性別，年齡段，ID分別是什么。由于是0/1的，直接取出對應的，并且和相加。這里只畫了用戶側的部分，item側也是同樣的道理。

但是要注意的是，特征在概念上是one-hot的，實際上不需要真正做出來一段向量然后用一個矩陣映射什么的。因為很多時候這個one-hot里面是會有“洞”。即有一些ID可能不出現，這時候再做一個滿的矩陣太浪費了。實際中都是稀疏保存的，就是哪個有值存哪個。后面的embedding look-up table也是這么做的。

強解釋性

LR這個模型解釋性是非常強的。我們還是舉上面圖中的那個例子，我們有四種特征，user ID，item ID，年齡，性別。假如在分布均勻的茫茫負樣本中，只有三個正樣本，分別是：

通過這些樣本，模型會有怎樣的趨勢，我們能看出怎樣的結論？通過對模型的分析，我們可以判斷，itemID=10這里，對應的w收到三次正向的梯度，gender=male兩次，其他都是一次。那么從模型的角度看，itemID=10就是一個更重要的因素，也就是說，模型認為10號item就是好。如果是我們人為分析的話，我也會這么覺得。模型給出的判斷符合人的認知。我們完全可以拿出一個模型，看看里面的分布是怎樣的，然后說，幅度明顯大的特征，就比小權重的特征更重要。這一點在大多數實踐中是成立的。因此事實上，LR也可以作為特征重要性分析的一種工具。

我們本講中的LR特征種類少，特征的取值也少。但在實際應用中，特征的數量是非常非常多的。比如我又上億用戶的時候，單單user ID這一個特征就有上億的取值。由于特征的每一種取值都要獨占一個，那么也就存在一個對應的。即使我的機器很多，要做完一次預估都需要窮舉所有非0的也是非常非常費勁的。尤其是我可能會得到很多取值是0.0001，0.000001這樣的，你說不加吧，結果可能又不對，加上吧，零零碎碎的也太煩人了。怎么樣既能做到結果是準確的，又能很省力的完成呢？這就是LR主要面臨的問題，請看下期——

下期預告

精排之鋒（2）：工業LR的稀疏要求

往期回顧

1.召回粗排精排，如何各司其職？

2.拍不完的腦袋：推薦系統打壓保送重排策略

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

[1]. https://www.quora.com/Logistic-Regression-Why-sigmoid-function

[2]. 《影響力》這是社會心理學的一本很著名的書，推薦大家讀一讀

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的简单复读机LR如何成为推荐系统精排之锋？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：百度NLP、视频搜索团队招聘算法实习生！
下一篇：还在用Tensorboard？机器学习实