當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

广告分析

發布時間：2025/3/21 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了广告分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

廣告分析

廣告點擊率預測中的幾點問題

@zen.wan

? ? ? ?【問題來源】LR模型將會用于對廣告展現時，根據點擊率，對展現的廣告做重排序。具體的做法是：

根據一個月該行業的日志，找到每次搜索時，當時展現的所有廣告（一次展現固定出三條廣告）。他們把每個廣告的每次展現當作樣本，當時是否點擊為LR的y值：0或者1。這樣一共獲得了50w個樣本（比如在一次搜索queryA下展現了三條廣告a，b，c，其實a被點擊了一次，那么這次搜索一共對應3個樣本，其中第一個樣本的y為1，后面兩個樣本的y為0）
對樣本做均勻抽樣分成兩份，70%為訓練樣本，30%為測試樣本，抽取了100種特征，其中一個特征是當時廣告在網頁中的排序（1，2或者3）
使用公司的LR在訓練樣本上進行訓練，在測試樣本中進行檢測，認為LR模型給出的p即為廣告的點擊率，其中：

對于廣告在網頁中的排序，韓梅梅使用的方法是離散乘0-1特征，即將排序離散成（是否為第一名，是否為第二名，是否為第三名），如果樣本的排序是第一名，對應的特征為（1,0,0），如果樣本的排序為第二名，對應的特征為（0,1,0），而李雷的方法是直接對排序做歸一后當作特征的取值，如第一名為0，第二名為0.5，第三名為1，問他們誰的方法效果會更好，為什么？

一般大型LR模型都是使用隨機梯度下降的方式，所以需要選擇初始值，韓梅梅把beta()的初始值設置成了廣告的平均點擊0.01，而李雷把bata()設置為1，問在實際線上應用的時候，他們誰的方法效果會更好，為什么？

在直接使用LR模型的時候(loss=\sum yi*log(h(x))+(1-yi)*log(1-h(x)))h(x）=1/(1+exp(-xi*thetai)),韓梅梅和李雷發現在訓練樣本中擬合的很好，但是在測試樣本中效果比較差，問可能是什么原因導致？怎么解決？

d.在測試的時候，他們使用auc來評估效果，請問auc是怎么計算的？

在單特征（實際業界還需要用到cross_feature）提取中，對于categorical feature ，一般采用one-hot encoding(獨熱編碼)，而cross_feature 也一般是對categorical feature經常交叉。需要one-hot encoding 是因為一些離散的值是沒有比較大小的意義，比如gender=[“man”,”female”]，city = [“shanghai”,”hefei”,”wuhan”]，對于一些看似可比的feature，實際上也是沒有可比性的，比如廣告的位置（rank）。有實際比較意義的feature如：price價格),reviews_count(評論數),sold_count(銷量）等。
下面我舉個例子來說明one-hot encoding:
user_gender=gender=[“man”,”female”]，user_city = [“shanghai”,”hefei”,”wuhan”] ,ad_rank = [1,2,3] 則feature_set = [“man”,”female”,”shanghai”,”hefei”,”wuhan”,rank_1,rank_2,rank_3],假如有一條記錄是：一位上海的男同學對第二個廣告進行了點擊，則one-hot endoing的結果就是[1,0,1,0,0,0,1,0].
實際開發中，我們需要掃描兩次數據，采用稀疏矩陣存儲，第一次生成feature_set,第二次再進特征編碼。

beta()初始值設定沒有固定原則，beta()的幾何意義是截距，就是在特征權值w全為0的情況下的取值，從另外一個角度看，就是對一個全新的商品賦予的點擊率。通常可以取平均值，取1的話就是賦予了對點擊率預測來說有點過高，不太可取。

模型選擇的策略一般有兩種，一種是結構風險最小化，還有一種是經驗風險最小化，此處選用的是經驗風險最小化，經驗風險最小化的一個缺點是，它求取的的參數是對于訓練集的無偏估計，結果就是容易產生過擬合現象，即對訓練集而言有良好的泛化能力，對驗證集卻很糟糕，而結構風險最小化就是克服over-fitting而提出的，它的做法就是在經驗最小化的基礎上增加一個正則化因子，正則化項可以是參數向量的L1范數，也可以是L2范數！業界通常采用LR+L1的做法（Lasso回歸）。為什么選擇L1而不是L2，主要是L1是一種稀疏型學習方法。

計算AUC前需要了解ROC曲線：

正如我們在這個ROC曲線的示例圖中看到的那樣，ROC曲線的橫坐標為false positive rate（FPR），縱坐標為true positive rate（TPR）。下圖中詳細說明了FPR和TPR是如何定義的。

接下來我們考慮ROC曲線圖中的四個點和一條線。第一個點，(0,1)，即FPR=0, TPR=1，這意味著FN（false negative）=0，并且FP（false positive）=0。Wow，這是一個完美的分類器，它將所有的樣本都正確分類。第二個點，(1,0)，即FPR=1，TPR=0，類似地分析可以發現這是一個最糟糕的分類器，因為它成功避開了所有的正確答案。第三個點，(0,0)，即FPR=TPR=0，即FP（false positive）=TP（true positive）=0，可以發現該分類器預測所有的樣本都為負樣本（negative）。類似的，第四個點（1,1），分類器實際上預測所有的樣本都為正樣本。經過以上的分析，我們可以斷言，ROC曲線越接近左上角，該分類器的性能越好。
AUC（Area Under Curve）被定義為ROC曲線下的面積，顯然這個面積的數值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方，所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好，而作為一個數值，對應AUC更大的分類器效果更好。
最簡便的計算規則如下：首先對score從大到小排序，然后令最大score對應的sample 的rank為n，第二大score對應sample的rank為n-1，以此類推。然后把所有的正類樣本的rank相加，再減去正類樣本的score為最小的那M個值的情況。得到的就是所有的樣本中有多少對正類樣本的score大于負類樣本的score。然后再除以M×N。即另外，特別需要注意的是，再存在score相等的情況時，對相等score的樣本，需要賦予相同的rank(無論這個相等的score是出現在同類樣本還是不同類的樣本之間，都需要這樣處理)。具體操作就是再把所有這些score相等的樣本的rank取平均。然后再使用上述公式。

參考文獻：
[1]李航．統計學習方法．清華大學大學出版社．
[2]ROC和AUC介紹以及如何計算AUC
[3]?AUC的計算方法總結

總結

以上是生活随笔為你收集整理的广告分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [推荐算法]ItemCF,基于物品的协同
下一篇： L1范数正则化