Ctr点击率预估理论基础及项目实战
1.機器學(xué)習(xí)推薦算法模型回顧
召回(粗排)
利用業(yè)務(wù)規(guī)則結(jié)合機器學(xué)習(xí)推薦算法得到初始推薦結(jié)果,得到部分商品召回集
ALS\UserCF\ItemCF\FP-Growth\規(guī)則等方式召回
排序(精排)
1期:根據(jù)不同推薦位通過不同的模型得到推薦結(jié)果
2期:將推薦的所有結(jié)果通過Ctr或Cvr預(yù)估結(jié)果進行排序
GBDT\LR\GBDT+LR\FM()\FFM()\DeepFM\Wide and deep模型\PNN()\FNN()等?
結(jié)構(gòu)圖示
擴展 : 推薦系統(tǒng)排序模型
框架
??? ?從框架的角度看,推薦系統(tǒng)基本可以分為數(shù)據(jù)層、觸發(fā)層、融合過濾層和排序?qū)印?shù)據(jù)層包括數(shù)據(jù)生成和數(shù)據(jù)存儲,主要是利用各種數(shù)據(jù)處理工具對原始日志進行清洗,處理成格式化的數(shù)據(jù),落地到不同類型的存儲系統(tǒng)中,供下游的算法和模型使用。候選集觸發(fā)層主要是從用戶的歷史行為、實時行為、地理位置等角度利用各種觸發(fā)策略產(chǎn)生推薦的候選集(召回)。候選集融合和過濾層有兩個功能,一是對出發(fā)層產(chǎn)生的不同候選集進行融合,提高推薦策略的覆蓋度和精度;另外還要承擔(dān)一定的過濾職責(zé),從產(chǎn)品、運營的角度確定一些人工規(guī)則,過濾掉不符合條件的item。排序?qū)又饕抢脵C器學(xué)習(xí)的模型對觸發(fā)層篩選出來的候選集進行重排序。
??? ?首先將客戶上報過來的數(shù)據(jù)進行數(shù)據(jù)清洗,檢查數(shù)據(jù)的一致性,處理無效值和缺失值等,去除臟數(shù)據(jù),處理成格式化數(shù)據(jù)存儲到不同類型的存儲系統(tǒng)中。對于用戶行為日志和推薦日志由于隨時間積累會越來越大,一般存儲在分布式文件系統(tǒng)(HDFS),即Hive表中,當需要的時候可以下載到本地進行離線分析。對于物品信息一般存儲在MySQL中,但是對于業(yè)務(wù)數(shù)據(jù),越來越多的客戶導(dǎo)致物品信息表(item_info)越來越大,所以同時也會保存在Hive表和HBase中,Hive可以方便離線分析時操作,但實時程序讀取的時候Hive表的實時性較差,所以同時也會寫一份放在HBase中供實時程序讀取。對于各個程序模塊生成的結(jié)果,有進程同步關(guān)系的程序一般會使用Redis作為緩沖存儲,生產(chǎn)者會把信息寫到redis中供消費者使用。候選集生成是從用戶的歷史行為、實時行為、利用各種策略和算法生成推薦的候選集。同時點擊反饋會根據(jù)用戶的實時操作對候選集進行實時的調(diào)整,對于部分新用戶和歷史行為不太豐富的用戶,由于候選集太小,需要一些替補策略進行補充。候選集融合規(guī)則過濾主要有兩個功能,一是對生成的候選集進行融合,提高推薦策略的覆蓋度和精度;另外還需根據(jù)產(chǎn)品、運營的角度確定一些人為的規(guī)則,過濾掉不符合條件的item,重排序主要是利用機器學(xué)習(xí)的模型對融合后的候選集進行重排序。
??? ?同時,對與候選集觸發(fā)和重排序兩層而言,為了效果迭代是需要頻繁修改的兩層,因此需要支持ABtest。為了支持高效率的迭代,我們對候選集觸發(fā)和重排序兩層進行了解耦,這兩層的結(jié)果是正交的,因此可以分別進行對比試驗,不會相互影響。同時在每一層的內(nèi)部,我們會根據(jù)用戶將流量劃分為多份,支持多個策略同時在線對比。
??? ?排序模型分為非線性模型和線性模型,非線性模型能較好的捕捉特征中的非線性關(guān)系,但訓(xùn)練和預(yù)測的代價相對線性模型要高一些,這也導(dǎo)致了非線性模型的更新周期相對要長。相較而言,線性模型對特征的處理要求比較高(LR對特征要求較高),需要憑借領(lǐng)域知識和經(jīng)驗人工對特征做一些先期處理,但因為線性模型簡單,在訓(xùn)練和預(yù)測時效率較高。因此在更新周期上也可以做的更短,還可以結(jié)合業(yè)務(wù)做一些在線學(xué)習(xí)的嘗試。
2.機器學(xué)習(xí)重排序-線性模型
邏輯斯特回歸是一種廣義線性模型 , 雖然名字里帶著回歸 , 但它其實是一種分類算法 , 主要運用在二分類或多分類算法 . 邏輯斯特回歸采用極大似然法對模型參數(shù)進行估計 .
線性模型以LR為例展開
線性回歸:y=w0+w1x1+w2x2+w3x3
非線性函數(shù):y=1/{1+e**-x} — sigmod函數(shù) — 以概率輸出2分類的結(jié)果
線性模型:對輸入特征需要做專門的處理灌入算法中學(xué)習(xí)
3.機器學(xué)習(xí)重排序-非線性模型
GBDT為例—梯度提升決策樹
算法原理:
加法模型
前線分布算法
梯度下降法
是非線性模型,在模型中數(shù)據(jù)的輸入沒有要求,比線性模型少了很多的處理特征的環(huán)境
4.機器學(xué)習(xí)重排序-GBDT+LR簡介
GBDT+LR
GBDT天然具有的優(yōu)勢是可以發(fā)現(xiàn)多種有區(qū)分性的特征以及特征組合 .
LR利用GBDT的輸出結(jié)果作為輸入 ; LR要輸入的是線性獨立特征
GBDT是非線性模型
LR是線性模型
LR特征工程比較困難,可以借助GBDT方法得到關(guān)鍵特征
GBDT通過將樣本落入到每一個葉子結(jié)點上,取值為1,其余為0,構(gòu)建稀疏性向量空間,如01001,將新向量作為LR的輸入進行點擊率預(yù)估,以概率的形式輸出點擊率預(yù)估結(jié)果
5.排序模型發(fā)展
LR階段--------特征需要處理
為什么LR需要線性獨立的特征?
LR接受的是線性獨立的特征
y=w0+w1x1+w2x2 假設(shè)x1和x2是相關(guān)變量,能夠?qū)1x1+w2x2組合為一個wx
LR的瓶頸 :
1、特征都需要人工進行轉(zhuǎn)換為線性特征,十分消耗人力,并且質(zhì)量不能保證
2、特征兩兩作Interaction (交叉沿鎮(zhèn))的情況下,模型預(yù)測復(fù)雜度是平方項。在100維稠密特征的情況下,就會有組合出10000維的特征,復(fù)雜度高,增加特征困難。
3、三個以上的特征進行Interaction 幾乎是不可行的
GBDT的優(yōu)點 :
1、對輸入特征的分布沒有要求
2、根據(jù)熵增益自動進行特征轉(zhuǎn)換、特征組合、特征選擇和離散化,得到高維的組合特征,省去了人工轉(zhuǎn)換的過程,并且支持了多個特征的Interaction
3、預(yù)測復(fù)雜度與特征個數(shù)無關(guān)
GBDT階段-------能夠做非線性處理
根據(jù)信息gini系數(shù)對各個特征進行交叉,得到葉子結(jié)點是各個特征的交叉的結(jié)果,可以利用GBDT算法以稀疏編碼的方式對已有的樣本進行預(yù)測輸出,如000101
GBDT算法的特點正好可以用來發(fā)掘有區(qū)分度的特征、特征組合,減少特征工程中人力成本。
GBDT+LR
利用GBDT的輸出作為LR輸入,輸入LR的特征是獨立的特征,進而進行學(xué)習(xí)
stacking模型就是上一個模型的結(jié)果作為下一個模型的輸入
6.愛奇藝推薦排序模型
推薦系統(tǒng)的整體結(jié)構(gòu)如圖所示,各個模塊的作用如下:
1、用戶畫像:包含用戶的人群屬性、歷史行為、興趣內(nèi)容和偏好傾向等多維度的分析,是個性化的基石
2、特征工程:包含了了視頻的類別屬性,內(nèi)容分析,人群偏好和統(tǒng)計特征等全方位的描繪和度量,是視頻內(nèi)容和質(zhì)量分析的基礎(chǔ)
3、召回算法:包含了多個通道的召回模型,比如協(xié)同過濾,主題模型,內(nèi)容召回和SNS等通道,能夠從視頻庫中選出多樣性的偏好內(nèi)容
4、排序模型:對多個召回通道的內(nèi)容進行同一個打分排序,選出最優(yōu)的少量結(jié)果。
推薦排序系統(tǒng)架構(gòu)
在召回階段,**多個通道的召回的內(nèi)容是不具有可比性的,**并且因為數(shù)據(jù)量太大也難以進行更加較精確的偏好和質(zhì)量評估,因此需要在排序階段對召回結(jié)果進行統(tǒng)一的準確的打分排序。
(規(guī)則排序)用戶對視頻的滿意度是由很多維度因子來決定的,這些因子在用戶滿意度中的重要性也各不相同,甚至各個因子之間還有多層依賴關(guān)系,人為制定復(fù)雜的規(guī)則既難以達到好的效果,又不具有可維護性,這就需要借助機器學(xué)習(xí)的方法,使用機器學(xué)習(xí)模型來綜合多方面的因子進行排序(基于模型排序效果)。
機器學(xué)習(xí)的架構(gòu)解決了以下兩個問題
訓(xùn)練預(yù)測的一致性
機器學(xué)習(xí)模型在訓(xùn)練和預(yù)測之間的差異會對模型的準確性產(chǎn)生很大的影響,尤其是模型訓(xùn)練與在線服務(wù)時特征不一致,比如用戶對推薦結(jié)果的反饋會實時影響到用戶的偏好特征,在訓(xùn)練的時候用戶特征的狀態(tài)已經(jīng)發(fā)生了變化,模型如果依據(jù)這個時候的用戶特征就會產(chǎn)生非常大的誤差。
我們的解決辦法是,將在線服務(wù)時的特征保存下來,然后填充到收集的用戶行為樣本中,這樣就保證了訓(xùn)練和預(yù)測特征的一致性。 ===> 即增大了數(shù)據(jù)的復(fù)雜度
持續(xù)迭代
互聯(lián)網(wǎng)產(chǎn)品持續(xù)迭代上線是常態(tài),在架構(gòu)設(shè)計的時候,數(shù)據(jù)準備,模型訓(xùn)練和在線服務(wù)都必須能夠?qū)Τ掷m(xù)迭代有良好的支持。
我們的解決方案是,數(shù)據(jù)準備和模型訓(xùn)練各階段解耦,并且策略配置化,這種架構(gòu)使模型測試變得非常簡單,可以快速并行多個迭代測試。
召回
用戶畫像
特征工程
推薦算法
排序
用戶行為收集,特征填充,訓(xùn)練樣本篩選,模型訓(xùn)練,在線預(yù)測排序
機器學(xué)習(xí)算法
7.極大似然估計
求解發(fā)生概率的最大值
目的:求解發(fā)生概率最大值
步驟:1.寫出似然函數(shù),2.對似然函數(shù)求log對數(shù),3.對似然函數(shù)求導(dǎo)數(shù),4.得到最優(yōu)解
機器學(xué)習(xí)三要素:
模型
決策函數(shù):損失函數(shù)—平方損失、絕對值損失、指數(shù)損失 ----- 最小化損失
條件概率函數(shù):極大似然估計
求解極大似然目標函數(shù)
步驟:
1.寫出似然函數(shù)
2.對似然函數(shù)求log對數(shù)
3.對似然函數(shù)求導(dǎo)數(shù)
4.得到最優(yōu)解
圖解
極大似然估計的例子圖解
8.梯度下降法及牛頓法
梯度下降法
底層實現(xiàn):泰勒的一階展開
代碼實現(xiàn)
# 給定初始值 , xOld記錄上一步的x值 , xNew下一步迭代的x值
xOld = 0
xNew = 6
# 步長
epa = 0.01
# 可接受誤差
precision = 0.00001
# 定義原函數(shù)
def f(x):
?? ?return x ** 4 - 3 * x ** 3 + 2
# 定義導(dǎo)函數(shù)
def f_prime(x):
?? ?return 4 * x ** 3 - 9 * x ** 2
# 主函數(shù)
if __name__ == '__main__':
?? ?# 循環(huán)直到函數(shù)值之差滿足最小誤差
?? ?while abs(f(xNew) - f(xOld)) > precision:
?? ??? ?xOld = xNew
?? ??? ?xNew = xOld - epa * f_prime(xOld)
?? ?# 輸出極小值點
?? ?print("最小值點為 : ", xNew, "最小值為 : ", f(xNew))
# 最小值點為 : ?2.2489469258218673 最小值為 : ?-6.542957528732806
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
總結(jié) :
(1)方向?qū)?shù)是各個方向上的導(dǎo)數(shù)
(2)偏導(dǎo)數(shù)連續(xù)才有梯度存在
(3)梯度的方向是方向?qū)?shù)中取到最大值的方向,梯度的值是方向?qū)?shù)的最大值。
批量梯度下降法(BGD)
更新規(guī)則–所有樣本都參與了 theta 的更新和求解,這稱之為批量梯度方法,批量梯度下降法可以找到 線性回歸的全局最小值(為什么?因為目標函數(shù)是凸函數(shù),凸函數(shù)有且只有一個全局最小值),但算法本身局限在于可能存在局部最優(yōu)解,但不是全局最優(yōu)解。
隨機梯度下降法(SGD)
特點 : 更快 , 在線 , 可以跳過局部最小值 , 有可能找不到全局最優(yōu)值 , 有時候會在局部最優(yōu)值點發(fā)生震蕩 , 但是一般情況下在一定位置發(fā)生震蕩 , 認為模型收斂了 . SGD比BGD更能收斂到全局最優(yōu)值
牛頓法 :
底層實現(xiàn):泰勒二階展開
牛頓法代碼 :
# 定義原函數(shù)
def f(x):
?? ?return x ** 3.0 - 2.0
# 定義導(dǎo)函數(shù)
def df(x):
?? ?return 3.0 * x ** 2.0
# 定義迭代值
def g(x):
?? ?return x - f(x) / df(x)
# 定義初始值
x = 1.0
# 定義誤差
r = 1.0
# 循環(huán)100次
for i in range(100):
?? ?# 迭代值賦值
?? ?x1 = g(x);
?? ?# 誤差賦值
?? ?r = abs(x1 - x)
?? ?# 可接受誤差
?? ?if r < 1e-10:
?? ??? ?print("step : % d " % i)
?? ??? ?break
?? ?# 更新下一步起始位置
?? ?x = x1
?? ?# 顯示迭代步驟
?? ?print("step : %d , x = %f" % (i, x))
print("remaind error = %f" % r)
print("x = %f" % x)
print("check f(x) = %f , the result is %r" % (f(x), f(x) == 0))
# step : 0 , x = 1.333333
# step : 1 , x = 1.263889
# step : 2 , x = 1.259933
# step : 3 , x = 1.259921
# step : 4 , x = 1.259921
# step : ?5?
# remaind error = 0.000000
# x = 1.259921
# check f(x) = 0.000000 , the result is True
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
梯度下降法與牛頓法的比較
9.邏輯斯特回歸模型
構(gòu)建似然函數(shù)
對似然函數(shù)加log對數(shù)----------------負log損失函數(shù)-------交叉熵損失
求解導(dǎo)數(shù)
利用梯度下降法求解得到參數(shù)
BGD
SGD(Mini-Batch SGD)
掌握手推梯度下降法
10.邏輯斯特回歸模型實踐
邏輯回歸可以解決分類問題
參數(shù)信息:solver和penlty正則項
#導(dǎo)入數(shù)據(jù)
from sklearn.datasets import load_iris
iris=load_iris()
#數(shù)據(jù)的基礎(chǔ)屬性信息
print(iris.data)
print(iris.target)
#建立模型
X=iris.data
y=iris.target
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=22)
from sklearn.linear_model import LogisticRegression
lr=LogisticRegression(solver='newton-cg')
lr.fit(X_train,y_train)
#模型檢驗
print("lr model in trainset score:",lr.score(X_train,y_train))
print("lr model in testset score:",lr.score(X_test,y_test))
# lr model in trainset score: 0.9416666666666667
# lr model in testset score: 0.9666666666666667
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
11.線性回歸和邏輯回歸的API
通過sklearn的API實現(xiàn)不同的算法
12.GBDT_LR實戰(zhàn)與總結(jié)
GBDT+LR實戰(zhàn)
GBDT形成結(jié)果通過OneHot編碼形成沒有線性關(guān)系的獨熱編碼
再通過LR輸出0-1之間的概率值
sklearn中https://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_transformation.html
測試代碼
import numpy as np
np.random.seed(10)
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import (RandomTreesEmbedding, RandomForestClassifier,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? GradientBoostingClassifier)
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve
from sklearn.pipeline import make_pipeline
n_estimator = 10
X, y = make_classification(n_samples=80000)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
X_train, X_train_lr, y_train, y_train_lr = train_test_split(
? ? X_train, y_train, test_size=0.5)
# Supervised transformation based on gradient boosted trees
grd = GradientBoostingClassifier(n_estimators=n_estimator)
grd_enc = OneHotEncoder()
grd_lm = LogisticRegression(solver='lbfgs', max_iter=1000)
grd.fit(X_train, y_train)
grd_enc.fit(grd.apply(X_train)[:, :, 0])
grd_lm.fit(grd_enc.transform(grd.apply(X_train_lr)[:, :, 0]), y_train_lr)
y_pred_grd_lm = grd_lm.predict_proba(grd_enc.transform(grd.apply(X_test)[:, :, 0]))[:, 1]
fpr_grd_lm, tpr_grd_lm, _ = roc_curve(y_test, y_pred_grd_lm)
# # The gradient boosted model by itself
# y_pred_grd = grd.predict_proba(X_test)[:, 1]
# fpr_grd, tpr_grd, _ = roc_curve(y_test, y_pred_grd)
plt.plot(fpr_grd_lm,tpr_grd_lm)
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
**每個樣本都經(jīng)過整體的每棵樹的決定,并以每棵樹的一片葉子結(jié)束。**通過將這些葉的特征值設(shè)置為1并將其他特征值設(shè)置為0來對樣本進行編碼。
然后,所得到的transformer學(xué)習(xí)數(shù)據(jù)的監(jiān)督的,稀疏的,高維的分類嵌入。
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.auc.html#sklearn.metrics.auc
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html#sklearn.metrics.roc_auc_score
http://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_transformation.html
算法背景 : acebook發(fā)表了一篇介紹將GBDT+LR模型用于其廣告推薦系統(tǒng)的論文
LR模型有以下特點:
計算復(fù)雜度低
易于并行化處理???
易于得到離散化目標值0或1,利用sigmoid函數(shù)將傳統(tǒng)線性模型的輸出值映射到(0,1)區(qū)間
GBDT作為一種常用的樹模型,可天然地對原始特征進行特征劃分、特征組合和特征選擇,并得到高階特征屬性和非線性映射。從而可將GBDT模型抽象為一個特征處理器,通過GBDT分析原始特征獲取到更利于LR分析的新特征。這也正是GBDT+LR模型的核心思想——利用GBDT構(gòu)造的新特征來訓(xùn)練LR模型。
算法原理及實現(xiàn)
算法組合——stacking : stacking方法有些類似于農(nóng)業(yè)中的嫁接,通過stacking方法組合的模型亦類似于嫁接植物
Facebook論文中的GBDT+LR模型就采用了GBDT算法作為學(xué)習(xí)層,以LR算法為輸出層。
算法流程& 代碼簡單實現(xiàn)
數(shù)據(jù)預(yù)處理 : 對變量取值中的中英文字符、缺失值和正負無窮值進行處理。
數(shù)據(jù)集劃分 : 為了降低過擬合的風(fēng)險,將訓(xùn)練集中的數(shù)據(jù)劃分為兩部分,一部分數(shù)據(jù)用于訓(xùn)練GBDT模型,另一部分數(shù)據(jù)通過訓(xùn)練好的GBDT模型得到新特征以訓(xùn)練LR模型。
From sklearn.model import train_test_split
X_gbdt,X_lr,y_gbdt,y_lr= train_test_split(X,y,test_size=0.5)
1
2
GBDT特征轉(zhuǎn)化 : 首先,通過sklearn中的GradientBoostingClassifier得到GBDT模型,然后使用GBDT模型的fit方法訓(xùn)練模型,最后使用GBDT模型的apply方法得到新特征。
from sklearn.ensemble import GradientBoostingClassifier
gbdt = GradientBoostingClassifier()
gbdt.fit(X_gbdt,y_gbdt)
leaves = gbdt.apply(X_lr)[:,:,0]
1
2
3
4
特征獨熱化 : 使用sklearn.preprocessing中的OneHotEncoder將GBDT所得特征獨熱化。
from sklearn.preprocessing import OneHotEncoder
featutes_trans =OneHotEncoder.fit_transform(leaves)
1
2
LR進行分類 : 用經(jīng)過離散化處理的新特征訓(xùn)練LR模型并得到預(yù)測結(jié)果。
from sklearn.linear_model import LogisticRegression
lr= LogisticRegression()
lr.fit(features_trans,y_lr)
lr.predict(features_trans)
lr.predict_proba(features_trans)[:,1]
1
2
3
4
5
調(diào)參方法簡述 :
??? ?構(gòu)建了模型框架后,模型中的函數(shù)參數(shù)調(diào)整也是必不可少的。對模型參數(shù)的適當調(diào)整,往往可以有效提升模型的效果。
??? ?由于GBDT+LR模型無法整體使用GridSearchCV函數(shù),所以調(diào)參時
??? ?使用sklearn.cross_validation中的StratifiedKFold方法,將數(shù)據(jù)集進行k折交叉切分,然后以auc值為模型評估指標,對混合模型進行調(diào)參。
??? ?調(diào)參時的重點為GradientBoostingClassifier函數(shù),可用如下圖所示的調(diào)參順序進行調(diào)參。
??? ?其中,n_estimators和learning_rate應(yīng)該聯(lián)合調(diào)參。
模型效果展示
??? ?我們分別使用LR模型和GBDT+LR模型對樣本數(shù)據(jù)集進行學(xué)習(xí),通過模型所得的auc值和ks值,來評估和比較模型的效果。
算法引申
用FFM模型替代LR模型:
直接將GBDT所得特征輸入FFM模型;
用XGBoost模型替代GBDT模型;
將stacking模型學(xué)習(xí)層中的GBDT交叉檢驗;
GBDT和LR模型使用model fusion,而不是stacking
擴展 : 【實戰(zhàn)】GBDT+LR算法進行特征擴增
簡介
??? ?CTR估計也就是廣告點擊率預(yù)估,計算廣告訓(xùn)練與平滑思想說明了是用LR算法對于預(yù)測的有效性。LR(Logistic Regression)是廣義線性模型,與傳統(tǒng)線性模型相比,**LR通過Logit變換將函數(shù)值映射到0~1區(qū)間,映射后的函數(shù)就是CTR的預(yù)估值。**LR模型十分適合并行化,因此對于大數(shù)據(jù)的訓(xùn)練十分有效。但是對于線性模型而言,學(xué)習(xí)能力是有限的,因此需要大量的特征工程預(yù)先分析出有效的特征或者是特征組合,從而去間接的增強LR的非線性學(xué)習(xí)能力。
??? ?特征組合,是通過特征的一些線性疊加或者非線性疊加得到一個新的特征,可以有效的提高分類效果。常見的特征組合方式有笛卡爾積方式。為了降低人工組合特征的工作量,FaceBook提出了一個自動特征提取的方式GBDT+LR。
??? ?GBDT是梯度提升決策樹,首先會構(gòu)造一個決策樹,首先在已有的模型和實際樣本輸出的殘差上再構(gòu)造一顆決策樹,不斷地進行迭代。每一次迭代都會產(chǎn)生一個增益較大的分類特征,因此GBDT樹有多少個葉子節(jié)點,得到的特征空間就有多大,并將該特征作為LR模型的輸入。
核心問題
(1)建樹采用ensemble決策樹?
??? ?一棵樹的區(qū)分性是具有一定的限制的,但是多棵樹可以獲取多個具有區(qū)分度的特征組合,而且GBDT的每一棵樹都會學(xué)習(xí)前面的樹的不足。
(2)建樹算法為什么采用GBDT而不是RF?
??? ?對于GBDT而言,前面的樹,特征分裂主要體現(xiàn)在對多數(shù)樣本的具有區(qū)分度的特征;后面的樹,主要體現(xiàn)的是經(jīng)過前面n棵樹,殘差依然比較大的少數(shù)樣本。優(yōu)先選用在整體上具有區(qū)分度的特征,再選用針對少數(shù)樣本有區(qū)分度的特征。
代碼實現(xiàn)
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier,RandomForestClassifier
import xgboost as xgb
from xgboost.sklearn import XGBClassifier
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import roc_curve,roc_auc_score,confusion_matrix,classification_report
#1.隨機生成數(shù)據(jù)集
np.random.seed(10)
X,y = make_classification(n_samples=1000,n_features=30)
#2.切分數(shù)據(jù)
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=223,test_size=0.5)
X_train,X_train_lr,y_train,y_train_lr = train_test_split(X_train,y_train,random_state=223,test_size=0.2)
#4.網(wǎng)格搜索
#5.訓(xùn)練模型
#5.1 RandomForest + LogisticRegression
def RF_LR():
? ? # Rf: 訓(xùn)練模型
? ? rf = RandomForestClassifier(n_estimators=100, max_depth=4)#n_estimators:樹的數(shù)目
? ? rf.fit(X_train, y_train)
? ? rf_result = rf.apply(X_train)#apply得到葉子節(jié)點的索引
? ? #onehot編碼
? ? ohe = OneHotEncoder()
? ? ohe.fit(rf_result)
? ? # 利用RF模型獲取以X_train_lr為輸入的葉子節(jié)點的索引值, 并對其進行one-hot編碼
? ? X_train_leaf_ohe = ohe.transform(rf.apply(X_train_lr))
? ? #LR: 訓(xùn)練模型
? ? lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
? ? lr.fit(X_train_leaf_ohe, y_train_lr)
? ? #LR: 預(yù)測
? ? y_pred = lr.predict_proba(ohe.transform(rf.apply(X_test)))[:, 1]
? ? #模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("RandomForest + LogisticRegression :\n", auc)
? ? return fpr,tpr
#5.2 XGBoost + LogisticRegression
def XGB_LR():
? ? # XGBoost: 訓(xùn)練模型
? ? # nthread: 并行度
? ? # n_estimators: Number of boosted trees to fit 要擬合樹的數(shù)目
? ? # colsample_bytree:Subsample ratio of columns when constructing each tree
? ? XGB = xgb.XGBClassifier(nthread=4, learning_rate=0.08, n_estimators=100,
? ? ? ? ? ? ? ? ? ? ? ? ? ? colsample_bytree=0.5)
? ? XGB.fit(X_train, y_train)
? ? XGB_result = XGB.apply(X_train)
? ? # onehot編碼
? ? ohe = OneHotEncoder()
? ? ohe.fit(XGB_result)
? ? X_train__ohe = ohe.transform(XGB.apply(X_train_lr))
? ? # X_train__ohe = ohe.transform(rf_result)
? ? # LR: 訓(xùn)練模型
? ? lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
? ? lr.fit(X_train__ohe, y_train_lr)
? ? # LR: 預(yù)測
? ? # y_pred的shape = [n_samples, n_classes]
? ? y_pred = lr.predict_proba(ohe.transform(XGB.apply(X_test)))[:, 1]
? ? # 模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("XGBoost + LogisticRegression :\n", auc)
? ? return fpr,tpr
#5.3 GradientBoostingClassifier+LR
def GBDT_LR():
? ? # GBDT: 訓(xùn)練模型
? ? # n_estimators:迭代次數(shù)
? ? gbdt = GradientBoostingClassifier(n_estimators=100)
? ? gbdt.fit(X_train, y_train)
? ? gbdt_result = gbdt.apply(X_train) ?# 3維:shape (n_samples, n_estimators, n_classes)
? ? # onehot編碼
? ? ohe = OneHotEncoder()
? ? ohe.fit(gbdt_result[:, :, 0]) ?# gbdt_result[:,:,0]獲取GBDT
? ? # print(ohe.fit(gbdt_result[:,:,0]))
? ? X_train__ohe = ohe.transform(gbdt.apply(X_train_lr)[:, :, 0])
? ? # LR: 訓(xùn)練模型
? ? lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
? ? lr.fit(X_train__ohe, y_train_lr)
? ? # LR: 預(yù)測
? ? # y_pred的shape = [n_samples, n_classes]
? ? y_pred = lr.predict_proba(ohe.transform(gbdt.apply(X_test)[:, :, 0]))[:, 1]
? ? # 模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("GBDT + LogisticRegression :\n", auc)
? ? return fpr,tpr
#5.4 LR
def LR():
? ? # LR: 訓(xùn)練模型
? ? lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
? ? lr.fit(X_train, y_train)
? ? # LR: 預(yù)測
? ? # y_pred的shape = [n_samples, n_classes]
? ? y_pred = lr.predict_proba(X_test)[:, 1]
? ? # 模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("LogisticRegression :\n", auc)
? ? return fpr, tpr
#5.4 XGBoost
def XGBoost():
? ? # XGB: 訓(xùn)練模型
? ? XGB = xgb.XGBClassifier(nthread=4, learning_rate=0.08, n_estimators=100,
? ? ? ? ? ? ? ? ? ? ? ? ? ? colsample_bytree=0.5)
? ? XGB.fit(X_train, y_train)
? ? # XGB: 預(yù)測
? ? y_pred = XGB.predict_proba(X_test)[:, 1]
? ? # 模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("XGBoost :\n", auc)
? ? return fpr, tpr
# 主函數(shù)
if __name__ == '__main__':
? ? fpr_rf_lr,tpr_rf_lr = RF_LR()
? ? fpr_xgb_lr,tpr_xgb_lr = XGB_LR()
? ? fpr_gbdt_lr, tpr_gbdt_lr = GBDT_LR()
? ? fpr_lr, tpr_lr = LR()
? ? fpr_xgb, tpr_xgb = XGBoost()
? ? # plt.figure(1)
? ? plt.xlim(0,0.2)
? ? plt.ylim(0.8,1)
? ? plt.plot([0, 1], [0, 1], "k--")
? ? plt.plot(fpr_rf_lr, tpr_rf_lr, label="RF+LR")
? ? plt.plot(fpr_xgb_lr, tpr_xgb_lr, label="XGB+LR")
? ? plt.plot(fpr_gbdt_lr, tpr_gbdt_lr, label="GBDT+LR")
? ? plt.plot(fpr_lr, tpr_lr, label="LR")
? ? plt.plot(fpr_xgb, tpr_xgb, label="XGBoost")
? ? plt.xlabel("False positive rate")
? ? plt.ylabel("True positive rate")
? ? plt.legend(loc="best")
? ? plt.show()
# # gbc = GradientBoostingClassifier(loss='exponential',criterion='friedman_mse',presort='auto')
# gbc = GradientBoostingClassifier(loss='deviance',criterion='friedman_mse',presort='auto')
# gbc.fit(X_train,y_train)
#
#
#6.測試數(shù)據(jù)
# y_pred = gbc.predict(X_test)
#
#7. 模型檢測
# print("classification report is: \n", classification_report(y_test,y_pred))
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
參考文獻:
https://mp.weixin.qq.com/s?__biz=MzI1ODM5MTI4Nw%3D%3D&chksm=ea09a6badd7e2fac05f9886746bd717bc7e53503906728337b72cd1b95cd2faa4e186e79b9cd&idx=1&mid=2247486242&scene=21&sn=3723bc28c36e0c779bb20aa3f1c92b23
https://blog.csdn.net/lilyth_lilyth/article/details/48032119
https://blog.csdn.net/asdfghjkl1993/article/details/78606268
https://blog.csdn.net/TwT520Ly/article/details/79769705
13.騰訊-GBDT與LR
GBDT
ID樹—以不同的id進行分類
非ID樹—拿所有樣本構(gòu)建樹
LR
接受GBDT輸出結(jié)合Onehot編碼數(shù)據(jù)
14.CTR在廣告場景應(yīng)用
ctr廣告場景的引用
搜索類廣告
展示類廣告
社交類廣告
計費方式
cpm展示既收費----展示到一定次數(shù)>100
cpc點擊即收費-----點擊率Ctr*bid — (常見)
cpa轉(zhuǎn)化即收費-----需要轉(zhuǎn)換
如果ctr不高怎么辦?
展示量低?— 提高展示量
展示量高,點擊偏低
文案
廣告關(guān)鍵詞?-----重新購買關(guān)鍵詞
推廣結(jié)果排名較低
GBDT+LR模型
15.Avazu-CTR-Prediction-LR代碼
數(shù)據(jù)源+數(shù)據(jù)導(dǎo)入
數(shù)據(jù)的基本分析
特征工程
建立模型
模型校驗
模型預(yù)測
模型保存
#1.導(dǎo)入數(shù)據(jù)并進行簡單的數(shù)據(jù)探索
import os
data_path = os.path.join(".", "train_small.csv")
import pandas as pd
ctr_data1 = pd.read_csv(data_path)
#2.數(shù)據(jù)的簡單描述信息
print(ctr_data1.shape)
# print ctr_data.head()
# print ctr_data.describe()
print (ctr_data1.columns)
print ("="*100)
training_Set=ctr_data1.drop(['id','site_id', 'app_id', 'device_id', 'device_ip', 'site_domain',
? ? ? ? ? ? ? ? ? 'site_category', 'app_domain', 'app_category', 'device_model'], axis=1)
ctr_data=training_Set.values #numpy--ndarry
#2.對數(shù)據(jù)進行處理和分析
from sklearn.model_selection import train_test_split
X=ctr_data[:,1:]
print (X.shape)
y=ctr_data[:,0]
print (y.shape)
X_train, X_test, y_train, y_test=train_test_split(X,y,test_size=0.22,random_state=33)
print (X_train.shape)
print (y_train.shape)
# #3.引入機器學(xué)習(xí)算法
from sklearn.linear_model import LogisticRegression
# lr=LogisticRegression()
# ? ? ? ? ? 0 ? ? ? 0.83 ? ? ?1.00 ? ? ?0.91 ? ? 18240
# ? ? ? ? ? 1 ? ? ? 0.00 ? ? ?0.00 ? ? ?0.00 ? ? ?3760
#
# avg / total ? ? ? 0.69 ? ? ?0.83 ? ? ?0.75 ? ? 22000
lr=LogisticRegression(C=0.1, penalty= 'l1')
# ? ? ? ? ? ? ?precision ? ?recall ?f1-score ? support
#
# ? ? ? ? ? 0 ? ? ? 0.83 ? ? ?1.00 ? ? ?0.91 ? ? 18240
# ? ? ? ? ? 1 ? ? ? 0.40 ? ? ?0.00 ? ? ?0.00 ? ? ?3760
#
# avg / total ? ? ? 0.76 ? ? ?0.83 ? ? ?0.75 ? ? 22000
lr.fit(X_train,y_train)
# #4.模型預(yù)測
y_pred=lr.predict(X_test)
print (y_pred)
# # #5.模型校驗
print( lr.score(X_train,y_train))
print (lr.score(X_test,y_test))
from sklearn.metrics import confusion_matrix
print( confusion_matrix(y_test,y_pred))
from sklearn.metrics import classification_report
print( classification_report(y_test,y_pred))
# #6.保存模型
from sklearn.externals import joblib
joblib.dump(lr,filename="Ctr_Predict.pkl")
# #8.按照要求寫入對應(yīng)的csv文件
import numpy as np
import pandas as pd
ctr_data2=pd.read_csv("test.csv")
ctr_data3=ctr_data2.drop(['click','site_id', 'app_id', 'device_id', 'device_ip', 'site_domain',
? ? ? ? ? ? ? ? ? 'site_category', 'app_domain', 'app_category', 'device_model'], axis=1)
print( ctr_data3)
ids=ctr_data3.values[0:,0]
y_pred_test=lr.predict(ctr_data3.values[0:,1:])
# # # print ids
submit=np.concatenate((ids.reshape(len(ids),1),y_pred_test.reshape(len(y_pred_test),1)),axis=1)
df=pd.DataFrame(submit)
df.to_csv("submit.csv", header=['id', 'click'], index=False)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
17.Ctr廣告點擊率預(yù)估代碼實戰(zhàn)
18.Ctr技術(shù)發(fā)展應(yīng)用
百度蜂巢
阿里媽媽
京東
規(guī)則-------LR--------GBDT提取關(guān)鍵特征------GBDT+LR(分類概率)
FM—FFM—DeepFM—WideAndDeep
FM—能夠提取二階特征----通過隱向量latent vector做內(nèi)積提取
FFM—在FM基礎(chǔ)上增加了Field(域)概念
FNN—Filed Neural network–只能學(xué)習(xí)到高階特征
PNN—在神經(jīng)網(wǎng)絡(luò)中增加了product-layer
Wide and Deep===線性回歸或LR+DEEP–需要借助人工特征工程
DeepFM—FM提取一階和二階特征—Deep提取高階特征—Sigmod函數(shù)給出預(yù)測值
19.總結(jié)
機器學(xué)習(xí)基礎(chǔ)概念
語言基礎(chǔ)—Python語言—Scala—Julia—R語言
(項目1)用戶畫像—挖掘類標簽
(項目2)推薦系統(tǒng)—基于sparkmllib模型和surprise庫模型–tensorflow—召回
(項目3)推薦結(jié)果排序----模型排序
(項目4)Ctr廣告點擊率預(yù)估\Cvr廣告的轉(zhuǎn)化率預(yù)估
擴展 2:
區(qū)別 :
監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)主要卻別在于 : 監(jiān)督學(xué)習(xí)有類別標簽 , 非監(jiān)督學(xué)習(xí)沒有類別標簽
分類和回歸的主要區(qū)別在于 : 分類的預(yù)測值不是連續(xù)值 , 而回歸的預(yù)測值是連續(xù)值
分類和聚類的主要區(qū)別在于 : 分類有類別標簽 , 聚類沒有
生成模型和判別模型的主要區(qū)別 : 生成模型主要利用聯(lián)合概率分布 , 而判別模型主要利用條件概率分布
點擊預(yù)估&轉(zhuǎn)化預(yù)估
擴展3 :
CTR預(yù)估數(shù)據(jù)特點:
1.輸入中包含類別型和連續(xù)型數(shù)據(jù)。類別型數(shù)據(jù)需要one-hot,連續(xù)型數(shù)據(jù)可以先離散化再one-hot,也可以直接保留原值
2.維度非常高
3.數(shù)據(jù)非常稀疏
4.特征按照Field分組
CTR預(yù)估重點在于學(xué)習(xí)組合特征。
LR,FTRL。線性模型有個致命的缺點:無法提取高階的組合特征(線性y=w0+w1+w2等)。
LR最大的缺點就是無法組合特征,依賴于人工的特征組合,這也直接使得它表達能力受限,基本上只能處理線性可分或近似線性可分的問題。
FM模型
FM通過隱向量latent vector做內(nèi)積來表示組合特征,從理論上解決了低階和高階組合特征提取的問題。但是實際應(yīng)用中受限于計算復(fù)雜度,一般也就只考慮到2階交叉特征。
后面有進行了改進 , 提出了FFM , 增加了Field的概念
CNN模型的缺點是:偏向于學(xué)習(xí)相鄰特征的組合特征。 RNN模型的缺點是:比較適用于有序列(時序)關(guān)系的數(shù)據(jù)。
FNN : 先使用預(yù)先訓(xùn)練好的FM,得到隱向量,然后作為DNN的輸入來訓(xùn)練模型。缺點在于:受限于FM預(yù)訓(xùn)練的效果。
隨后提出了PNN,PNN為了捕獲高階組合特征,在embedding layer和first hidden layer之間增加了一個product layer。根據(jù)product layer使用內(nèi)積、外積、混合分別衍生出IPNN, OPNN, PNN三種類型。
無論是FNN還是PNN , 都避免不了 : 對于低階的組合特征,學(xué)習(xí)到的比較少。而前面我們說過,低階特征對于CTR也是非常重要的。
為了同時學(xué)習(xí)低階和高階組合特征,提出了Wide&Deep模型。它混合了一個線性模型(Wide part)和Deep模型(Deep part)。這兩部分模型需要不同的輸入,而Wide part部分的輸入,依舊依賴人工特征工程。
這些模型普遍都存在兩個問題:
1.偏向于提取低階或者高階的組合特征。不能同時提取這兩種類型的特征。
2.需要專業(yè)的領(lǐng)域知識來做特征工程。
DeepFM在Wide&Deep的基礎(chǔ)上進行改進,成功解決了這兩個問題,并做了一些改進,其優(yōu)勢/優(yōu)點如下:
1.不需要預(yù)訓(xùn)練FM得到隱向量
2.不需要人工特征工程
3.能同時學(xué)習(xí)低階和高階的組合特征
4.FM模塊和Deep模塊共享Feature Embedding部分,可以更快的訓(xùn)練,以及更精確的訓(xùn)練學(xué)習(xí)
FNN使用預(yù)訓(xùn)練的FM來初始化DNN,然后只有Deep部分,不能學(xué)習(xí)低階組合特征。
FNN缺點 :
Embedding的參數(shù)受FM的影響,不一定準確
預(yù)訓(xùn)練階段增加了計算復(fù)雜度,訓(xùn)練效率低
FNN只能學(xué)習(xí)到高階的組合特征。模型中沒有對低階特征建模。
PNN:為了捕獲高階特征。PNN在第一個隱藏層和embedding層之間,增加了一個product layer。
PNN缺點:
內(nèi)積外積計算復(fù)雜度高。采用近似計算的方法外積沒有內(nèi)積穩(wěn)定。
product layer的輸出需要與第一個隱藏層全連接,導(dǎo)致計算復(fù)雜度居高不下
和FNN一樣,只能學(xué)習(xí)到高階的特征組合。沒有對于1階和2階特征進行建模。
Wide & Deep設(shè)計的初衷是想同時學(xué)習(xí)低階和高階組合特征,但是wide部分需要領(lǐng)域知識進行特征工程。
Wide&Deep缺點 : 需要特征工程提取低階組合特征
DeepFM優(yōu)點 :
沒有用FM去預(yù)訓(xùn)練隱向量V,并用V去初始化神經(jīng)網(wǎng)絡(luò)。(相比之下FNN就需要預(yù)訓(xùn)練FM來初始化DNN)
FM模塊不是獨立的,是跟整個模型一起訓(xùn)練學(xué)習(xí)得到的。(相比之下Wide&Deep中的Wide和Deep部分是沒有共享的)
不需要特征工程。(相比之下Wide&Deep中的Wide部分需要特征工程)
訓(xùn)練效率高。(相比PNN沒有那么多參數(shù))
上述東西太多太雜 , 記住最核心的 :
沒有預(yù)訓(xùn)練(no pre-training)
共享Feature Embedding,沒有特征工程(no feature engineering)
同時學(xué)習(xí)低階和高階組合特征(capture both low-high-order interaction features)
超參數(shù)建議
超參數(shù)?? ?建議?? ?備注
激活函數(shù)?? ?1.IPNN使用tanh ; 2,其余使用ReLU?? ?
學(xué)習(xí)方法?? ?Adam?? ?
Dropout?? ?0.6~0.9?? ?
隱藏層數(shù)量?? ?3~5 , 根據(jù)實際數(shù)據(jù)大小調(diào)整?? ?
網(wǎng)絡(luò)形狀?? ?constant , 一共有四種 : 固定、增長、下降、菱形?? ?PS:constant效果最好 , 就是隱藏層每一層的神經(jīng)元的數(shù)量相同
————————————————
版權(quán)聲明:本文為CSDN博主「CoderBoom」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/CoderBoom/article/details/88785995
總結(jié)
以上是生活随笔為你收集整理的Ctr点击率预估理论基础及项目实战的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ava线程池ThreadPoolExec
- 下一篇: 胆囊炎能不能吃芋头