【原创】推荐广告入门:DeepCTR-Torch,基于深度学习的CTR预测算法库
在計算廣告和推薦系統(tǒng)中,CTR預估一直是一個核心問題。無論在工業(yè)界還是學術(shù)界都是一個熱點研究問題,近年來也有若干相關(guān)的算法競賽陸續(xù)舉辦。本文介紹一個使用PyTorch編寫的深度學習的點擊率預測算法庫DeepCTR-Torch,具有簡潔易用、模塊化和可擴展的優(yōu)點,非常適合初學者快速入門學習。
(本文作者:沈偉臣,阿里巴巴算法工程師)
點擊率預估問題
點擊率預估問題通常形式化描述為給定用戶,物料,上下文的情況下,計算用戶點擊物料的概率即:pCTR = p(click=1|user,item,context)。
簡單來說,在廣告業(yè)務中使用pCTR來計算廣告的預期收益,在推薦業(yè)務中通過使用pCTR來確定候選物料的一個排序列表。
DeepCTR-Torch
人們通過構(gòu)造有效的組合特征和使用復雜的模型來學習數(shù)據(jù)中的模式來提升效果。基于因子分解機的方法,可以通過向量乘積的形式學習特征的交互,并且泛化到那些沒有出現(xiàn)過的組合上。
隨著深度神經(jīng)網(wǎng)絡在若干領(lǐng)域的巨大發(fā)展,近年來研究者也提出了若干基于深度學習的分解模型來同時學習低階和高階的特征交互,如:
PNN,Wide&Deep,DeepFM,Attentional FM,Neural FM,DCN,xDeepFM,AutoInt,FiBiNET
以及基于用戶歷史行為序列建模的DIN,DIEN,DSIN等。
對于剛接觸這方面的同學來說,可能對這些方法的細節(jié)還不太了解,雖然網(wǎng)上有很多介紹,但是代碼卻沒有統(tǒng)一的形式,且當想要遷移到自己的數(shù)據(jù)集進行實驗時也很不方便。本文介紹的一個使用PyTorch實現(xiàn)的基于深度學習的CTR模型包DeepCTR-PyTorch,無論是使用還是學習都很方便。
DeepCTR-PyTorch是一個簡潔易用、模塊化和可擴展的基于深度學習的CTR模型包。除了近年來主流模型外,還包括許多可用于輕松構(gòu)建您自己的自定義模型的核心組件層。
您簡單的通過model.fit()和model.predict()來使用這些復雜的模型執(zhí)行訓練和預測任務,以及在通過模型初始化列表的device參數(shù)來指定運行在cpu還是gpu上。
安裝與使用
安裝
使用例子
下面用一個簡單的例子告訴大家,如何快速的應用一個基于深度學習的CTR模型,代碼地址在:
https://github.com/shenweichen/DeepCTR-Torch/blob/master/examples/run_classification_criteo.py。
The Criteo Display Ads dataset 是kaggle上的一個CTR預估競賽數(shù)據(jù)集。里面包含13個數(shù)值特征I1-I13和26個類別特征C1-C26。
# -*- coding: utf-8 -*- # 使用pandas 讀取上面介紹的數(shù)據(jù),并進行簡單的缺失值填充 import?pandas as?pd from?sklearn.metrics import?log_loss, roc_auc_score from?sklearn.model_selection import?train_test_split from?sklearn.preprocessing import?LabelEncoder, MinMaxScaler from?deepctr_torch.models import?* from?deepctr_torch.inputs import?SparseFeat, DenseFeat, get_fixlen_feature_names import?torch# 使用pandas 讀取上面介紹的數(shù)據(jù),并進行簡單的缺失值填充 data = pd.read_csv('./criteo_sample.txt') # 上面的數(shù)據(jù)在:https://github.com/shenweichen/DeepCTR-Torch/blob/master/examples/criteo_sample.txtsparse_features = ['C'?+ str(i) for?i in?range(1, 27)] dense_features = ['I'?+ str(i) for?i in?range(1, 14)]data[sparse_features] = data[sparse_features].fillna('-1', ) data[dense_features] = data[dense_features].fillna(0, ) target = ['label']#這里我們需要對特征進行一些預處理,對于類別特征,我們使用LabelEncoder重新編碼(或者哈希編碼),對于數(shù)值特征使用MinMaxScaler壓縮到0~1之間。for?feat in?sparse_features:lbe = LabelEncoder()data[feat] = lbe.fit_transform(data[feat]) mms = MinMaxScaler(feature_range=(0, 1)) data[dense_features] = mms.fit_transform(data[dense_features])# 這里是比較關(guān)鍵的一步,因為我們需要對類別特征進行Embedding,所以需要告訴模型每一個特征組有多少個embbedding向量,我們通過pandas的nunique()方法統(tǒng)計。fixlen_feature_columns = [SparseFeat(feat, data[feat].nunique())for?feat in?sparse_features] + [DenseFeat(feat, 1,)for?feat in?dense_features]dnn_feature_columns = fixlen_feature_columns linear_feature_columns = fixlen_feature_columnsfixlen_feature_names = get_fixlen_feature_names(linear_feature_columns + dnn_feature_columns)#最后,我們按照上一步生成的特征列拼接數(shù)據(jù)train, test = train_test_split(data, test_size=0.2) train_model_input = [train[name] for?name in?fixlen_feature_names] test_model_input = [test[name] for?name in?fixlen_feature_names]# 檢查是否可以使用gpudevice = 'cpu' use_cuda = True if?use_cuda and?torch.cuda.is_available():print('cuda ready...')device = 'cuda:0'# 初始化模型,進行訓練和預測model = DeepFM(linear_feature_columns=linear_feature_columns, dnn_feature_columns=dnn_feature_columns, task='binary',l2_reg_embedding=1e-5, device=device)model.compile("adagrad", "binary_crossentropy",metrics=["binary_crossentropy", "auc"],) model.fit(train_model_input, train[target].values,batch_size=256, epochs=10, validation_split=0.2, verbose=2)pred_ans = model.predict(test_model_input, 256) print("") print("test LogLoss", round(log_loss(test[target].values, pred_ans), 4)) print("test AUC", round(roc_auc_score(test[target].values, pred_ans), 4))相關(guān)資料
DeepCTR-Torch代碼主頁
https://github.com/shenweichen/DeepCTR-Torch
DeepCTR-Torch文檔:
https://deepctr-torch.readthedocs.io/en/latest/index.html
DeepCTR(tensorflow版)代碼主頁 :
https://github.com/shenweichen/DeepCTR
DeepCTR(tensorflow版)文檔:
https://deepctr-doc.readthedocs.io/en/latest/index.html
作者簡介
沈偉臣,浙江大學計算機碩士,阿里巴巴集團算法工程師
沈偉臣曾經(jīng)參與了《DeepLearning.ai深度學習》筆記的編寫。
github主頁:
https://github.com/shenweichen
知乎專欄 淺夢的學習筆記??
https://zhuanlan.zhihu.com/weichennote
郵箱 wcshen1994@163.com?
本站簡介↓↓↓?
“機器學習初學者”是幫助人工智能愛好者入門的個人公眾號(創(chuàng)始人:黃海廣)
初學者入門的道路上,最需要的是“雪中送炭”,而不是“錦上添花”。
本站的知識星球(黃博的機器學習圈子)ID:92416895
目前在機器學習方向的知識星球排名第一(上圖二維碼)
往期精彩回顧
那些年做的學術(shù)公益-你不是一個人在戰(zhàn)斗
良心推薦:機器學習入門資料匯總及學習建議
黃海廣博士的github鏡像下載(機器學習及深度學習筆記及資源)
機器學習小抄-(像背托福單詞一樣理解機器學習)
首發(fā):深度學習入門寶典-《python深度學習》原文代碼中文注釋版及電子書
機器學習必備寶典-《統(tǒng)計學習方法》的python代碼實現(xiàn)、電子書及課件
重磅 | 完備的 AI 學習路線,最詳細的資源整理!
圖解word2vec(原文翻譯)
機器學習的相關(guān)數(shù)學資料下載
備注:加入本站微信群或者qq群,請回復“加群”
總結(jié)
以上是生活随笔為你收集整理的【原创】推荐广告入门:DeepCTR-Torch,基于深度学习的CTR预测算法库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【随手拍解救单身男女(1)】数据分析师书
- 下一篇: LV 旗下公司的识别算法: 4 秒鉴定假