【竞赛经验分享】2020腾讯广告算法大赛:如何突破分数瓶颈?
寫在前面
期待已久的2020騰訊廣告算法大賽終于開始了,本屆賽題“廣告受眾基礎(chǔ)屬性預(yù)估”。本文將給出解題思路,以及最完備的競(jìng)賽資料,助力各位取得優(yōu)異成績(jī)!!!
報(bào)名鏈接:https://algo.qq.com/signup.html?rfisource=DSFISH
豪不夸張的說,看完這篇文章你也可以突破1.4分,同時(shí)對(duì)于1.4之后的提升,比如1.41,或者1.42+,也會(huì)給出更多建議和思考方向。
每個(gè)分?jǐn)?shù)階段都有不同的知識(shí)點(diǎn)需要去學(xué)習(xí),我將上分之路按《王者榮耀》段位進(jìn)行排列,從1.30到1.40+,從倔強(qiáng)青銅到最強(qiáng)王者。
倔強(qiáng)青銅
分?jǐn)?shù)達(dá)到1.30,kfold+lgb
這個(gè)階段還是比較簡(jiǎn)單的,稍微做些合適的特征就能達(dá)到1.30左右。這里不妨使用最簡(jiǎn)單的目標(biāo)編碼和聚合統(tǒng)計(jì)特征,模型選擇lgb就可以了。
首先是目標(biāo)編碼,我們使用kfold進(jìn)行交叉統(tǒng)計(jì),詳細(xì)代碼結(jié)構(gòu)可以參考:
https://github.com/bettenW/Tencent2019_Finals_Rank1st/blob/master/wh/wh_LGB.py
for?fold_,(trn_idx,val_idx)?in?enumerate(folds.split(data_df,data_df)):Log_trn?????=?data_df.iloc[trn_idx]#?meanorder_label?=?Log_trn.groupby([feat])[f].mean()tmp?????????=?data_df.loc[data_df.fold==fold_,[feat]]data_df.loc[data_df.fold==fold_,?colname1]?=?tmp[feat].map(order_label)test_df[colname1]?=?None order_label???=?data_df.groupby([feat])[f].mean() test_df[colname1]?=?test_df[feat].map(order_label)?接下來是用戶序列信息進(jìn)行聚合,具體操作參考代碼:
特征部分大功告成,下面就可以進(jìn)行訓(xùn)練了。5折lgb即可。
秩序白銀
分?jǐn)?shù)達(dá)到1.35,kfold+countvec+lgb
相較1.30,本階段考慮詞頻統(tǒng)計(jì)特征,保留用戶歷史序列中的所有點(diǎn)擊ID信息,當(dāng)然tfidf也可以一起使用,這樣下來會(huì)有90多w維,可以考慮在參數(shù)上進(jìn)行設(shè)置,如max_feature和min_df,減少維度。
這樣的結(jié)果就不要進(jìn)行其它格式的轉(zhuǎn)換了,直接當(dāng)作稀疏矩陣訓(xùn)練即可。
榮耀黃金
分?jǐn)?shù)達(dá)到1.40,kfold+countvec+tfidf+stacking+lgb
下面來的1.40階段,我們依然使用lgb模型。在前面的基礎(chǔ)了,本階段添加了tfidf的模型訓(xùn)練概率結(jié)果作為特征,也將其看作stacking,具體分為三步:
尊貴白金
分?jǐn)?shù)達(dá)到1.40+,lgb進(jìn)行很難繼續(xù)上分了,需要嘗試nn方法
? ? ? ?本賽題與NLP關(guān)聯(lián)還是非常大的,首先,我們來看下如何和NLP問題聯(lián)系起來。用戶在90天內(nèi)點(diǎn)擊了不同的廣告,我們可以將每個(gè)廣告看作一個(gè)單詞word,然后把這些單詞連接起來組成一句話[creative_id_1,creative_id_2,…,creative_id_n]。由于每個(gè)廣告有不同屬性,如廣告主id,并且每個(gè)用戶點(diǎn)擊廣告也有不同屬性,如點(diǎn)擊次數(shù),這樣對(duì)于每個(gè)用戶我們就可以得到8種文本。那么剩下的問題就是根據(jù)這8種文本如何預(yù)測(cè)用戶的年齡和性別。
? ? ? ?在NLP中,預(yù)測(cè)文本的類別有許多模型,比如lstm, gru, transformer等。對(duì)于8種文本,我們將他們看成正常的文本,然后輸入到常見的NLP模型中,在輸出端做多分類即可。
在之后的文章還將分享永恒鉆石、至尊星耀和最強(qiáng)王者三個(gè)段位的上分之路,希望大家持續(xù)關(guān)注。Coogle也將帶來更多干貨分享!!!
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯AI基礎(chǔ)下載(pdf更新到25集)機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯本站qq群1003271085,加入微信群請(qǐng)回復(fù)“加群”獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/yFQV7am喜歡文章,點(diǎn)個(gè)在看總結(jié)
以上是生活随笔為你收集整理的【竞赛经验分享】2020腾讯广告算法大赛:如何突破分数瓶颈?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 过来人讲述:研究生复试之注意事项
- 下一篇: Transformer温故知新