备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)
期待與各位在2020騰訊社交廣告算法大賽中相遇!!!
寫在前面
最近突然之間討論騰訊廣告賽的人多了不少,也有很多人加我微信討論19年騰訊賽的方案和代碼。雖然2020騰訊賽還未開始,不過大家已經提前進入準備階段,或是復現之前比賽代碼,或是準備自己的彈藥庫,在廣告算法界的一場沒有硝煙的戰斗已經悄然開始。
作為一名老司機,也不能錯過這場賽前的準備,我要做的不是準備彈藥庫或復現代碼,而是為大家整理從2017到2019三屆騰訊賽的競賽方案資料。
當然,在整個2020騰訊廣告算法大賽進行階段,【Coggle數據科學】也會進行更多競賽相關分享。
大賽官網:https://algo.qq.com/application/home/home/index.html
本文將分為以下三個部分:
數據整理:歷年騰訊賽的數據集和相關介紹
方案整理:top方案、干貨分享、梳理內容
賽題預測:搶先預測今年賽題的具體業務技術方向(一頓瞎猜)
數據整理
2017騰訊廣告算法大賽
完整數據集下載鏈接:https://pan.baidu.com/s/1JnP4Vvr-6HKYlG5bNlfvMQ
提取碼:ebd2
2018騰訊廣告算法大賽
完整數據集下載鏈接:https://pan.baidu.com/s/1jSZQJbcx6vDvPNyBKEMa7g
提取碼:m8tx
2019騰訊廣告算法大賽
完整數據集下載鏈接:https://pan.baidu.com/s/1yV4l0vTmjfXjbpxxIOlKDg
提取碼:iuxp
方案整理
2017騰訊廣告算法大賽
第一屆騰訊社交廣告高校算法大賽以“移動App廣告轉化率預估“為主題,首次開放騰訊在社交和數字廣告領域的“實戰類”數據,以高度模擬真實業務的賽題方式呈現,并直指數字廣告中的核心關鍵問題:轉化預估,面向高校學生征集最智慧的算法解決方案,引領廣告生態業界的核心技術方向。
相較于18和19兩屆比賽,第一屆騰訊賽的方案分享少之又少,能夠找到的開源代碼也不多。經過一番煞費苦心,這里給大家整理了10強選手的答辯ppt,并對其進行方案梳理,供大家學習。
一文梳理2017騰訊廣告算法大賽決賽方案?
https://zhuanlan.zhihu.com/p/95418813
時隔兩年,這篇決賽方案梳理悄然登場,主要針對前十名的方案進行學習,17的騰訊賽算法是比較早的ctr比賽,很多方法都值得借鑒,同時也不乏有經典的操作。當時的我還沒有開始參加數據競賽,不過在之后的比賽中,也常分析這場經典賽事。接下來讓我們回到兩年前,以前來學習優秀方案。
第一屆騰訊社交廣告高校算法大賽_rank14?
https://github.com/freelzy/Tencent_Social_Ads
第一屆騰訊社交廣告高校算法大賽_rank20?
https://github.com/shenweichen/Tencent_Social_Ads2017_Mobile_App_pCVR
第一屆騰訊社交廣告高校算法大賽_rank23?
https://blog.csdn.net/haphapyear/article/details/75057407/
開源代碼:https://github.com/BladeCoda/Tencent2017_Final_Coda_Allegro
2018騰訊廣告算法大賽
本次算法大賽的題目源于騰訊社交廣告業務中的一個真實的廣告產品——相似人群拓展(Lookalike)。該產品的目的是基于廣告主提供的目標人群,從海量的人群中找出和目標人群相似的其他人群。在實際廣告業務應用場景中,Lookalike 能基于廣告主已有的消費者,找出和已有消費者相似的潛在消費者,以此有效幫助廣告主挖掘新客、拓展業務。目前,騰訊社交廣告 Lookalike 相似人群拓展產品以廣告主提供的第一方數據及廣告投放效果數據(即后文提到的種子包人群)為基礎,結合騰訊豐富的數據標簽能力,透過深度神經網絡挖掘,實現了可在線實時為多個廣告主同時拓展具有相似特征的高質潛客的能力。
第二屆騰訊社交廣告算法大賽_rank3?
https://github.com/DiligentPanda/Tencent_Ads_Algo_2018
Our model is simply an average of FFM-based Neural Networks with attention. In the final submission, we use 13 such networks. But those networks are only different in their random seeds, which is a bad ensemble actually. So, we guess 5 such networks will give almost the same result. Training on different subsets of the dataset and maybe on different subsets of features should give better results. For details of this model, seeModelp.
第二屆騰訊社交廣告算法大賽_rank6_模型篇?
https://zhuanlan.zhihu.com/p/38443751
本次比賽中的最優效果的模型為nffm模型,該結構組成主要為:shallow part是LR,deep part是ffm embedding + fcs(全連接層)。
第二屆騰訊社交廣告算法大賽_rank6_特征工程篇
https://zhuanlan.zhihu.com/p/38341881
特征主要分為了用戶特征和廣告特征兩個大類,全部特征的都categorical的,即用一個整數表示類別。廣告特征比較少,而用戶特征的數量則多比較多,包括age,gender等簡單的onehot類特征,也包含了interest,topic等不定長的向量特征。
第二屆騰訊社交廣告算法大賽_rank7?
https://github.com/guoday/Tencent2018_Lookalike_Rank7th
第二屆騰訊社交廣告算法大賽_rank9?
https://zhuanlan.zhihu.com/p/38499275
開源代碼:https://github.com/ouwenjie03/tencent-ad-game
第二屆騰訊社交廣告算法大賽_rank10
https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th
第二屆騰訊社交廣告算法大賽_rank11
https://zhuanlan.zhihu.com/p/38034501
開源代碼:https://github.com/liupengsay/2018-Tencent-social-advertising-algorithm-contest
2019騰訊廣告算法大賽
本次算法大賽的題目是源于騰訊廣告業務中一個面向廣告主服務的真實業務產品 ——廣告曝光預估。廣告曝光預估的目的是在廣告主創建新廣告和修改廣告設置時,為廣告主提供未來的廣告曝光效果參考。通過這個預估參考,廣告主能避免盲目的優化嘗試,有效縮短廣告的優化周期,降低試錯成本,使廣告效果盡快達到廣告主的預期范圍。
2019騰訊廣告算法大賽方案分享(冠軍)
https://zhuanlan.zhihu.com/p/73062485
本文將給出冠軍完整方案,全文內容架構將依托于答辯PPT,具體細節也會結合代碼進行講解。當然,思路為主,代碼為輔,希望這篇分享能夠給予你更多的啟發。
一文梳理2019年騰訊廣告算法大賽冠軍方案?
https://zhuanlan.zhihu.com/p/85520936
本文將從源碼著手,深度解讀該冠軍方案是如何一步步從rough data清洗、特征工程到運用多種模型融合實現最佳效果的。作為一名數據競賽經驗薄淺的算法工程師,期望盡可能的將里面涉及到的知識、技巧、模型、算法作一個細致的總結,所以行文可能比較基礎難免冗長。
2019騰訊廣告算法大賽方案分享_rank5_含完整代碼
https://mp.weixin.qq.com/s/j5YICHrkHLDm7OldPFPOjw
獲勝者使用高效簡潔的代碼取得一致好評,在文末,隊長林有夕給出了寄語:轉換建模視角真的是個很神奇的操作??梢詮腘個角度去思考。希望有緣的人可以繼續發揚光大。能在下一個賽場上,像我一樣驕傲的說出,這是一個朋友分享的,并且一起完善。
賽題預測
這是個開放性的話題,具體賽題當然是圍繞著廣告業務展開的,所有這是個熟悉廣告業務的機會,首先回顧下之前賽題業務:
2017/2018:CTR(點擊率)預估是所有廣告系統、推薦系統中非常重要的一個指標,可以反映出一個系統是否做的精準,是各個廣告系統的“必爭之地“。點擊率預估的目的是為了廣告排序,排序的依據是eCPM,即點擊率*點擊單價,然后再根據其他策略進行后續處理。18年的賽賽題lookalike也可以看出CTR預估,點擊概率高則被劃分到一個種子群組。
2019:曝光是廣告投放的首要任務,其也是效果轉化的源頭,根據廣告的綜合得分排序,面向同一個目標受眾競爭展示的機會。一般廣告曝光的原理會跟綜合得分與廣告的出價、質量有關。廣告質量的影響因素有點擊率、新鮮度、相關性、穩定性、投放時長等。
目前的兩個關鍵問題已經在之前三屆出過了,接下來可以從數據多樣性或其它核心業務出題
數據多樣性:可以看作多模態學習,我們所看到的廣告不僅有結構化的數據,還有展示圖片、文本描述等,跨模態學習日益引起了學術界和工業界的關注??缒B學習進行聯合特征學習和跨模態關系建模,旨在有效地利用不同模態內容的相關性進行系統性能優化。這就與2020 KDD中的一道賽題比較像了“KDD Cup 2020 Challenges for Modern E-Commerce Platform:Multimodalities Recall“。個人感覺在數據多樣性上做文章可能性蠻大的。
出價類問題:廣告的出價問題是伴隨著RTB的發展而發展的,最為著名的就是谷歌采用的廣義第二高價方式,可以說對于RTB廣告影響深遠,不過最近有說谷歌由于各種原因可能會采用一價方式,不管怎樣,廣告對于出價的考慮都是一個非常重要和系統的問題。另外像百度,他們的出價也是在一個不斷迭代的過程,從一價、二價、梅森拍賣、優化出價等不斷的在進行迭代。值得說明的是很多出價模型非常依賴于預估的解,出價相關的問題比較少見。
防作弊問題:對于計算廣告,防止作弊是十分緊要的問題,一般的作弊處理分為在線防作弊和離線反作弊。作弊系統更為常見的是一些規則,一些具體的規則定義往往可以成為一種標準。當然,對于作弊數據的建模也是可以做算法去區分的,這類問題也是比較常見的。
經過一頓瞎猜后,今年的賽題鎖定在了三個方向數據多樣性、出價優化相關、防作弊相關。大家伙可以一起討論討論今年的賽題方向!!!
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優惠券,請回復“知識星球”喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【零基础入门数据挖掘】-数据分析
- 下一篇: 【经验分享】鹅厂机器学习岗暑期实习面经总