关于腾讯算法大赛
騰訊算法大賽
本文參考于我協(xié)會(huì)前會(huì)長(zhǎng)吳師兄的文檔
騰訊社交廣告高校算法大賽是面向高校大學(xué)生的算法大賽,作為騰訊核心的廣告業(yè)務(wù)單元,騰訊社交廣告通過(guò)對(duì)海量社交數(shù)據(jù)進(jìn)行深入分析,構(gòu)建多樣廣告場(chǎng)景,與8億用戶連接對(duì)話。在大數(shù)據(jù)、機(jī)器學(xué)習(xí)領(lǐng)域的持續(xù)創(chuàng)新投入,驅(qū)動(dòng)社交廣告生態(tài)發(fā)展。本次大賽旨在開(kāi)放騰訊在社交和數(shù)字廣告領(lǐng)域的真實(shí)數(shù)據(jù),面向高校學(xué)生征集最智慧的算法解決方案。
詳細(xì)的賽題見(jiàn)騰訊算法大賽, 記得也把 FAQ 看完, 里面也包含了許多重要信息
賽題比較難理解, 因?yàn)橘愵}屬于廣告學(xué)范疇, 如果實(shí)在難以理解賽題的可以先看看這篇文章, 看完再重新看一遍賽題就會(huì)通透許多轉(zhuǎn)化率預(yù)估
官方已經(jīng)不再關(guān)閉數(shù)據(jù)的下載通道了, 不過(guò)之前已經(jīng)備份到了百度云, 在這里提供給大家官方數(shù)據(jù)下載
賽題要求
官方提供17-30天移動(dòng) APP 的廣告、用戶的轉(zhuǎn)化情況,及相關(guān)上下文, 根據(jù)這些數(shù)據(jù)預(yù)測(cè)第31天指定用戶和對(duì)應(yīng)廣告的轉(zhuǎn)化率.
評(píng)估方式?(賽題中提供的計(jì)算公式)
通過(guò)Logarithmic Loss評(píng)估(越小越好),公式如下:
其中,
N是測(cè)試樣本總數(shù),
yi是二值變量,取值0或1,表示第i個(gè)樣本的label,
pi為模型預(yù)測(cè)第i個(gè)樣本 label為1的概率。
示例代碼(Python語(yǔ)言實(shí)現(xiàn)):
項(xiàng)目目的
主要在于剖析和學(xué)習(xí)大賽中取得 第64 名大牛的分享, 對(duì)其代碼進(jìn)行理解和分析, 主要著重點(diǎn)在于特征工程。
機(jī)器學(xué)習(xí)的主要流程
機(jī)器學(xué)習(xí)流程數(shù)據(jù)分析和清洗方法
關(guān)于數(shù)據(jù)分析,閱讀FAQ可知:
App 的激活定義為用戶下載后啟動(dòng)了該App,即發(fā)生激活行為。從用戶點(diǎn)擊廣告到廣告系統(tǒng)得知用戶激活了App(如果有),通常會(huì)有較長(zhǎng)的時(shí)間間隔,主要由以下兩方面原因?qū)е?#xff1a;
1) 用戶可能在下載之后過(guò)了很久才啟動(dòng)App;
2) 用戶啟動(dòng)App的行為需要廣告主上報(bào)回傳給廣告系統(tǒng),通常會(huì)有一定的延時(shí)。
這里回流時(shí)間表示了廣告主把App激活數(shù)據(jù)上報(bào)給廣告系統(tǒng)的時(shí)間,回流時(shí)間超過(guò)5天的數(shù)據(jù)會(huì)被系統(tǒng)忽略。
值得注意的是,本次競(jìng)賽的訓(xùn)練數(shù)據(jù)提供的截止第31天0點(diǎn)的廣告日志,因此,對(duì)于最后幾天的訓(xùn)練數(shù)據(jù),某些label=0并不夠準(zhǔn)確,可能廣告系統(tǒng)會(huì)在第31天之后得知label實(shí)際上為1。
即
某些app和用戶的記錄比較少
最后幾天有部分?jǐn)?shù)據(jù)不準(zhǔn)確
對(duì)于這個(gè)問(wèn)題, 這里采用了比較暴力的方法, 將最后幾天這些可能會(huì)出現(xiàn)問(wèn)題的數(shù)據(jù)刪除
特征工程
特征工程即根據(jù)基本的數(shù)據(jù)提取出更多有用的數(shù)據(jù), 然后結(jié)合基本特征來(lái)選取最終決定需要采用訓(xùn)練的特征數(shù)據(jù), 往往特征工程決定了最終預(yù)測(cè)的效果
基本數(shù)據(jù)在官方已經(jīng)提供了數(shù)據(jù)描述的表格, 這個(gè)一定要好好理解每一個(gè)字段的作用, 這里就不重復(fù)描述數(shù)據(jù)的字段了
在這里先強(qiáng)調(diào)一下,在做完特征工程之后, 我們得到了更多的特征, 但并不是每一個(gè)特征都對(duì)模型的訓(xùn)練有用, 故此我們需要對(duì)特征進(jìn)行篩選 (不僅僅是單方面的取舍, 還需要根據(jù)重要的程度進(jìn)行權(quán)重的分配)
通過(guò)數(shù)據(jù)分析,計(jì)劃以下的特征作為最終的訓(xùn)練數(shù)據(jù)標(biāo)簽
1.基礎(chǔ)特征:計(jì)數(shù)特征、轉(zhuǎn)化率、比例特征等各種基本的特征(各種ID)
2.用戶當(dāng)天行為特征:基于當(dāng)天數(shù)據(jù)統(tǒng)計(jì)的用戶行為、app行為的特征
3.用戶歷史行為特征:word2vec 計(jì)算用戶行為與歷史行為的關(guān)聯(lián)
1. 基礎(chǔ)特征
基礎(chǔ)特征即騰訊官方提供的數(shù)據(jù),各種的ID標(biāo)簽,將一些沒(méi)用的標(biāo)簽去掉即可,不需
要作過(guò)多的處理
2、3 用戶行為特征的處理
用戶行為特征的處理邏輯較為繁瑣, 也是整個(gè)項(xiàng)目中最繁瑣的操作, 邏輯比較難理
清,建議通過(guò)源碼來(lái)理解
總結(jié)
- 上一篇: python随机数种子通俗_在种子中生成
- 下一篇: java request payload