广告主产品推词中的NLP
一?引言
在目前付費搜索引擎中,買詞和競價成為廣告主競爭流量的主要手段。因此在付費搜索引擎的廣告主賬戶后臺中,所有的功能都是圍繞三個點在展開,第一:推廣產(chǎn)品(product),第二:購買關(guān)鍵詞(keyword),第三:關(guān)鍵詞出價(bidprice)。在廣告主加入新的產(chǎn)品時,第一訴求就是購買關(guān)鍵詞。在目前國際B類電商平臺上,廣告主如何在網(wǎng)站千萬級的關(guān)鍵詞中選擇適合該產(chǎn)品的關(guān)鍵詞對于用戶來說是一個艱難的任務(wù)。并且考慮到網(wǎng)站整體的檢索質(zhì)量,網(wǎng)站展示的廣告必須和用戶的搜索意圖相符,所以在廣告主購買關(guān)鍵詞時必須要求購買的關(guān)鍵詞和產(chǎn)品能夠綁定,所謂綁定就是keyword和product的相關(guān)性分(mlrscore)必須保證在良及以上。千萬級的keyword集合,挑選適合購買的關(guān)鍵詞少之又少。如何給用戶提供高效選詞的渠道成為廣告后臺賬戶的重點。
在阿里巴巴國際站投放廣告開始,廣告后臺就有了產(chǎn)品推詞模塊——先知。先知主要提供根據(jù)產(chǎn)品給用戶推薦適合購買的關(guān)鍵詞。在廣告主進入后臺進行買詞時先知都會實時計算出廣告主可以購買的關(guān)鍵詞集合,為廣告主提供高效的買詞解決方案。二 模塊及算法設(shè)計
產(chǎn)品推詞包含四個模塊:
2.1 中心短語抽取
2.1.1 中心短語構(gòu)造
TermWeight作為底層基礎(chǔ)模塊,完成query以及產(chǎn)品title中的term權(quán)重分析。TermWeight使用同session的點擊query作為訓(xùn)練數(shù)據(jù),使用GBDT模型進行訓(xùn)練,構(gòu)建成query以及title的term權(quán)重分析的算法模塊。
通過TermWeight分析后,term權(quán)重越高表明該term在title中的價值越大,因此通過分析后的weight排序,取top n的term作為title的核心短語。
在QP模塊中,TermWeight分析后的term,取top50%的term為有用的term記為Tu,有用term的top50%為重要的term記為Ti。如果term長度小于6,則所有的query都作為有用的term。如果term的長度大于16,最多取8個term為有用term。
使用重要term集合Ti和有用Term?Tu進行兩兩組合,再組合時考慮term在title中的位置信息。考慮組合的位置信息,共有4種位置,分別如下:
表示在title中w1是出現(xiàn)在w2前面,所以組合的中心短語只有w1 w2一種。
表示在title中w2出現(xiàn)在w1前面,組合成w2 w1的中心短語。
表示在title中w1即在w2前面出現(xiàn),也在后面出現(xiàn),所以組合的中心短語有兩種,分別為:w1 w2和w2 w1。
表示在title中w1前后都出現(xiàn)了w2。可以組合成w2 w1和w1 w2兩種query。
根據(jù)上述四種組合并去重,得到title的初步組合中心短語。中心短語的權(quán)重使用組合的兩個term中權(quán)重較高者表示。
2.1.2 中心短語語言模型處理
根據(jù)3.1.1中的方式初步構(gòu)造出了title的中心短語,組合出的中心短語很多并不符合語法規(guī)范。在3.1.1中組合的只有bigram,所以使用bigram語法對組合的中心短語進行過濾。
bigram語法的線下訓(xùn)練方式如下:
bigram訓(xùn)練數(shù)據(jù)由網(wǎng)站所有offer的title和搜索query組成。bigram的權(quán)重使用在文本中出現(xiàn)的頻率來表示是否符合語法,如果兩個單詞經(jīng)常一起出現(xiàn),則對應(yīng)的頻率也會比較高。
統(tǒng)計bigram的方法如下:
3.1.1中得到的bigram經(jīng)過語言模型處理,得到bigram的頻率。結(jié)合bigram在termweight中的權(quán)重,得到bigram總的權(quán)重。總權(quán)重計算方式如下:
finalweight=0.4*(bi_weight/max_bi_weight)+0.6*(t_weight/max_t_weight)
其中bi_weight為當(dāng)前bigram的語言模型頻率,max_bi_weight為title的所有bigram中語言模型頻率的最大值。t_weight為bigram的termweight權(quán)重,max_t_weight為title的所有bigram中termweight的最高權(quán)重。最后的結(jié)果再按照線性組合。
在上述語言模型中,對于未登錄詞在訓(xùn)練bigram時并沒有進行平滑,所以在處理是如果是未登錄詞,則返回MIN_WEIGHT=0.000001的極小值。
2.2 線下Query特征抽取
為了滿足產(chǎn)品推詞的精準(zhǔn)以及買詞的合理性,需要對offer能夠推薦的詞進行篩選,所以需要對Query進行特征分析,檢索時根據(jù)query的特征計算排序分。
Query特征抽取模塊為線下模塊,設(shè)計的特征主要為Query的預(yù)測類目,Query的中心詞,Query的長度等。
2.3 檢索引擎
QP獲得的中心短語進行檢索,使用query的特征和中心短語的特征計算整體檢索的排序分,然后最終取top的檢索結(jié)果作為offer推詞的初步結(jié)果,然后在調(diào)用rs計算QSScore,根據(jù)QS分最為最終的推詞結(jié)果。?
總結(jié)
以上是生活随笔為你收集整理的广告主产品推词中的NLP的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python做接口自动化测试仪器经销商_
- 下一篇: 推荐一个js代码混淆工具的网址