CIKM 2021 | 图模型在广告检索(Ad Retrieval)中的应用
??1. 摘要
圖模型能夠有效的挖掘數據中的關系信息來增強數據表示,在研究和工業領域都被廣泛應用。阿里媽媽搜索廣告技術團隊于2019年開源了工業界首個支持大規模分布式的深度圖學習平臺Euler(https://github.com/alibaba/euler),被業界廣泛使用(Github Star:2.7K)。基于Euler框架,我們進行了在不同算法模塊的多版算法迭代升級,本文針對電商檢索系統中海量用戶行為以及多視圖并存(如共同點擊、共同競買或文本相似等)帶來的挑戰,我們將介紹在搜索廣告檢索模塊(ad retrieval)中的一種可擴展的多視圖廣告圖匹配引擎(SMAD)。利用電商商品體系的類目樹結構,我們提出了一種類目相關性約束下的圖采樣和分割算法,可以實現大規模圖的分布式訓練;同時,為了更好的捕捉多視圖結構,我們提出了一種并行的多視圖訓練模型,可以將不同視圖下的信息有機融合起來。在阿里搜索廣告場景中,該方法在相關性、覆蓋率和平臺營收等指標上均取得了明顯的效果。該項工作論文發表在 CIKM 2021 ,歡迎交流討論。
??2. 引言
在電商搜索平臺中,用戶通過搜索詞(Query)來反映其意圖,平臺會給用戶返回一系列產品,包括廣告(Ad)和自然商品(Item)。為了平衡效率和效果,如圖(1)左下所示,業界搜索系統通常采用多階段的搜索架構:首先使用簡單高效的模型從大規模的廣告候選集中檢索出更小規模的相關的廣告(廣告檢索模塊,ad retrieval),然后使用更加復雜精細的模型對檢索出廣告進行排序(排序模塊,ad ranking)。在本文中,針對廣告檢索模塊,我們提出使用圖嵌入技術來得到 Query 和 Ad 的表征,并通過 ANN(Approximate Nearest Neighbor)來檢索相關廣告,保證計算效率的同時使用圖模型的表征能力優勢提升匹配效果。
圖(1):淘寶搜索廣告系統架構,包含了廣告檢索和廣告排序兩個階段。在廣告檢索階段,我們提出了SMAD檢索算法,通過圖學習的方式來學習用戶搜索和廣告之間的匹配關系。然而,直接將傳統的圖嵌入方法[2, 4-8]應用于電商搜索廣告中的檢索任務,會遇到可擴展性和相關性下降的問題。考慮到工業場景下具有數十億規模的節點(Query、Item 和 Ad),因此需要多臺機器來存儲圖數據,從而產生較高的通信成本。此外,在全圖上進行隨機游走可能導致相關性下降,例如,一個 Query 節點“連衣裙”和一個連衣裙相關的Ad節點有共同點擊連邊,而后者與“毛衣”相關的商品也具有共同點擊關系(例如,在同一個 Query “女裝”下),現有的方法[3,7]因為沒有限制從“連衣裙”到“毛衣”的隨機游走路徑從而無法保證相關性。此外,在類似淘寶的電商平臺,在 Query 和 Item/Ad 之間有多種類型的關系,例如共同點擊,文本相似等等,可以把每種關系將節點關聯起來的圖看成是一種“視圖”(view),單獨視圖通常都是稀疏和有偏的,需要對多視圖進行融合來實現互補。同時,淘寶上有數十種節點屬性,包括類目、品牌、店鋪等,充分利用這些信息可以提升模型的泛化能力。因此,我們希望設計一種方法能夠有效利用豐富的節點屬性和多視圖信息來提升模型效果。
在本文,我們提出了一個新穎的廣告檢索框架,即可擴展的多視圖廣告檢索(Scalable multi-view ad retrieval,SMAD),并已在淘寶廣告的生產環境中部署。其創新之處包括以下三個方面:
首先,我們提出利用電商系統中的類目樹以及圖的聚集性來進行游走和采樣。在電商平臺中,每個節點(Query/Item/Ad)均會被分配到類目樹中的某一個節點(如圖(2)所示)。為了尊重用戶的搜索意圖,Query 和 Ad 應該在同一個子類目下進行匹配。具體地,SMAD 通過類目樹的性質來進行子圖內鄰居搜索,這種簡單有效的策略能顯著提升通信和計算效率,同時能夠增強 Query 和 Ad 之間的相關性。
圖(2):類目樹示例,搜索詞”實木北歐床”隸屬于“住宅家具”的子類“床類”的子類“實木床”其次,我們提出了一個有效的并行深度神經網絡(Parallel deep Neural Network,PNN)架構來從節點豐富的屬性和節點間多視圖關系中學習到節點表示信息。具體地,它對每個關系視圖學習一個DNN表示,根據節點在不同視圖中的特征和相關程度來學習特定視圖下的節點表征,最后使用注意力機制將同一個節點的多個視圖表征融合為一個更加魯棒的表征。
最后,我們提出了一個高效的分布式模型部署方案,該模型將大規模圖分解為多個較小的子圖,并可以獨立地在本地運行,從而實現訓練的并行化。我們將 SMAD 部署在淘寶的無線廣告搜索平臺中,并通過離線和在線A/B測試來表明我們的系統可以顯著提高廣告檢索性能以及提升平臺收入和用戶體驗。
??3. SMAD模型訓練和應用
圖(1)左上展示了 SMAD 在 Query 和 Ad 之間進行匹配的流程。它首先從用戶的歷史行為以及 Query 和 Item 的文本描述中構建一個多視圖的 Query-Item-Ad 關系圖,然后基于類目約束下的隨機游走生成訓練樣本,最后應用 PNN 模型來學習圖中每個節點的表示,并被用來進行最終的廣告檢索。下面將詳細介紹 SMAD 的設計細節。
3.1 多視圖構建
在 SMAD 中,Query-Item-Ad 圖由三種類型的節點組成,包括Query、Item和Ad,每個節點都包含ID、類目、品牌、價格等特征。圖中包含以下邊類型:
1)點擊關系邊,給定在一個用戶搜索請求下的點擊序列,其中代表被點擊的自然結果商品(item)或廣告商品(ad)。我們在兩個被點擊的Item(或Ad)節點和之間建立共同點擊邊,以及在每個被點擊節點與Query節點之間建立點擊邊。
2)文本相似關系邊。由于電商系統中每天都會新建新的廣告,我們需要依靠其文本屬性進行冷啟動。具體地,我們計算Query和Item/Ad標題之間的Jaccard相似性,并作為權重來建立文本相似邊。
3)共同競價關系邊。在廣告搜索平臺中,廣告主通常會為每個廣告指定一組<競價詞,價格>,用來表達他們希望觸達的流量和此廣告被用戶點擊時支付的金額。如果兩個廣告至少有一個相同的競價詞,它們就會被建立一條共同競價邊。
3.2 類目樹約束下的圖采樣
我們使用隨機游走[3, 7]策略來生成訓練樣本。一方面,正如上文中所提到的,在游走過程中相關性會衰減;另一方面,大規模圖訓練的時間代價也很高。由于圖的規模很大,無法裝入單臺機器的內存中,所以一般進行分布式圖存儲,使得在訓練過程中需要在機器間進行大量的通信。為了解決這些問題,我們根據電商系統中的分層類目樹結構,建立了一個有效的采樣和圖劃分策略。具體地,在淘寶上,一個類目樹包含了大約幾萬個類目,最多有5個級別,例如“圓領衫≤長袖針織衫≤毛衣≤上衣≤女裝”。Query、Item和Ad節點都可以被分配至類目樹中的某一個節點。
3.2.1 類目約束下的隨機游走
我們提出了一種類目樹約束下隨機游走,要求游走路徑需要遵守類目層次,也就是說,游走的路徑必須是非遞增的。通過進入更低級的子類目或者在同一子類目上停留更長時間更能夠表達用戶的真實意圖,例如圖(3)中的“𝑣0(搜索女性時裝)→𝑣1(點擊裙子Item1)→𝑣2(搜索裙子)→𝑣3(點擊裙子Item2)”為一個合理的游走,這是搜索場景的一個特點,與沒有提供明確意圖的推薦應用很不相同[9, 11]。給定一個基于關系元路徑的有效游走,我們在滑動窗口內提取正節點對 ,其中 表示正節點。負采樣是為了給源節點𝑣生成負節點,為了使增加學習的魯棒性和模型的能力,我們既在與𝑣不同類目空間下采樣簡單的負樣本,同時也在與𝑣相同類目空間下采樣負樣本。
圖(3):類目樹約束下的隨機游走。圖中展現了一個合理的游走路徑。其中紅色節點是Query節點。3.2.2 類目約束下的子圖切分策略
基于上述的類目約束下的隨機游走策略,圖數據可以被分解為獨立的子圖。子圖可以獨立的在本地運行,實現大規模并行,從而帶來巨大的通信與計算效益提升。如圖(3)所示,子圖由同屬某一葉子類目的節點構成。非葉子類目的節點則被切分到多個以其為鄰居節點的子圖上。例如節點 (搜索女裝)有兩個鄰居節點 (點擊連衣裙1)和 (點擊毛衣1),那么節點 會被切分為兩個節點,分別附加到“連衣裙”和“女士毛衣”兩個子圖中。通過節點切分,邊集可以根據源節點和目標節點所在的葉子類目進行拆分,并且跨子圖的邊可以被移除(比如構圖時不創建)。此外如果兩個非葉子類目節點互相連接,我們允許它們的拆分復制體在相應的子圖中也互相連接(見圖3)。通過這些方法,我們得到了大量不相交的子圖。
3.3 PNN模型結構
圖(4):PNN(Parallel DNN)模型架構。各個視圖的DNN分支共享同一個嵌入層。正負節點共享相同的中間網絡層。除了節點ID,節點屬性也被引入到DNN中。SMAD采用了一種新穎的并行DNN架構(PNN),如圖(4)所示,用于在多視圖屬性圖上進行表征學習。模型結構分為兩個模塊:
(i) 獨立視圖學習。 DNN架構有多個并行分支,分別對應于不同視圖(即游走方法中的不同類型關系或元路徑)。每個分支初始共享嵌入(EMB)層,用于編碼原始節點特征為統一的特征向量。每個分支最后包括視圖特定層,用于學習對應視圖中節點的相似度。針對視圖 下具備 類型的節點 ,分支分別采用不同的特征變換層 來學習其向量 。為了促進多視圖的協作,我們允許具備同一類型 的節點在不同視圖中共享特征變換層 。因此,如果定義 , 為節點類型和視圖(邊類型)個數,那么模型一共學習 個全連接神經網絡分支,用來編碼 個視圖中 種類型的源節點,以及 個全連接神經網絡分支,用來編碼 種類型的目標節點。
(ii) 基于注意力機制的視圖結合。 我們設計了注意力機制用來建模不同視圖的重要性。注意到對 類型的節點 ,它包含 個視圖的表征,在此基礎上使用注意力機制設計手段,我們選擇 softmax 來學習不同視圖的重要性:
其中 表明不同視圖下表征的重要性, 表明節點 學習到的特定穩定表征, 是可學習的向量,表明哪些 類型的節點在 視圖中更重要。相似度高的節點往往具備相似的特定視圖表征,因此相似的視圖往往更受關注。
損失函數。 為了保留多視圖屬性圖的拓撲結構信息,我們使用如下損失函數:
其中 是 sigmoid 函數, 是學習穩定表征的損失函數, 是在每個視圖中學習節點相似度的正則項, 是用來控制正則項權重的參數。、、 分別是節點 的穩定表征、正樣本及負樣本,對應到視圖 上,其表征分別為 、 及 。
3.4 實現細節
我們使用已經開源的分布式圖學習框架 Euler 進行圖存儲和模型訓練。訓練結束后,使用一個類 Faiss 檢索,進行近似 KNN 計算,基于節點 Embedding 進行相似廣告召回。實驗相關配置如下:使用高斯分布進行模型參數的隨機初始化;采用 Adam 作為優化器;batch size 設置為 512;學習率設置為 0.001;使用50臺阿里云上的虛擬機進行實驗,每個虛擬機配置 28個CPU核 + 30GB 內存。
??4. 實驗評估
為了驗證SMAD的有效性,我們進行全面的離線實驗和在線A/B測試。
4.1 對比方法
實驗主要對比了一些經典的廣告召回模型:
基于圖的用戶歷史行為建模方法:SimRank++、BKR;
基于語義的向量化召回:DSSM、Search2vec、MVE。
同時,為了方便對比 SMAD 中每個結構設計的效果,我們也將 SMAD 的一些變體模型作為 baseline:
SMAD(random):將SMAD中采樣方法替換為標準的隨機游走;
SMAD(no-attribute):只使用ID類特征作為模型的輸入,不使用其他屬性特征
SMAD(no-attention):去掉SMAD中的attention聚合結構,只用單視圖進行點擊邊的訓練
4.2 離線評估結果
我們基于一份人工標注的 query-ad/item-ad 數據,進行相關性評估,作為離線模型的評估數據。這份人工標注的數據收集于淘寶搜索廣告場景的日志,一共抽取了20000個 query-ad 對和20000個 item-ad 對,并基于相關程度人工將其分為“bad”、“fair”、“good”、“excellent”和“perfert”五個等級。對于每個 query 或者 item,有10個候選廣告進行選擇。我們使用 macro NDCG 進行模型的離線評估,并賦予上述5個等級分值(grade)如下:bad-1,fair-2,good-3,excellent-4,perfect-5。我們使用 作為 NDCG 的 label,使用排序位置的 log 作為 NDCG 的分母。我們基于上文提到的淘寶搜索場景數據進行構圖和離線模型訓練。該圖包含了1億的 Query 節點、1億 Item 節點、1千萬 Ad 節點,百億級別的用戶行為邊和文本相似度邊。為了減少訓練過程中的通訊開銷,我們將這張大圖基于類目分解成不同的子圖,從而實現模型的并行化訓練。子圖的分解極大的優化了模型訓練的計算和通訊開銷。下表展示了 SMAD 在 Euler 系統下的運行性能,整張圖 SMAD 的訓練時間少于24小時。
表(1):不同batch size下的運行時間對比實驗結果如下表所示。從表中可以看出,在這份離線數據上,SMAD效果遠高于其他baseline。對比其他的基于圖的或者基于向量化的廣告召回方法,SMAD得益于其有效的點邊信息匯聚,多視圖異構建模和Query-Item-Ad高階關系提取,取得了不錯的離線收益。同時也驗證了這種新型PNN結構和基于數據分布的鄰居檢索方式的有效性。通過SMAD和SMAD變體模型的對比實驗結果,進一步驗證了每個結構模塊的有效性。
表(2):和比較流行的各種方法的對比實驗結果4.3 在線A/B測試
我們在淘寶搜索廣告召回系統中進行了上述模型的在線實驗。并使用 CTR,RPM 和 PVR(有廣告展示的請求占比)作為在線實驗評估指標。如下表所示,對比 SimRank++,BKR 和 Search2vec 模型,SMAD 分別獲得了CTR+5%,+5.5%和+1.5%的在線收益。實驗結果驗證了 SMAD 可以更優的刻畫搜索意圖和廣告的匹配程度。同時,PVR也獲得了+3%,+2%和+1%的提升,說明 SMAD 模型可以覆蓋更多的搜索請求。通過 SMAD 與 SMAD(random)的對比發現,隨機游走和隨機采樣方法并不能很好的刻畫廣告與當前請求的相關度,導致在線 CTR 和 RPM 均出現明顯下跌。與 SMAD(no-attribute)對比發現,得益于豐富的屬性特征引入,SMAD 顯著提升了 CTR 和 PVR。與 SMAD(no-attention)對比發現,attention 聚合方式的引入可以提升 PVR 指標。
??5. 結論
本文介紹了一種海量規模廣告召回框架 SMAD,該框架將廣告場景下用戶行為抽象成圖,并引入豐富的點邊屬性,通過衡量結構相似度,多視圖建模相關性,從而實現 Query 和 Ad 的有效匹配。我們采用了一種基于搜索廣告類目樹結構的訓練策略,并提出一種多視圖網絡模型匯聚 Query-Item-Ad 多維度異構關系和信息,在淘系十億級別圖數據上進行的離在線實驗也充分證明了 SMAD 的有效性。
參考文獻
[1]?IoannisAntonellis,HectorGarciaMolina,andChiChaoChang.2008.Simrank++: query rewriting through link analysis of the click graph. Proceedings of the VLDB Endowment 1, 1 (2008), 408–421.
[2]?Shaosheng Cao, Wei Lu, and Qiongkai Xu. 2016. Deep neural networks for learn- ing graph representations. In Thirtieth AAAI Conference on Artificial Intelligence.
[3]?Yuxiao Dong, Nitesh V Chawla, and Ananthram Swami. 2017. metapath2vec: Scalable representation learning for heterogeneous networks. In Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 135–144.
[4] MihajloGrbovic,NemanjaDjuric,VladanRadosavljevic,FabrizioSilvestri,Ri- cardo Baeza-Yates, Andrew Feng, Erik Ordentlich, Lee Yang, and Gavin Owens. 2016. Scalable semantic matching of queries to ads in sponsored search advertis- ing. In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 375–384.
[5] Aditya Grover and Jure Leskovec. 2016. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 855–864.
[6]?Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry Heck. 2013. Learning deep structured semantic models for web search using clickthrough data. In Proceedings of the 22nd ACM international conference on Information & Knowledge Management. ACM, 2333–2338.
[7] BryanPerozzi,RamiAl-Rfou,andStevenSkiena.2014.Deepwalk:Onlinelearning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 701–710.
[8] Meng Qu, Jian Tang, Jingbo Shang, Xiang Ren, Ming Zhang, and Jiawei Han. 2017. An attention-based collaboration framework for multi-view network repre- sentation learning. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. ACM, 1767–1776.?
[9] JizheWang,PipeiHuang,HuanZhao,ZhiboZhang,BinqiangZhao,andDikLun Lee. 2018. Billion-scale commodity embedding for e-commerce recommendation in alibaba. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 839–848.
[10] SuYan,WeiLin,TianshuWu,DaoruiXiao,XuZheng,BoWu,andKaipengLiu. 2018. Beyond keywords and relevance: a personalized ad retrieval framework in e-commerce sponsored search. In Proceedings of the 2018 World Wide Web Conference. International World Wide Web Conferences Steering Committee, 1919–1928.
[11] Rex Ying, Ruining He, Kaifeng Chen, and Pong Eksombatchai. 2018. Graph Con- volutional Neural Networks for Web-Scale Recommender Systems. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM.
END
歡迎關注「阿里媽媽技術」,了解更多~
瘋狂暗示↓↓↓↓↓↓↓
總結
以上是生活随笔為你收集整理的CIKM 2021 | 图模型在广告检索(Ad Retrieval)中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 写给萌新,聊聊你初入职场的那些疑惑~
- 下一篇: CIKM 2021 | 基于异质图学习的