【广告技术】如何科学地划分用户群体?在聚类中考虑用户特征和社会关系
劃分用戶群體是門大學問!
對互聯網廣告來說,讓不同的用戶看到不同的廣告是一件特別基本、也特別重要的事。比如,會吸引一位男性游戲愛好者的廣告,內容很可能是電競顯示器、專業游戲鍵盤,而且他也很可能真的去購買廣告中推薦的商品;可要是廣告推薦的內容是香水、口紅,他既不了解、也不感興趣,這個廣告推薦的機會就白白浪費了。
廣告主和廣告平臺都希望能夠把全體用戶準確地劃分成許多個帶有不同特點的群體,從而能夠根據這些群體各自不同的需求和消費能力,推薦最適合的廣告。顯然,怎么有效地把用戶分成不同的類別是一門大學問,按年齡段分可能有點粗糙,但年齡和消費能力、消費品類相關;如果按興趣愛好分,每個人可能會有多種興趣愛好,很難給出唯一的分類;如果按職業劃分,會不會他反倒對本職行業內的產品都知根知底,所以反而對廣告免疫呢?
可以看到,我們當然能提出很多種不同的分類劃分方法、可以選擇不同的細致程度,不同的劃分方法也肯定會帶來不同的效果,但這些方法都有不少當事人的主觀判斷參與,而且這些主觀判斷認為的優勢劣勢到底有多顯著,和實際的廣告投放需求有多相符,很難分析驗證,也就很難確定地選出一個最佳的分類方法來。
讓基于數據的方法做一個客觀的分類員
不過,大數據、人工智能的時代已經來了,我們有了新的工具幫我們處理這些問題。比如機器學習中有個問題叫做“聚類”,讓算法尋找數據中本質性的、客觀存在、可驗證的區別,把它們分成不同的類別。就像上面這張圖中的點,誰都能看出可以把這些點分成三組,每個組的點都明顯聚集在一起,而三個組之間又有明顯的距離。設計算法,通過一定的規則來做這件尋找區別、劃分分類的事情,不同的人也可以得出相同的分類結果,而且這個分類結果還可以用具體的統計指標來衡量、驗證。
如今,網絡平臺都積累了大量的用戶屬性和歷史行為數據,我們能不能用類似的方法分析用戶數據,尋找用戶特征中的本質性的、客觀存在的、可驗證的區別,從而把用戶分成不同的類別呢?而且我們希望分到每個類別內的用戶都非常的相近,而不同類別之間又有明顯的區別,就像上面那張圖的點一樣。
當然了,用戶數據是很復雜的,k-means之類的經典、簡單的聚類算法能處理好“點”這樣的低維、數值數據,而網絡平臺可能收集到的用戶數據中除了年齡、身高、性別、體重之類的數值之外,更會包含所在城市、消費習慣、個人愛好、朋友關系、購買歷史、已購商品評價等等的高維、非數值數據,這就需要用更先進的方法才能處理。
隨著深度學習的發展,將深度學習強大的表征能力融入聚類目標的深度聚類算法取得了很好的效果。其中典型的比如借助自動編碼器auto-encoder的深度聚類方法,自動編碼器的引入能夠學習不同特征之間的交互,提取出數據中最關鍵的、最有代表性的信息,去除一些無用的信息以及噪聲。在深度聚類方法的幫助下,我們可以將高維且稀疏的用戶特征壓縮成低維的數據表示,得到不錯的結果;能處理的數據量也跟著一起邁上了新的臺階。
讓深度聚類結果再上一層樓
現在我們已經可以很輕松的對大量的、復雜的用戶數據進行聚類了,我們還能再做一些改進嗎?當然可以!在我們的成果《Structural Deep Clustering Network》這篇論文中,結合正火熱的圖卷積神經網絡GCN提出了新的改進思路。
現有的深度聚類方法已經能很好地提取每一個數據樣本中的關鍵信息,但同時,不同的數據樣本之間可能會還會存在一些關聯,比如小明和小紅互相不認識,性別不同,性格很不一樣,身材差了很多,住的也非常的遠,但是他們都有大量玩搖滾樂的朋友,因此他們某一方面的購物習慣很可能是一樣的。類似這樣的不同數據樣本之間的關聯就提供了一個全新角度的信息“結構信息”,如果能把這些信息利用起來,就能獲得更上一層樓的聚類結果。這顯然又是一塊待發掘的金礦,而這篇論文就是首次對這塊金礦展開了探索。為了捕捉、描述、計算這種不同數據樣本之間的結構信息,論文中引入了新的模塊“圖卷積神經網絡”。"圖 graph"+神經網絡,是當前的前沿研究熱點,而且“圖”的結構也最適合用來表現不同數據樣本之間的復雜結構關系。在此基礎上,論文中設計了一些連接組件讓新加入的圖卷積模塊能和原來的深度聚類模型高效協作,還設計了新的模型學習訓練機制,讓深度聚類模塊和圖卷積模塊相互影響、相互促進,都能比單獨工作時更好地提取信息,而不是把兩種模塊提取到的信息簡單相加。
論文作者們在六個真實世界數據集上的數據聚類實驗有力地說明了改進效果。這六個數據集的內容差異巨大,包括手寫數字識別、人體動作識別、新聞報道分類、學術論文主題、論文作者關系、學術論文引用。作者們提出的模型在每個數據集上的聚類結果都取得了顯著的提升。
其中的DBLP論文作者關系數據集就是一個關于人的數據集,它包含了數千位計算機科學領域的學術論文作者的論文關鍵詞信息,以及作者之間的合著論文關系 —— 對應了每條用戶數據本身的信息以及用戶數據之間的結構信息。然后需要對這些作者們進行聚類,把他們劃分為四種細分研究領域,是數據庫、數據挖掘、機器學習還是信息檢索。把算法聚類的結果和他們真實的細分研究領域對比,就得到了聚類準確率。此前最好的深度聚類的方法也只有62.05%的準確率,最基礎的k-means甚至只有38.65%;這篇論文提出的加入了結構信息的方法把準確率一舉提高到了68.05%。在HHAR人體動作識別數據集上,需要把智能手機、智能手表收集到的運動數據劃分為騎自行車、坐、站、走路、上樓梯、下樓梯六類,這篇論文的方法也把此前方法的最高76.51%的準確率大幅提升到了84.26%(考慮到了不同運動的前后順序關系)。
給真實廣告業務帶來革新
論文中的實驗已經有力地說明這個新方法能帶來大幅改進,可以期待當它運用到真實的廣告平臺、用戶分類和廣告投放中之后,也能帶來全方位的改進。
最明顯也最直接的,就是可以根據聚類的結果重新給每個用戶類別總結標簽,得到新的用戶分類體系。不僅這個分類體系比以往更明確、合理,更有能力處理騰訊的產品生態中十億級別的用戶及對應的用戶數據,也能夠幫助廣告平臺和廣告主更好地理解用戶群體。算法的長期持續演進以及定制化聚類,可以讓聚類結果越來越準確合理,也與廣告平臺、互聯網產品的總體商業策略越來越吻合。還可以按照一定的周期,結合最新的用戶數據重新運行聚類,就能夠跟蹤用戶特點的變化,讓用戶群體分類總能最符合當前情況。在這個用戶間差異越來越大、亞文化群體眾多、信息又快速更新迭代的時代,這些都難能可貴。
結構化信息的使用也能讓真實應用場景中的很多用戶數據派上用場。比如,不同的微信用戶會關注不同的微信公眾號,這就是一種結構化信息;在基于用戶屬性的分類基礎上,結合這些結構化信息,就可以幫助得到更好的聚類結果。
在這個基礎上,同一個用戶在不同的平臺上會有不同的結構化信息,比如張三可能在微信上關注公眾號A、在騰訊視頻平臺觀看電視劇M、同時玩騰訊的X手游。這些不同平臺上的結構化信息可以刻畫為不同視圖的網絡,會含有更廣泛的信息,然后通過多視圖聚類的方法就提取其中的信息,繼續幫助改善聚類結果。
最后,這也能幫助廣告主制定更好的營銷策略。如果廣告主預期用戶分類效果不好,投放到的用戶特征模糊、復雜,廣告策略就可能會更看重“不出錯”,因為需要兼顧不同的口味;但準確、清晰的用戶群體分類結果,可以讓廣告策略偏向于“精確引發一小部分用戶的共鳴”,反倒能建立很強的品牌認知、引發自發傳播;品牌也能在這個過程中不斷優化自己的營銷方法論,形成正向循環。另一方面,聚類方法帶來的更好的用戶分類結果,可以幫助廣告平臺更好地發現相似的用戶群體,讓那些“雖然廣告主沒有明確指出,但會喜歡這支廣告”的用戶也看到廣告,對廣告平臺而言這是進一步提升廣告定向推薦效果,對廣告主來說,就是姿態優雅地“出圈”,在更多潛在用戶的心中建立正面印象。
自2020年5月開始,在Wiztalk騰訊廣告專場系列學術視頻中,我們將請論文作者從深入、詳細的技術角度介紹這篇《Structural Deep Clustering Network》論文,以及介紹專門研究多視角聚類問題的《One2Multi Graph Auto-encoder for Multi-view Graph Clustering》論文。敬請期待。直播時間:5月29日 19:00
北京郵電大學計算機學院教師、博士生導師石川老師將在Wiztalk騰訊廣告專題直播中細致講解基于圖神經網絡的聚類研究與應用,為大家帶來研究領域的最新成果!趕快掃描上方二維碼或點擊【原文鏈接】即可一鍵預約直播。想要了解更多直播課程,可點擊騰訊廣告算法大賽公眾號主頁底部菜單欄【直播回放】觀看課程回顧,get干貨知識,獲取參賽秘籍。
一次實踐的好機會來啦!由騰訊廣告舉辦2020騰訊廣告算法大賽正在火熱進行中~本屆大賽由騰訊廣告攜手八大平臺聯袂舉辦,產學研多界大咖組成的超強評委陣容將蒞臨指導,更有百萬級總獎池的超級福利等你來贏!本屆大賽報名截止2020年5月31日,目前已吸引近兩萬名選手關注,有意向的同學趕快前往官網報名,加入這場算法比拼吧!
總結
以上是生活随笔為你收集整理的【广告技术】如何科学地划分用户群体?在聚类中考虑用户特征和社会关系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Python入门】Python之shu
- 下一篇: 太强了!用动图演示NLP中的自监督表示学