HIN2Vec:异质信息网络中的表示学习 | PaperDaily #18
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?18?篇文章本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @YFLu。這篇論文發(fā)表在剛剛結束的 2017CIKM 會議上,論文提出了一種針對異質信息網絡的表示學習框架 HIN2Vec。
不同于之前很多基于 Skip-gram 語言模型的工作,HIN2Vec 的核心是一個神經網絡模型,不僅能夠學習網絡中節(jié)點的表示,同時還學到了關系(元路徑)的表示。
如果你對本文工作感興趣,點擊底部的閱讀原文即可查看原論文。
關于作者:陸元福,北京郵電大學計算機系碩士生,研究方向為異質信息網絡的表示學習。
■?論文 | HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning
■ 鏈接 | https://www.paperweekly.site/papers/1182
■ 作者 | YFLu
HIN2Vec 是一篇關于異質信息網絡中的表示學習的論文,發(fā)表在剛剛結束的 2017CIKM 會議上。這篇論文和我最近的工作有一些相似之處,一些想法甚至有些相同,同樣有很多地方值得借鑒。?
論文提出了一種針對異質信息網絡的表示學習框架 HIN2Vec,不同于之前很多基于 Skip-gram 語言模型的工作,HIN2Vec 的核心是一個神經網絡模型,不僅能夠學習網絡中節(jié)點的表示,同時還學到了關系(元路徑)的表示。?
同時論文還對異質信息網絡中表示學習的一些問題做了研究實驗,例如:元路徑向量的正則化、負采樣過程中節(jié)點的選擇以及隨機游走中的循環(huán)序列問題。
Introduction
論文首先指出了現有模型存在的一些問題,之前的很多工作僅僅局限于同質信息網絡,而且往往只考慮節(jié)點之間的整合的信息或者限制類型的關系。雖然 ESim 模型考慮了節(jié)點間的不同關系,但是該模型過于依賴人為定義的元路徑以及每條元路徑人為設置的權重。
基于現有模型存在的問題,論文提出了 HIN2Vec 模型,通過研究節(jié)點之間不同類型的關系和網絡結構,學習異質信息網絡中豐富的信息。由于不同的元路徑可能有不同的語義信息,所以作者認為對嵌入在元路徑和整個網絡結構中的豐富信息進行編碼,有助于學習更有意義的表示。
和之前的一些模型相比,HIN2Vec 模型保留了更多的上下文信息,不僅假設存在關系的兩個節(jié)點是相關的,而且還區(qū)分節(jié)點之間的不同關系,并通過共同學習關系向量區(qū)別對待。
論文的主要貢獻:
-
證明了節(jié)點間不同類型的關系能夠更好的捕獲更多嵌入在網絡結構中的細節(jié)信息,因此通過捕獲節(jié)點間各種不同類型的關系,有助于網絡的表示學習。
-
提出了 HIN2Vec 模型,包括兩部分:首先,基于隨機游走和負采樣生成訓練數據,然后,設計邏輯二元分類器用于預測兩個給定的節(jié)點是否存在特定的關系。同時,考慮了循環(huán)序列、負采樣和正則化問題。
-
實驗很充分,包括多標簽分類和鏈路預測,同時實驗研究了循環(huán)序列、負采樣以及正則化對實驗分類結果的影響。
HIN2Vec
Framework
HIN2Vec 模型分為兩部分:基于隨機游走的數據生成部分和表示學習部分。數據生成部分,基于隨機游走和負采樣生成符合目標關系的數據,以用于表示學習。表示學習部分是一個神經網絡模型,通過最大化預測節(jié)點之間關系的可能性,同時學習節(jié)點和關系的表示向量,模型的整體框架可以見下圖。
值得注意的是,HIN2Vec 模型同時學習了節(jié)點和關系(元路徑)的表示向量,這種多任務學習(multi-task learning)方法能夠把不同關系的豐富信息和整體網絡結構聯合嵌入到節(jié)點向量中。?
Representation Learning?
HIN2Vec 模型的基本想法是對于多個預測任務,每個任務對應于一條元路徑,聯合學習一個模型,學到每個節(jié)點的向量表示,所以一個簡單的想法就是構建一個神經網絡模型,預測任意給定節(jié)點對之間的一組目標關系。?
論文最初的想法是一個多分類模型,即給定兩個節(jié)點和一個目標關系集合,通過下圖 2 的神經網絡模型訓練預測概率值 P(ri|x,y),(i=1…|R|),但是對于這樣的一個模型的訓練數據的獲取是非常復雜的,因為對于一個復雜網絡而言,獲取網絡中兩個節(jié)點的所有關系是很困難的。
所以論文退而求其次,將問題簡化成二分類問題,即給定兩個節(jié)點 x,y,預測節(jié)點間是否存在確定的關系 r,這樣就避免了遍歷網絡中的所有關系,圖 3 所示就是 HIN2Vec 的神經網絡模型。
模型的輸入層是三個 one-hot 編碼的向量,經過隱層層轉換到隱含向量,值得注意的是,因為關系和節(jié)點的語義含義是不同的,所以論文對關系向量 r 做了正則化處理,這種處理方式限制了關系向量的值在 0 到 1 之間。
然后,模型對三個隱含向量運用一個 Hadamard 函數(例如,對應元素相乘),對乘積再運用一個線性激活函數,最后輸出層對成績求和后的值進行一個 sigmoid 非線性轉換。?
模型的訓練數據集是以四元組的形式給出的,形如 $,其中,其中 L(x,y,r) 指示指示 x,y 之間是否存在關系之間是否存在關系 r。具體的:
Traning Data Preparation
論文采用隨機游走的方式生成節(jié)點序列,但是需要注意的是,不同于 metapath2vec[1] 按照給定元路徑模式游走的方式,HIN2Vec 模型完全隨機選擇游走節(jié)點,只要節(jié)點有連接均可游走。
例如,隨機游走得到序列 P1,P2,A1,P3,A1,那么對于節(jié)點 P1,可以產生訓練數據 $和$。
在論文中,作者討論了隨機游走過程中可能出現的循環(huán)的情況,提出通過檢查重復節(jié)點的方式消除循環(huán),并在實驗部分分析了是否消環(huán)對實驗結果的影響,但是個人認為這個地方的原理性介紹比較欠缺,對于消除循環(huán)的具體做法沒有給出很詳細的說明解釋,循環(huán)的檢測是根據前面已生成的所有節(jié)點還是部分節(jié)點,也沒有給出說明。
論文還討論了訓練數據集中負樣本的選擇,論文也是采用 word2vec 中的負采樣的方法產生負樣本。對于一個正樣本 $,通過隨機替換,通過隨機替換 x,y,r 中的任意一個,生成負樣本中的任意一個,生成負樣本,其中,其中 x’’ 和 y’’ 之間不一定有確定的關系之間不一定有確定的關系 r’’$。
但是,由于網絡中的關系數量是很少的,節(jié)點的數量遠遠大于關系的數量,這樣就很容易產生錯誤的負樣本(其實是可能正樣本),所以論文采用只隨機替換 x 或 y 中的一個,而保持 r 是不變的,同時保持 x 或 y 的類型不變。
Summary
總體來說,論文的想法還是很新穎的,把節(jié)點和節(jié)點間的關系作為一種二分類問題考慮,給定兩個節(jié)點 x,y,通過預測節(jié)點之間是否存在確定的關系 r,同時學習到了節(jié)點和關系的向量表示。
此外,論文考慮到了節(jié)點和關系的語義是不同的,因此它們的表示空間也應該不通,所以論文對關系向量運用了一個正則函數。對于隨機游走過程中可能會出現循環(huán)節(jié)點的問題,論文也給出了實驗分析,同時闡述了負采樣時候節(jié)點及節(jié)點類型的選擇。
個人認為,論文的不足之處在于隨機游走過程中如何消除循環(huán),沒有給出較為詳細的說明。此外,對于學習到的關系的表示如何應用到實際的數據挖掘任務中,論文也沒有給出實驗分析。
Reference
[1] Dong Y, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2017: 135-144.
本文由 AI 學術社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區(qū)!
? ? ? ? ??
?我是彩蛋
?解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實習都不是問題
?
?解鎖方式?
1. 識別下方二維碼打開小程序
2. 用PaperWeekly社區(qū)賬號進行登陸
3. 登陸后即可解鎖所有功能
?職位發(fā)布?
請?zhí)砑有≈治⑿?#xff08;pwbot01)進行咨詢
?
長按識別二維碼,使用小程序
*點擊閱讀原文即可注冊
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的HIN2Vec:异质信息网络中的表示学习 | PaperDaily #18的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源代码上新!6 份最新「Paper +
- 下一篇: 本期最新 9 篇论文,帮你完美解决「读什