KDD 18 AAAI 19 | 异构信息网络表示学习论文解读
作者丨崔克楠??
學(xué)校丨上海交通大學(xué)博士生
研究方向丨異構(gòu)信息網(wǎng)絡(luò)、推薦系統(tǒng)
本文要介紹的兩篇論文在 metric learning 和 translation embedding 的角度對異構(gòu)信息網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行學(xué)習(xí),都受到了 knowledge graph 的模型如 TransE,TransR 的影響,所以在這里一起來進(jìn)行對比說明。?
異構(gòu)信息網(wǎng)絡(luò)專題論文集:
https://github.com/ConanCui/Research-Line
KDD 2018
待解決的問題
目前大多數(shù)異構(gòu)信息網(wǎng)絡(luò)(HIN)對于點(diǎn)之間相似度的衡量方式,都是在低維空間使兩個(gè)點(diǎn)的 embedding 的內(nèi)積 (dot product)盡可能的大。這種建模方式僅能考慮到一階關(guān)系(first-order proximity),這點(diǎn)在 node2vec 中也提到;
相比于同構(gòu)信息網(wǎng)絡(luò),異構(gòu)信息網(wǎng)絡(luò)中包含多種 relationship,每種 relationship 有著不同的語義信息。?
同時(shí) relationship 的種類分布非常不均勻。
解決的方法
1. 使用 metric learning(具體可參見論文 Collaborative Metric Learning [1],它具有 triangle inequality 特性)來同時(shí)捕捉一階關(guān)系和二階關(guān)系(second-order proximity)。
2. 在 object space 學(xué)習(xí) node 的 embedding,在 relation space 學(xué)習(xí) relation 的 embedding。計(jì)算時(shí),先將 node embedding 從 object space 轉(zhuǎn)移到 relation space,然后計(jì)算 proximity。?
3. 提出 loss-aware 自適應(yīng)采樣方法來進(jìn)行模型優(yōu)化。
模型的動機(jī)
相比于同構(gòu)網(wǎng)絡(luò)的 embedding,異構(gòu)網(wǎng)絡(luò)中節(jié)點(diǎn)之間的 proximity 不僅僅指兩個(gè)節(jié)點(diǎn)在 embedding space 的距離,同時(shí)也會受到 relation 中所包含關(guān)系的影響。
dot product 僅能夠保證一階關(guān)系,而 metric learning 能夠更好同時(shí)保存一階關(guān)系和二階關(guān)系。
由于 metric learning 直接應(yīng)用會存在 ill-posed algebraic 的問題,所以不能直接應(yīng)用。同時(shí)我們還要考慮到異構(gòu)網(wǎng)絡(luò)中存在不同的 relation,這點(diǎn)也需要建模。?
以往異構(gòu)網(wǎng)絡(luò)中,對于不同種類的 relation 比例差距懸殊的問題,有人提出對每一種 relation 進(jìn)行等比例采樣, 但這會造成有的 relation 被欠采樣,有的過采樣,并且不同 relation 的難度不同,需要采樣的數(shù)量也不同。
模型
學(xué)習(xí) embedding 的 loss 如下:
其中:
可以看出,上述 loss 的目的是讓不同的點(diǎn)在某一種 relation space 中盡可能地接近,同時(shí)是的學(xué)到的 embedding 保留一階和二階特性。需要學(xué)習(xí)的參數(shù)為 node embedding v, 和從 object space 映射到不同 relation space 的映射矩陣Mr。
上式中,所有負(fù)樣本都加入訓(xùn)練集,會導(dǎo)致復(fù)雜度急劇上升,在這里采用雙向負(fù)采樣(Bidirectional Negative Sampling Strategy),所以 loss 修改如下:
對于每個(gè) epoch,我們會把每個(gè)種類的網(wǎng)絡(luò)的 loss 記錄下來,如下,然后根據(jù)目標(biāo)種類 r 的 loss 所占的比例,來確定對該種類 r 的 edge 采樣出多少的比例。這樣為根據(jù) loss 來自適應(yīng)的調(diào)整采樣策略 (Loss-aware Adaptive Positive Sampling Strategy)。?
最終整體的算法流程為:
實(shí)驗(yàn)
實(shí)驗(yàn)采用了來自五個(gè)州的 Yelp 數(shù)據(jù)集,點(diǎn)的種類包括用戶(User),物品(Business),物品屬性(Attribute),物品種類(Category),如 Table 1 所示。
在 AZ 州的數(shù)據(jù)集上計(jì)算 Hits@K 和 MRR,結(jié)果如 Figure 2 和 Tabel 3 所示。
在 NV 州數(shù)據(jù)集做 link prediction 任務(wù),具體為判斷當(dāng)前便是否存在在測試集當(dāng)中,具體指標(biāo)使用 AUC,結(jié)果如 Tabel 4 所示。?
總結(jié)
該篇文章整體的貢獻(xiàn)點(diǎn)為:
1. 使用 metric learning 來解決 HIN 中的二階關(guān)系,并借用 TransR 中的映射矩陣來解決 metric learning 存在的 ill-posed algebraic 問題,對于多種 relation 建立多個(gè) relation space。
2. 提出 loss-aware adaptive 采樣方法,解決了 HIN 中存在的 relation skewed 的問題。?
但是可能存在的問題是,該篇文章僅僅考慮基礎(chǔ)的 relation,另外在 HIN 中還有常見的 composite relations 是使用 meta-paths 來表示的。
比如在 DBLP 這樣的參考文獻(xiàn)數(shù)據(jù)集上,存在 (A, author,P,paper,C,conference) 這些節(jié)點(diǎn)。而像 APA (co-author relation),以及 APC (authors write pa- pers published in conferences) 這樣包含著豐富的信息的 composite relations,在這篇文章中沒有考慮到。
AAAI 2019
待解決的問題
1. 異構(gòu)網(wǎng)絡(luò)中存在著很多的 relations,不同的 relations 有著不同的特性,如 AP 表現(xiàn)的是 peer-to-peer,而 PC 代表的是 one-centered-by-another 關(guān)系。如何區(qū)分不同的 relations?
2. 針對不同的 relations,目前的模型都采用相同的方法來對他們進(jìn)行處理。如何區(qū)分建模?
3. 如果建立多個(gè)模型,如何協(xié)調(diào)優(yōu)化?
解決的方法
1. 根據(jù)結(jié)構(gòu)特性定義了兩種 relations,Affiliation Relations (ARs) 代表 one-centered-by-another 的結(jié)構(gòu),而 Interaction Relations (IRs) 代表 peer-to-peer的關(guān)系。?
2. 對于 AR,這些點(diǎn)應(yīng)當(dāng)有共同的特性,所以直接用節(jié)點(diǎn)的歐幾里得距離作為 proximity。對于 IR,將這種關(guān)系定義為節(jié)點(diǎn)之間的轉(zhuǎn)移(translation)。前者借鑒了 collaborative metric learning,后者借鑒了模型 TransE。?
3. 因?yàn)閮蓚€(gè)模型在數(shù)學(xué)形式上相似,所以可以一起優(yōu)化。
數(shù)據(jù)分析
不同于上篇文章,這篇文章從數(shù)據(jù)分析入手,并給出兩種 structural relation 的定義。三個(gè)數(shù)據(jù)集整合如 Table 1 所示。?
對于一個(gè) relation 的三元組 <u,r,v>,其中作者定義了一個(gè)指標(biāo)如下:
該指標(biāo)由 u 和 v 種類的節(jié)點(diǎn)的平均度(degrees)來決定。如果 D(r) 越大,代表由 r 連接的兩類節(jié)點(diǎn)的不平衡性越大,越傾向于 AR 類型,否則傾向 IR 類型。同時(shí)定義了另外一個(gè)稀疏度指標(biāo)如下:
其中代表該種類 relation 的數(shù)量,代表頭節(jié)點(diǎn)所在種類節(jié)點(diǎn)的數(shù)量,如果數(shù)據(jù)越稠密,則越傾向于 AR,因?yàn)槭?one-centered-by-another,而 IR 關(guān)系的相對來說應(yīng)該較為稀疏。
模型
對于 AR 類型,采用類似于上篇文章 PME 中的 metric learning 角度建模,原因除了 metric learning 能夠保留 second- order proximities 外,metric learning 和 AR 的定義契合,及被該關(guān)系連接的節(jié)點(diǎn)之間歐式距離要盡量的小。
而對于 IR 類型為何用 translation 來進(jìn)行建模,沒有更好的說明,只是在模型的數(shù)學(xué)形式上和 metric learning 較為接近,容易結(jié)合。?
則對于 AR 類型的 loss 為:
而對于 IR 類型的 loss 為:
對于整個(gè)模型來說,就是簡單的把兩部分的 loss 相加,沒有上一篇 PME 中考慮的更合理。
正負(fù)采樣的方法也沒有上一篇當(dāng)中有過多的技巧,relation 的正采樣就直接按照數(shù)據(jù)集中的比例來進(jìn)行采樣,不考慮 relation 種類是 skewed 的情況。而對于負(fù)采樣,和 TransE 和上篇文章中 PME 相同的方法,即雙向負(fù)采樣。
實(shí)驗(yàn)
實(shí)驗(yàn)采用 Table 1 中的數(shù)據(jù)集,首先看在聚類任務(wù)上效果的好壞,具體指標(biāo)采用 NMI,結(jié)果在表格 2 中所示。
接著看了模型在 Link prediction 上的效果好壞,具體為判斷當(dāng)前邊是否在測試集中。具體指標(biāo)采用 AUC 和 F1,結(jié)果見 Table 3。
另外看了模型在 multi-class classification 任務(wù)上的表現(xiàn),看學(xué)到的節(jié)點(diǎn)是否保留有節(jié)點(diǎn)種類信息,具體為對已經(jīng)學(xué)習(xí)到的節(jié)點(diǎn) embedding,訓(xùn)練一個(gè)分類器,結(jié)果如 Table 4 所示。
另外,為了探討區(qū)分兩種 relation,并利用 metric learning 和 translation 進(jìn)行建模是否有效,作者進(jìn)行了 ablation study。提出如下三種 variants:
其實(shí)驗(yàn)結(jié)果如 Figure 2 所示:
總結(jié)
總的來說,作者從分析數(shù)據(jù)入手,對于 HIN 中具有不同 structural 的 relation 進(jìn)行了區(qū)分,并且分別采用不同的方法對不同 structural 的 relation 進(jìn)行建模,在一定程度上給出了這兩種方法的建模 motivation。
相比于 PME,作者對于兩部分的 relation 的 loss 結(jié)合較為粗糙,不過作者的重點(diǎn)也不在于此,沒有什么問題。
參考文獻(xiàn)
[1].?Hsieh C K, Yang L, Cui Y, et al. Collaborative metric learning[C]//Proceedings of the 26th international conference on world wide web. International World Wide Web Conferences Steering Committee, 2017: 193-201.
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
Airbnb實(shí)時(shí)搜索排序中的Embedding技巧
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
近期值得讀的10篇GAN進(jìn)展論文
F-Principle:初探理解深度學(xué)習(xí)不能做什么
自然語言處理中的語言模型預(yù)訓(xùn)練方法
深度思考 | 從BERT看大規(guī)模數(shù)據(jù)的無監(jiān)督利用
AI Challenger 2018 機(jī)器翻譯參賽總結(jié)
Google BERT應(yīng)用之紅樓夢對話人物提取
深度長文:NLP的巨人肩膀(上)
NLP的巨人肩膀(下):從CoVe到BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的KDD 18 AAAI 19 | 异构信息网络表示学习论文解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 听说你好不容易写了个爬虫,结果没抓几个就
- 下一篇: ICDAR 2019国际竞赛召开在即,百