基于matlab的fisher线性判别及感知器判别_基于嵌入表示的网络实体对齐方法进展概述...
網(wǎng)絡(luò)實體對齊是指給定兩個網(wǎng)絡(luò),把兩個網(wǎng)絡(luò)中等價的實體合并。實體對齊在很多領(lǐng)域都有重要應(yīng)用,比如,跨平臺社交網(wǎng)絡(luò)的用戶對齊可以用于用戶畫像、用戶興趣挖掘,跨語言知識圖譜的實體對齊可以輔助機器翻譯、跨語言信息檢索。
傳統(tǒng)的方法在做實體對齊任務(wù)時主要有兩種思路。
一種是基于實體的標(biāo)簽信息,例如社交網(wǎng)絡(luò)的用戶昵稱、知識圖譜的實體名稱。其效果在實際應(yīng)用時并不理想,例如社交網(wǎng)絡(luò)中,用戶昵稱存在重名、匿名和多用戶名的問題;在知識圖譜中,跨語言的實體名稱依賴于機器翻譯的效果。
另一種思路是基于人工定義特征,例如知識圖譜中兩個實體的類別是否一致、社交網(wǎng)絡(luò)中兩個用戶的公共鄰居有多少。這種方法需要人工針對具體問題仔細(xì)設(shè)計特征,但是這些特征大多數(shù)很難遷移到其他場景。
近幾年,基于嵌入表示學(xué)習(xí)的方法越來越多地受到關(guān)注,給定一個網(wǎng)絡(luò),嵌入表示學(xué)習(xí)可以把實體映射為低維向量空間中的一個點。其中,知識圖譜領(lǐng)域以TransE為代表,社交網(wǎng)絡(luò)領(lǐng)域以Deepwalk為代表,這兩種方法都是受到詞嵌入的Skip-gram模型的啟發(fā)而產(chǎn)生的。與網(wǎng)絡(luò)實體對齊類似,自然語言處理中也存在跨語言a詞對齊問題。在嵌入表示的方法提出之前,詞對齊和網(wǎng)絡(luò)實體對齊基本上處于獨立發(fā)展的狀態(tài),嵌入表示的方法提出以后,兩者的發(fā)展表現(xiàn)出很多的相似性。
基于嵌入表示的對齊模型在最開始提出的時候基本上遵循兩種思路,這兩種思路都基于單一網(wǎng)絡(luò)的嵌入表示。
第一種思路是把一些預(yù)先匹配好的實體合并,從而把兩個網(wǎng)絡(luò)合并為一個網(wǎng)絡(luò),進(jìn)而用單一網(wǎng)絡(luò)的嵌入表示進(jìn)行嵌入。這種方法在知識圖譜中以JE [1](2016年CCKS)為代表,在社交網(wǎng)絡(luò)中以IONE [2](2016年IJCAI)為代表。
第二種思路是先用單一網(wǎng)絡(luò)的嵌入模型分別訓(xùn)練兩個網(wǎng)絡(luò),然后用一些預(yù)先匹配好的實體訓(xùn)練一個線性變換對齊兩個向量空間。這種方法在知識圖譜中以MTransE [3](2017年IJCAI)為代表,在社交網(wǎng)絡(luò)中以PALE [4](2016年IJCAI)為代表。具體實現(xiàn)的時候(如MTransE)用單一網(wǎng)絡(luò)嵌入損失函數(shù)和向量映射的損失函數(shù)求和一起訓(xùn)練也能達(dá)到類似的效果。
此后,在這些方法的基礎(chǔ)上研究者開始改進(jìn)對齊效果。改進(jìn)分為兩個方向:
首先是迭代。直觀來看,新發(fā)現(xiàn)的匹配實體能夠繼續(xù)促進(jìn)新的匹配實體的發(fā)現(xiàn),因此這個過程是一個很自然的迭代過程,IPTransE [5](2017年IJCAI)這篇論文就是基于這種想法。但是,迭代存在錯誤傳播的問題,他們通過給迭代出的置信度低的種子更小的權(quán)重來緩解這個問題,最近,BootEA [6](2018年IJCAI)通過讓已經(jīng)發(fā)現(xiàn)的匹配實體可編輯或刪除進(jìn)一步緩解了錯誤傳播。
其次是結(jié)合屬性信息。只用網(wǎng)絡(luò)的結(jié)構(gòu)信息有時候無法達(dá)到很好的匹配效果,因此結(jié)合屬性信息也是對齊問題的一種重要的研究方向。在知識圖譜領(lǐng)域的代表工作有JAPE [7](2017年ISWC)、KDCoE [8](2018年IJCAI)、GCN-Align [9](2018年EMNLP),在社交網(wǎng)絡(luò)領(lǐng)域的代表工作有REGAL [10](2018年CIKM)、MEgo2Vec [11](2018年CIKM)。
再近一些,2019年可以說是對齊任務(wù)模型爆炸增長的一年,新的方向和思路層出不窮,主要分為以下四個:
無監(jiān)督對齊
對齊問題的設(shè)定是有一些預(yù)先匹配好的實體,但是這種設(shè)定有時無法滿足,因此有不少研究者在探索如何無監(jiān)督地進(jìn)行實體對齊。
第一種思路是讓結(jié)構(gòu)和屬性信息相互”監(jiān)督“,從而達(dá)到不需要預(yù)先匹配實體的效果。[12](2019年AAAI)
另一種思路是基于對抗的方法對齊兩個網(wǎng)絡(luò)。讓判別器區(qū)分兩個網(wǎng)絡(luò)中生成的點,直到判別器無法判別生成的點來自哪個網(wǎng)絡(luò),兩個網(wǎng)絡(luò)就對齊了。[13](2019 arxiv)
多視角嵌入
由于對齊問題的復(fù)雜性,單一模型的嵌入能力往往不足以對齊兩個網(wǎng)絡(luò),因此從多種視角來對齊效果會更好。代表論文MOANA [14](2019年WWW),這篇論文提出了多層次嵌入的對齊方法,從不同顆粒度層面多角度地理解實體。ACL 2019的一篇短文[15]也有類似的動機,但是使用的方法不同,他們通過多層感知機將多種信息(屬性信息、局部結(jié)構(gòu)信息、全局結(jié)構(gòu)信息)進(jìn)行結(jié)合。MultiKE[18](2019年IJCAI)對更多的視角和更多的結(jié)合方法進(jìn)行了嘗試,對齊的命中率也有更大的提升。
改進(jìn)現(xiàn)有嵌入表示模型并用于對齊
第三種是非常硬核的方向:改進(jìn)現(xiàn)有的嵌入表示模型并用于對齊,相當(dāng)于從底層改進(jìn)對齊效果。代表論文是SEA [16](2019年WWW)。這篇論文指出現(xiàn)有的嵌入模型會讓度(節(jié)點的鄰居個數(shù))相似的節(jié)點更接近,但是這一點對于對齊任務(wù)來說并不是一件好事,因此提出了用對抗訓(xùn)練的方法解決這個問題。判別器的目標(biāo)是預(yù)測節(jié)點的度,生成器的目標(biāo)是讓判別器無法預(yù)測節(jié)點的度,這樣最后的嵌入表示就會削弱度的影響。
超大規(guī)模對齊
大多數(shù)現(xiàn)有的對齊工作都是在幾十萬實體、至多幾百萬實體的數(shù)據(jù)集上進(jìn)行測試,而在上億個節(jié)點的網(wǎng)絡(luò)對齊時,無論是從計算復(fù)雜度還是對齊效果上,都會有新的問題產(chǎn)生。OAG [17](2019年KDD)將兩個有著上億級別節(jié)點的網(wǎng)絡(luò)——AMiner和微軟學(xué)術(shù)進(jìn)行了對齊,這項研究綜合利用了LSTM、GNN、哈希等技術(shù),能夠高效處理多種類型的節(jié)點以及不同類型的信息,并且將對齊效果達(dá)到了可以應(yīng)用的級別(總體F1值96.81)。
參考文獻(xiàn)
Hao Y, Zhang Y, He S, et al. A joint embedding method for entity alignment of knowledge bases[C]//China Conference on Knowledge Graph and Semantic Computing. Springer, Singapore, 2016: 3-14.
Liu L, Cheung W K, Li X, et al. Aligning Users across Social Networks Using Network Embedding[C]//IJCAI. 2016: 1774-1780.
Chen M, Tian Y, Yang M, et al. Multilingual knowledge graph embeddings for cross-lingual knowledge alignment[J]. arXiv preprint arXiv:1611.03954, 2016.
Man T, Shen H, Liu S, et al. Predict Anchor Links across Social Networks via an Embedding Approach[C]//IJCAI. 2016, 16: 1823-1829.
Zhu H, Xie R, Liu Z, et al. Iterative Entity Alignment via Joint Knowledge Embeddings[C]//IJCAI. 2017: 4258-4264.
Sun Z, Hu W, Zhang Q, et al. Bootstrapping Entity Alignment with Knowledge Graph Embedding[C]//IJCAI. 2018: 4396-4402.
Sun Z, Hu W, Li C. Cross-lingual entity alignment via joint attribute-preserving embedding[C]//International Semantic Web Conference. Springer, Cham, 2017: 628-644.
Chen M, Tian Y, Chang K W, et al. Co-training embeddings of knowledge graphs and entity descriptions for cross-lingual entity alignment[J]. arXiv preprint arXiv:1806.06478, 2018.
Wang Z, Lv Q, Lan X, et al. Cross-lingual Knowledge Graph Alignment via Graph Convolutional Networks[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 349-357.
Heimann M, Shen H, Safavi T, et al. Regal: Representation learning-based graph alignment[C]//Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 2018: 117-126.
Zhang J, Chen B, Wang X, et al. MEgo2Vec: Embedding matched ego networks for user alignment across social networks[C]//Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 2018: 327-336.
Trisedya B D, Qi J, Zhang R. Entity Alignment between Knowledge Graphs Using Attribute Embeddings[C]. AAAI, 2019.
Derr T, Karimi H, Liu X, et al. Deep Adversarial Network Alignment[J]. arXiv preprint arXiv:1902.10307, 2019.
Zhang S, Tong H, Maciejewski R, et al. Multilevel Network Alignment[C]//The World Wide Web Conference. ACM, 2019: 2344-2354.
Xu K, Wang L, Yu M, et al. Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network[J]. arXiv preprint arXiv:1905.11605, 2019.
Pei S, Yu L, Hoehndorf R, et al. Semi-Supervised Entity Alignment via Knowledge Graph Embedding with Awareness of Degree Difference[C]//The World Wide Web Conference. ACM, 2019: 3130-3136.
https://www.aminer.cn/oag2019
Zhang Q, Sun Z, Hu W, et al. Multi-view Knowledge Graph Embedding for Entity Alignment[J]. arXiv preprint arXiv:1906.02390, 2019.
AI Time是一群關(guān)注人工智能發(fā)展,并有思想情懷的青年人創(chuàng)辦的圈子。AI Time旨在發(fā)揚科學(xué)思辨精神,邀請各界人士對人工智能理論、算法、場景、應(yīng)用的本質(zhì)問題進(jìn)行探索,加強思想碰撞,打造成為北京乃至全國人工智能知識分享的策源地和聚集地。
AI Time:論道自動機器學(xué)習(xí)與可解釋機器學(xué)習(xí)
時間:6月19日15:00-17:00
地點:海淀區(qū)中關(guān)村東路搜狐大廈二樓1911(清華科技園)
本次活動我們邀請了四位大牛:美國伊利諾伊大學(xué)芝加哥分校(UIC)特聘教授Philip Yu(ACM/IEEE Fellow,原ACM TKDD主編)、美國密歇根大學(xué)Qiaozhu Mei教授(絕對的青年才俊,剛拿了WWW 最佳論文,之前還拿過ICML、WSDM最佳論文)、北京大學(xué)的王立威教授(無敵的青年才俊,ML理論方面難逢對手)、百度高級研究員李興建。
趕快戳下方小程序進(jìn)入AI Time報名通道!
學(xué)術(shù)頭條
發(fā)掘科技創(chuàng)新的原動力
您的轉(zhuǎn)發(fā)就是我們最大的動力
點擊閱讀原文訪問AMiner官網(wǎng)
總結(jié)
以上是生活随笔為你收集整理的基于matlab的fisher线性判别及感知器判别_基于嵌入表示的网络实体对齐方法进展概述...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 获取对象方法有哪些方法有哪些方
- 下一篇: scripts文件夹_常用Scripts