【转】自然语言系列学习之表示学习与知识获取(四)TransE
概述
在知識表示學(xué)習(xí)方面,一個(gè)代表性的算法就是transe, 它的基本思想是把每一個(gè)實(shí)體和每一個(gè)關(guān)系都表示成一個(gè)低維的向量,它的想法是對于每一個(gè)事實(shí),將其中的relation看成是從頭實(shí)體到尾實(shí)體的一個(gè)翻譯操作。
那么反應(yīng)到語義空間里,實(shí)際上它的基本思想是在低維的空間里對每一個(gè)三元組建立頭實(shí)體向量h加上關(guān)系relation的向量r等于尾實(shí)體向量t的目標(biāo)(h+r=t)。也就是對于任何一個(gè)三元組的向量關(guān)系滿足h+r=t的等式。通過不斷的優(yōu)化知識圖譜中的每一個(gè)事實(shí)的優(yōu)化目標(biāo),然后盡可能不斷的減小loss function的值,這樣就可以得到一個(gè)最優(yōu)的關(guān)于實(shí)體和向量之間的表示。
一旦得到了實(shí)體和關(guān)系的表示就可以做非常多的事情,比如說想要預(yù)測任意兩個(gè)實(shí)體間的關(guān)系,可以想象一下利用優(yōu)化的目標(biāo)(h+r=t),就可以用t減去h,去尋找t-h在這個(gè)空間里面最相鄰的那些relation,就可以認(rèn)為t-h之間的relation就是它的relation,也可以給定一個(gè)頭實(shí)體和關(guān)系去預(yù)測尾實(shí)體,如下面的任務(wù):
“想要知道電影《wall.e》有哪些風(fēng)格?”
WALL-E , _has_genre, ?
這個(gè)任務(wù)就可以用 h+r,在這個(gè)空間里去尋找去尋找跟h加r最相近的實(shí)體,我們就可以找到這些實(shí)體:
* animation * computer animation * comedy film * adventure film * science fiction * fantasy * stop motion * satire * drama * connecting然后預(yù)測walle和_has_genre風(fēng)格對應(yīng)的實(shí)體候選,這個(gè)過程定義為鏈接預(yù)測。鏈接預(yù)測被看成是評測不同的知識表示學(xué)習(xí)方法的評測任務(wù)。
下圖是TansE模型跟其他已有模型相比的優(yōu)勢:
首先從橫坐標(biāo)看,是分式表示的不同模型需要學(xué)習(xí)的參數(shù)數(shù)量,transe處于差不多最左側(cè),也就是說他需要學(xué)習(xí)的參數(shù)數(shù)量非常少,說明transe是一個(gè)非常高效的算法。
從縱軸上看TransE做鏈接預(yù)測的預(yù)言遠(yuǎn)遠(yuǎn)高于其他已有的方法。這說明它的模型復(fù)雜度非常小,同時(shí)它能夠得到一個(gè)非常好的預(yù)測效果,這其實(shí)是我們夢寐以求希望達(dá)到的。
那么接下來看一些transe的一些樣例:
如尋找任何一個(gè)實(shí)體在它的空間里最相鄰的實(shí)體,上圖中清華大學(xué)的一些相鄰實(shí)體,基本上都是類似大學(xué)的教育機(jī)構(gòu),如AC米蘭,他找到的基本上都是一些球隊(duì)的名字。這正好反映了利用transe在空間里很好的建立起實(shí)體的語義信息,對它們進(jìn)行表示。
上圖中china找到的都是一些國家和地區(qū)的名字,巴拉克奧巴馬找到的都是一些政治人物的名字,apple找到的是一些相關(guān)食品的名字,那么就說明transe可以非常好的建立這些實(shí)體的語義表示。
我們也可以看transe在尋找關(guān)系在空間里面相鄰的關(guān)系的樣例:
比如上圖中nationality找的關(guān)系基本上還是能夠比較好的反映這些關(guān)系之間的聯(lián)系。
如果用頭實(shí)體,一個(gè)relation去預(yù)測尾實(shí)體,下圖中標(biāo)紅的是預(yù)測準(zhǔn)確的尾實(shí)體。
可以看到有些任務(wù)可以做的非常好,比如china相鄰的地區(qū)或者是國家,基本上能夠把臺灣和日本排得比較靠前,比如實(shí)體(巴拉克奧巴馬)和(關(guān)系)他受教育的機(jī)構(gòu),雖然他把哥倫比亞大學(xué)排到了稍微靠后的位置,但是排到靠前的也都是一些大學(xué)名字。也就是說因?yàn)閠ranse比較高效,由于他建立空間頻繁,所以可能會有一定的錯(cuò)誤。
但是transe可以比較好的找到那些潛在的正確答案,我們未來還可以再去利用一些更精確的做法,然后在這個(gè)候選集合里快速的定位到那些準(zhǔn)確的答案。這是transe未來一個(gè)非常重要應(yīng)用可能性。
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的【转】自然语言系列学习之表示学习与知识获取(四)TransE的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 颧骨内推后脸会毁了吗
- 下一篇: 鼻子变挺的方法是什么