【知识图谱】知识抽取与挖掘(Ⅱ)
文章目錄
- 一、面向文本的知識(shí)抽取
- 1、DeepDive關(guān)系抽取實(shí)戰(zhàn)
- 2、開(kāi)放域關(guān)系抽取
- (1)信息抽取(IE)概述
- (2)信息抽取(IE)系統(tǒng)發(fā)展
- ① 第一代OpenIE系統(tǒng)
- ② 第二代OpenIE系統(tǒng):更深入研究句子的語(yǔ)法特性
- ③ 更多進(jìn)展
- (3)OpenIE的應(yīng)用
- 二、知識(shí)挖掘
- 1、實(shí)體消歧與鏈接
- (1)實(shí)體鏈接
- (2)基于 entity-mention 模型:生成概率模型
- (3)構(gòu)建實(shí)體關(guān)聯(lián)圖與標(biāo)簽傳播算法消歧
- (4)基于實(shí)體關(guān)聯(lián)圖和動(dòng)態(tài)PageRank算法消歧
- (5)小結(jié)
- 2、知識(shí)規(guī)則挖掘
- (1)主要方法
- (2)關(guān)聯(lián)規(guī)則挖掘(ARM)
- ① OWL2公理 =》關(guān)聯(lián)規(guī)則
- (3)統(tǒng)計(jì)關(guān)系學(xué)習(xí)(SRL)
- ① 基于圖的方法
- ② 路徑排序算法(Path Ranking Algorithm)
- 3、知識(shí)圖譜表示學(xué)習(xí)
- (1)知識(shí)圖譜表示學(xué)習(xí)的意義
- (2)TransE
- (3)TransE改進(jìn)
- ① 實(shí)體語(yǔ)義空間投影
- ② 屬性表示:分而治之
- (4)路徑的表示學(xué)習(xí)
- (5)加入規(guī)則的表示學(xué)習(xí)
- (6)多模態(tài)的表示學(xué)習(xí)
- (7)基于知識(shí)圖譜結(jié)構(gòu)的表示學(xué)習(xí)
- 總結(jié)與挑戰(zhàn)
一、面向文本的知識(shí)抽取
1、DeepDive關(guān)系抽取實(shí)戰(zhàn)
2、開(kāi)放域關(guān)系抽取
(1)信息抽取(IE)概述
IE的發(fā)展趨勢(shì)
主要系統(tǒng)
傳統(tǒng)IE和OpenIE互相補(bǔ)充:
- 可以按當(dāng)前知識(shí)庫(kù)的規(guī)范數(shù)據(jù),鏈接更多網(wǎng)絡(luò)數(shù)據(jù)。
- OpenIE所得到的三元組可以用擴(kuò)充知識(shí)庫(kù)。
(2)信息抽取(IE)系統(tǒng)發(fā)展
① 第一代OpenIE系統(tǒng)
TextRunner
- 抽取特征:NER、POS、Dependency Parsing
- 學(xué)習(xí)模型:Navie Bayes、CRF
WOE
- 將核心語(yǔ)法路徑也作為一個(gè)關(guān)系(涉及依存句法分析技術(shù))
示例
面臨的挑戰(zhàn)
- 關(guān)系不一致、不準(zhǔn)確(例如:從句)
E.g. Peter thought that John began his career as a scientist- True: (John, began, his career as a scientist)
- False: (Peter, began, his career as a scientist)
- 提取的關(guān)系不包含有效信息(例如:多元關(guān)系)
E.g. Al-Qaeda claimed responsibility for the 9/11 attacks- True: (AI-Qaeda, claimed responsibility, for the 9/11 attacks)
- False: (Al-Qaeda, claimed, responsibility)
② 第二代OpenIE系統(tǒng):更深入研究句子的語(yǔ)法特性
Reverb
- 基于動(dòng)詞的關(guān)系抽取:圍繞動(dòng)詞詞組抽取以下關(guān)系V | VP | VW * PV = verb particle? adv?W = (noun | adj | adv | pron | det)P = (prep | particle | inf.marker)
OLLIE
- 增加抽取名詞和形容詞中包含的語(yǔ)義信息;
示例:Microsoft co-founder Bill Gates spoke at ...
OLLIE可以抽取 (Bill Gates, be co-founder of, Microsoft),Reverb不可以 - 把 Reverb 中抽取的關(guān)系作為種子,來(lái)學(xué)習(xí)更多的模板。
ClauseIE
- 基于子句的抽取
- 將句子拆分成各個(gè)從句,定義從句類型
- 用語(yǔ)法規(guī)則和句法依賴判斷從句類型(Decision Tree)
- 過(guò)程:抽取從句集合->識(shí)別從句類型->抽取關(guān)系
③ 更多進(jìn)展
模型
- 聯(lián)合訓(xùn)練:訓(xùn)練一個(gè)統(tǒng)一模型,同時(shí)抽取實(shí)體和關(guān)系
- 模板匹配方法與深度學(xué)習(xí)方法相結(jié)合
- 矩陣因式分解 等所有好用的分類器
源數(shù)據(jù)
- 結(jié)構(gòu)化的知識(shí)庫(kù):可以依賴知識(shí)庫(kù)進(jìn)行更好的鏈接和特征抽取
(3)OpenIE的應(yīng)用
直接回答問(wèn)題:回答不同用戶提出的不同領(lǐng)域形如 (A1, ?, A2) 的問(wèn)題
作為其他NLP任務(wù)的特征
- 文本理解
- 相似度比較
二、知識(shí)挖掘
1、實(shí)體消歧與鏈接
實(shí)體消歧可以通過(guò)實(shí)體鏈接的方式完成
(1)實(shí)體鏈接
實(shí)體鏈接:給定一篇文本中的實(shí)體指稱(mention),確定這些指稱在給定知識(shí)庫(kù)中的目標(biāo)實(shí)體 (entity)
實(shí)體鏈接基本流程:
- 實(shí)體引用表: 從 mention 到 entity ID 的映射表。
- 示例:將喬丹與ID為2的實(shí)體的映射就是實(shí)體引用表中的一個(gè)示例。
- 作用:查找出某一實(shí)體在知識(shí)庫(kù)中對(duì)應(yīng)的別名、簡(jiǎn)稱、和同義詞等。(可能存在錯(cuò)誤)
實(shí)體的鏈接主要工作:
- 候選實(shí)體的生成(圖中藍(lán)色的即為候選實(shí)體)
- 候選實(shí)體的消歧(如區(qū)分出UCB的喬丹和籃球之神喬丹)。
(2)基于 entity-mention 模型:生成概率模型
簡(jiǎn)述:基于百科型知識(shí)庫(kù),適用于長(zhǎng)、短文本場(chǎng)景。
該模型的流程如上圖所示,其過(guò)程如下:假設(shè)有兩個(gè)句子,其中的實(shí)體分別為 Jordan(左) 和 Michael Jordan(右),即模型中的 Mention。問(wèn)題:要判斷這兩個(gè) Jordan 指的到底是 籃球大神 還是 ML大神 ? 這個(gè)問(wèn)題可以用公式表述為:
e=argmax?eP(m,e)P(m)e=arg\max_{e}\frac{P(m,e)}{P(m)}e=argemax?P(m)P(m,e)?
等價(jià)于:e=argmax?eP(m,e)=argmax?eP(e)P(s∣e)P(c∣e)e=arg\max_{e}P(m,e)=arg\max_{e}P(e)P(s|e)P(c|e)e=argemax?P(m,e)=argemax?P(e)P(s∣e)P(c∣e)
- 其中,eee 為entity(目標(biāo)實(shí)體),sss 為name,ccc 為mention。
- P(e)P(e)P(e) 表示該目標(biāo)實(shí)體的先驗(yàn)概率(實(shí)體流行度),
- P(s∣e)P(s|e)P(s∣e) 來(lái)自前面流程圖中的實(shí)體引用表,它表示s作為目標(biāo)實(shí)體e的毛文本出現(xiàn)的概率,s表示name。
- P(c∣e)P(c|e)P(c∣e) 表示的是翻譯概率,由目標(biāo)實(shí)體可以生成該mention的概率。
這樣可以將上述例子描述為:給定一個(gè) mmm 求生成 eee 的概率,此處即為給定一個(gè)文本“Jordan joins Bulls in 1984.”,其中提及為 “Jordan”,通過(guò)計(jì)算由 Jordan 生成 Michael Jeffrey Jordan 的概率和 Michael I. Jordan 的概率,概率大的為最終的結(jié)果。即,根據(jù) mention 所處的句子和上下文來(lái)判斷該 mention 是某一實(shí)體的概率。
(3)構(gòu)建實(shí)體關(guān)聯(lián)圖與標(biāo)簽傳播算法消歧
簡(jiǎn)述:基于百科型知識(shí)庫(kù),適用于長(zhǎng)文本場(chǎng)景。
實(shí)體關(guān)聯(lián)圖由三個(gè)部分組成:
- 每個(gè)頂點(diǎn) Vi=<mi,ei>V_i=<m_i,e_i>Vi?=<mi?,ei?>由 mention-entity 對(duì)構(gòu)成;
- 每個(gè)頂點(diǎn)得分 :代表實(shí)體指稱 mim_imi? 的目標(biāo)實(shí)體為 eie_iei? 概率可能性大小;
- 每條邊的權(quán)重:代表語(yǔ)義關(guān)系計(jì)算值,表明頂點(diǎn) ViV_iVi? 和 VjV_jVj? 的關(guān)聯(lián)程度。
基于實(shí)體關(guān)聯(lián)圖消歧具體過(guò)程如下:
- 1、頂點(diǎn)的得分的初始化
- 若頂點(diǎn) VVV 實(shí)體不存在歧義,則頂點(diǎn)得分設(shè)置為 1,如圖中最左邊的兩個(gè)結(jié)點(diǎn),即加粗表示;
- 若頂點(diǎn)中 mention 和 entity 滿足 p(e∣m)>=0.95\mathrm{p}(e|m)>=0.95p(e∣m)>=0.95,則頂點(diǎn)得分也設(shè)置為 1。
- 其余頂點(diǎn)的得分設(shè)置為 p(e∣m)\mathrm{p}(e|m)p(e∣m)。
- 2、邊的權(quán)重的初始化:基于深度語(yǔ)義關(guān)系模型
- 此處可以使用Wikipedia作為知識(shí)庫(kù),由于Wikipedia既包含結(jié)構(gòu)化數(shù)據(jù)有包括非結(jié)構(gòu)化數(shù)據(jù),很適合作為訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練。
- 符號(hào)定義:E: entity, R: relation, ET: entity type, D: word.
- 過(guò)程:首先通過(guò) Word Hashing 將上述變量轉(zhuǎn)換為特征向量(類似于embedding?),接著做多層非線性投影(如使用 sigmoidsigmoidsigmoid 等函數(shù))得到語(yǔ)義層 yyy;最后計(jì)算語(yǔ)義的相似度(如計(jì)算余弦相似度)作為兩個(gè)實(shí)體之間的權(quán)重。
- 3、基于圖的標(biāo)簽傳播算法
- 步驟:(1)構(gòu)造相似矩陣;(2)迭代傳播直到收斂算法結(jié)束。
- 若某些 mention 沒(méi)有多個(gè)候選實(shí)體,則可認(rèn)為它是 labeled;
- 例如:圖中 nba 可認(rèn)為是 labeled,而 new york 有兩個(gè)候選實(shí)體所以認(rèn)為是 unlabeled;
- 將 labeled 數(shù)據(jù)(一般多個(gè))的影響向外傳播,形成了一種協(xié)同傳播,相當(dāng)于構(gòu)建了一個(gè)相似矩陣;
對(duì)圖進(jìn)行 regulation,直到每一個(gè)標(biāo)簽都穩(wěn)定了,起到協(xié)同消歧的作用。
(4)基于實(shí)體關(guān)聯(lián)圖和動(dòng)態(tài)PageRank算法消歧
簡(jiǎn)述:基于百科型知識(shí)庫(kù),適用于長(zhǎng)文本場(chǎng)景。
基本流程:
- 基于RDF三元組的數(shù)據(jù)庫(kù),離線將RDF三元組轉(zhuǎn)換成實(shí)體向量(eg:woed2vec、知識(shí)圖譜表示學(xué)習(xí)等方法);
- 根據(jù)實(shí)體向量計(jì)算相似度,并構(gòu)建實(shí)體關(guān)聯(lián)圖;
- 使用基于圖的動(dòng)態(tài)PageRank算法更新圖。
候選實(shí)體語(yǔ)義相似度計(jì)算:
- 基本思想:先將 RDF 轉(zhuǎn)換成 vector,接著計(jì)算 vector 之間的相似度。
- Weisfeiler-Lehman Algorithm:將RDF圖轉(zhuǎn)換成子圖,再將子圖轉(zhuǎn)換成序列;
- Skip-gram model:詞向量。The Skip-gram model architecture usually tries to achieve the reverse of what the CBOW model does. It tries to predict the source context words (surrounding words) given a target word (the center word);
- 計(jì)算余弦相似度。
構(gòu)建實(shí)體關(guān)聯(lián)圖:
-
實(shí)體關(guān)聯(lián)圖的組成(四個(gè)部分):
- 實(shí)體指稱節(jié)點(diǎn)
- 候選實(shí)體節(jié)點(diǎn)
- 候選實(shí)體節(jié)點(diǎn)頂點(diǎn)值:代表該候選實(shí)體是實(shí)體指稱的目標(biāo)實(shí)體概率大小
- 候選實(shí)體節(jié)點(diǎn)邊權(quán)值:代表兩個(gè)候選實(shí)體間的轉(zhuǎn)化概率大小
-
構(gòu)建過(guò)程:
- 各候選實(shí)體節(jié)點(diǎn)值:初始化均相等,之后每一輪更新為上一輪PageRank得分。
- 候選實(shí)體節(jié)點(diǎn)邊權(quán)值:
- 計(jì)算兩個(gè)實(shí)體之間相似度大小(cos函數(shù)):
SM(eai,ebj)=cos(v(eai),v(ebj))SM(e^i_a,e^j_b)=cos(v(e^i_a),v(e^j_b))SM(eai?,ebj?)=cos(v(eai?),v(ebj?)) - 計(jì)算兩個(gè)候選實(shí)體之間轉(zhuǎn)換概率:
ETP(eai,ebj)=SM(eai,ebj)∑kη(v,vi)SM(eai,k)ETP(e^i_a,e^j_b)=\frac{SM(e^i_a,e^j_b)}{\sum_{kη}(v,v_i)SM(e^i_a,k)}ETP(eai?,ebj?)=∑kη?(v,vi?)SM(eai?,k)SM(eai?,ebj?)?
- 計(jì)算兩個(gè)實(shí)體之間相似度大小(cos函數(shù)):
更新實(shí)體關(guān)聯(lián)圖:
過(guò)程:首先根據(jù)PageRank算法計(jì)算未消歧實(shí)體指稱實(shí)體的得分,取得分最高的未消歧實(shí)體。而后刪除其他候選實(shí)體及相關(guān)的邊,更新圖中的邊權(quán)值。
其流程如下圖所示:
(5)小結(jié)
- 知識(shí)庫(kù)的變更:從百科知識(shí)庫(kù)發(fā)展到特定領(lǐng)域知識(shí)庫(kù);
- 實(shí)體鏈接的載體:從長(zhǎng)文本到短文本,甚至到列表和表格數(shù)據(jù);
- 候選實(shí)體生成追求同義詞、簡(jiǎn)稱、各種縮寫(xiě)等的準(zhǔn)備和高效從Mention到實(shí)體候選的查找;
- 實(shí)體消歧則考慮相似度計(jì)算的細(xì)化和聚合,以及基于圖計(jì)算協(xié)同消歧;
2、知識(shí)規(guī)則挖掘
(1)主要方法
- 基于歸納邏輯編程 (Inductive Logic Programming, ILP)的方法
- 使用精化算子 (refinement operators)
- 基于統(tǒng)計(jì)關(guān)系學(xué)習(xí) (Statistical Relational Learning, SRL)的方法
- 主要對(duì)貝葉斯網(wǎng)絡(luò)進(jìn)行擴(kuò)展
- 基于關(guān)聯(lián)規(guī)則挖掘 (Association Rule Mining,ARM)的方法
- 構(gòu)建事務(wù)表
- 挖掘規(guī)則
- 將規(guī)則轉(zhuǎn)換為OWL公理
- 構(gòu)建本體
(2)關(guān)聯(lián)規(guī)則挖掘(ARM)
① OWL2公理 =》關(guān)聯(lián)規(guī)則
| C∈D\mathrm{C}\in\mathrm{D}C∈D | {C}?{D}\{\mathrm{C}\}\Rightarrow\{\mathrm{D}\}{C}?{D} |
規(guī)則 {C}?{D}\{\mathrm{C}\}\Rightarrow\{\mathrm{D}\}{C}?{D} 意味著:概念 C 的實(shí)例同時(shí)屬于概念 D,規(guī)則的置信度越高,則公理 C∈D\mathrm{C}\in\mathrm{D}C∈D 的可能性越大。
支持度: 指某頻繁項(xiàng)集在整個(gè)數(shù)據(jù)集中的比例。假設(shè)數(shù)據(jù)集有 10 條記錄,包含{‘雞蛋’, ‘面包’}的有 5 條記錄,那么{‘雞蛋’, ‘面包’}的支持度就是 5/10 = 0.5。
置信度: 是針對(duì)某個(gè)關(guān)聯(lián)規(guī)則定義的。有關(guān)聯(lián)規(guī)則如 {‘雞蛋’, ‘面包’} -> {‘牛奶’},它的置信度計(jì)算公式為{‘雞蛋’,‘面包’,‘牛奶’}的支持度{‘雞蛋’,‘面包’}的支持度\frac{\{‘雞蛋’, ‘面包’, ‘牛奶’\}的支持度}{\{‘雞蛋’, ‘面包’\}的支持度}{‘雞蛋’,‘面包’}的支持度{‘雞蛋’,‘面包’,‘牛奶’}的支持度?。假設(shè){‘雞蛋’, ‘面包’, ‘牛奶’}的支持度為 0.45,{‘雞蛋’, ‘面包’}的支持度為 0.5,則{‘雞蛋’, ‘面包’} -> {‘牛奶’}的置信度為 0.45 / 0.5 = 0.9。
support(Airport, Building)=2
support(Airport)=2
confidence(Airport=>Building)=1
Airport ∈\in∈ Building
==》結(jié)果:可以推出Airport屬于Building。
(3)統(tǒng)計(jì)關(guān)系學(xué)習(xí)(SRL)
輸入:(實(shí)際上就是一個(gè)KG)
- 實(shí)體集合 {ei}\{e_i\}{ei?}
- 關(guān)系集合 {rk}\{r_k\}{rk?}
- 已知三元組集合 {(ei,rk,ej)}\{(e_i,r_k,e_j)\}{(ei?,rk?,ej?)}
目標(biāo):根據(jù)已知三元組對(duì)未知三元組成立的可能性進(jìn)行預(yù)測(cè),可用于知識(shí)圖譜補(bǔ)全。
ps:若 ei,eje_i,e_jei?,ej? 之間沒(méi)有申明關(guān)系 rkr_krk?,而計(jì)算出來(lái)的P(ei,rk,ej)\mathrm{P}(e_i, r_k, e_j)P(ei?,rk?,ej?)很高(如 P=1P=1P=1),則認(rèn)為可以補(bǔ)全這條關(guān)系。
① 基于圖的方法
基本思想:將連接兩個(gè)實(shí)體的路徑作為特征來(lái)預(yù)測(cè)其間可能存在的關(guān)系。
示例:下面的圖譜中的邊是一個(gè)有向的圖,為了使圖中可以形成路徑,在圖中定義了一些逆關(guān)系(如IsA?1IsA^{?1}IsA?1)。在這個(gè)圖中我們希望可以通過(guò)其他的三元組推出 Charlotte 也是一個(gè) Writer。
通用關(guān)系學(xué)習(xí)框架如下:
② 路徑排序算法(Path Ranking Algorithm)
在基于圖的方法中采用了的Relational Learning Algorithm是路徑排序算法(Path Ranking Algorithm)。
相關(guān)定義:
-
定義 G=(N,E,R)G=(N,E,R)G=(N,E,R):
- N: nodes (instances or concepts)
- E: edges
- R: edge types,note:r?1r^{-1}r?1——reverse of edge type rrr
-
接著定義Path type π:?r1,r2,...,rn?\pi:\langle r_1, r_2,..., r_n \rangleπ:?r1?,r2?,...,rn??
- eg:<HasFather, Profrssion>
實(shí)體對(duì)概念計(jì)算:
在前面給出的圖中,我們可以通過(guò)如 <HasFather, Profession> 的一些路徑將 Charlotte 和 Writer 進(jìn)行關(guān)聯(lián)起來(lái)。我們可以將在圖中已經(jīng)定義的節(jié)點(diǎn)、邊和邊的類型作為上下文來(lái)表示實(shí)體對(duì) (Charlotte Bonte, Writer),同時(shí)可以抽取出一些特征供后面學(xué)習(xí)。
對(duì)于這個(gè)實(shí)體對(duì)的概率可以通過(guò)如下公式計(jì)算:
score(s,t)=∑π∈QP(s→t;π)θπscore(s,t)=\sum_{\pi\in{Q}}P(s\to t;\pi)\theta_{\pi}score(s,t)=π∈Q∑?P(s→t;π)θπ?
- QQQ:是所有起始為 sss 終點(diǎn)為 ttt 的路徑集合(限制路徑的最大長(zhǎng)度為 nnn)
- θπ\(zhòng)theta_{\pi}θπ?:通過(guò)訓(xùn)練得到的路徑權(quán)重
路徑概率的計(jì)算:
P(s→t;π)=∑P(s→z;π′)P(z→t;r)P(s\to{t};\pi)=\sum P(s\to{z};\pi')P(z\to{t};r)P(s→t;π)=∑P(s→z;π′)P(z→t;r)
- PPP:將 sss 到 ttt 的路徑細(xì)化成 sss 到 zzz 和 zzz 到 ttt 兩條路徑,其中 zzz 到 ttt 是存在關(guān)系 rrr 的單跳路徑;
- 具體使用動(dòng)態(tài)規(guī)劃的方法求解
?
訓(xùn)練權(quán)重的計(jì)算(離線計(jì)算):
- 可以將路徑作為特征,進(jìn)行邏輯回歸來(lái)求得權(quán)重。
最后通過(guò)計(jì)算出來(lái)的 PPP 的大小判斷出 (Charlotte Bonte, Writer) 是成立的。
3、知識(shí)圖譜表示學(xué)習(xí)
(1)知識(shí)圖譜表示學(xué)習(xí)的意義
在自然語(yǔ)言處理中我們可以通過(guò) word embedding、sentence embedding甚至是document embedding等嵌入表示的方式來(lái)建立一個(gè)低維的統(tǒng)一的語(yǔ)義空間,使得語(yǔ)義可以計(jì)算。
在知識(shí)圖譜中也類似,具體應(yīng)用為:
-
實(shí)體預(yù)測(cè)與推理
給定一個(gè)實(shí)體和一個(gè)關(guān)系來(lái)預(yù)測(cè)另外一個(gè)實(shí)體。- eg:若給定一個(gè)電影實(shí)體《臥虎藏龍》和一個(gè)關(guān)系“觀影人群”,來(lái)預(yù)測(cè)另外一個(gè)實(shí)體是什么。
-
關(guān)系推理
-
推薦系統(tǒng)
(2)TransE
基本思想:TransE(Translation Embedding)是基于實(shí)體和關(guān)系的分布式向量表示,將三元組(head,relation,tail)看成向量 hhh 通過(guò) rrr 翻譯到 ttt 的過(guò)程,通過(guò)不斷的調(diào)整向量 h、r和th、r 和 th、r和t,使 h+rh+rh+r 盡可能與 ttt 相等。
- 示例:如給出三元組 Capital of(Beijing, China) 和 Capital of(Pairs, France),則可以得出如下向量表示:
Beijing?China=Pairs?France=Capital of
TransE的優(yōu)化目標(biāo):
- 勢(shì)能函數(shù):f(h,r,t)=∣∣h+r?t∣∣2f(h,r,t)=||h+r-t||_2f(h,r,t)=∣∣h+r?t∣∣2?
f(Beijing,Capital?of,China)<f(Shanghai,Capital?of,China)f(Beijing,Capital?of,China)<f(Shanghai,Capital?of,China)f(Beijing,Capital?of,China)<f(Shanghai,Capital?of,China) - 目標(biāo)函數(shù):最小化整體勢(shì)能。即使知識(shí)庫(kù)中定義的勢(shì)能比不在知識(shí)庫(kù)中的三元組的勢(shì)能低。
min?∑(h,r,t)∈Δ∑(h′,r′,t′)∈Δ′[γ+f(h,r,t)?f(h′,r′,t′)]+\min\sum_{(h,r,t)\in\Delta}\sum_{(h',r',t')\in\Delta'}[\gamma+f(h,r,t)-f(h',r',t')]_+min(h,r,t)∈Δ∑?(h′,r′,t′)∈Δ′∑?[γ+f(h,r,t)?f(h′,r′,t′)]+?
其中,[x]+=max?(0,x)[x]_+=\max(0,x)[x]+?=max(0,x)
TransE的缺陷:
- 無(wú)法處理一對(duì)多、多對(duì)一和多對(duì)多問(wèn)題。
- 關(guān)系的性質(zhì)。
(3)TransE改進(jìn)
① 實(shí)體語(yǔ)義空間投影
TransH:將頭尾實(shí)體映射到一個(gè)超平面
TransR:通過(guò)矩陣變換,將頭、尾實(shí)體映射到一個(gè)新的語(yǔ)義空間,使得這個(gè)空間的關(guān)系盡量保持一對(duì)一。
② 屬性表示:分而治之
對(duì)于知識(shí)圖譜的邊既可以是屬性(data type property)也可以是關(guān)系(object property)。對(duì)于屬性來(lái)說(shuō),很容易產(chǎn)生一對(duì)多(如喜好)和多對(duì)一(性別),若將關(guān)系和屬性的表示會(huì)出現(xiàn)困難。
分而治之:將對(duì)屬性的學(xué)習(xí)和對(duì)關(guān)系的學(xué)習(xí)做了一個(gè)區(qū)分,同時(shí)基于屬性的學(xué)習(xí)可以推進(jìn)對(duì)關(guān)系的學(xué)習(xí)。
(4)路徑的表示學(xué)習(xí)
PRA vs. TransE: 兩種方法存在互補(bǔ)性
- PRA:可解釋性強(qiáng);能夠從數(shù)據(jù)中挖掘出推理規(guī)則;難以處理稀疏關(guān)系;路徑特征提取效率不高。
- TransE:能夠表示數(shù)據(jù)中蘊(yùn)含的潛在特征;參數(shù)較少,計(jì)算效率較高;模型簡(jiǎn)單,難以處理多對(duì)一、一對(duì)多、多對(duì)多的復(fù)雜關(guān)系可解釋性不強(qiáng)。
評(píng)價(jià)指標(biāo):
- 三元組分類任務(wù):accuracy
- 鏈接預(yù)測(cè)任務(wù):hits10
(5)加入規(guī)則的表示學(xué)習(xí)
學(xué)習(xí)推理的規(guī)則:推理的規(guī)則似然最大化。
(6)多模態(tài)的表示學(xué)習(xí)
助力Zero-Shot和長(zhǎng)尾鏈接預(yù)測(cè):
- 對(duì)于在KG中出現(xiàn)很少,甚至沒(méi)有出現(xiàn)過(guò),而在長(zhǎng)文本中出現(xiàn)較多的長(zhǎng)尾數(shù)據(jù)來(lái)做實(shí)體鏈接預(yù)測(cè)。
- hsh_shs?:KG中結(jié)構(gòu)的學(xué)習(xí)
- hdh_dhd?:在文本中的描述的學(xué)習(xí),這里使用了Bi-LSTM模型
(7)基于知識(shí)圖譜結(jié)構(gòu)的表示學(xué)習(xí)
考慮哪些數(shù)據(jù)可以用來(lái)描述實(shí)體:
- Neighbor Context:實(shí)體周?chē)膶?shí)體;
- Path Context:從一個(gè)實(shí)體到這個(gè)實(shí)體的聯(lián)通路徑;
Triple Context = Triple + Path Context + Neighbor Context
- 勢(shì)能函數(shù)
f(h,r,t)=P((h,r,t)∣C(h,r,t);Θ)f(h,r,t)=P((h,r,t)∣C(h,r,t);Θ)f(h,r,t)=P((h,r,t)|C(h,r,t);\Theta) f(h,r,t)=P((h,r,t)∣C(h,r,t);Θ)f(h,r,t)=P((h,r,t)∣C(h,r,t);Θ)f(h,r,t)=P((h,r,t)∣C(h,r,t);Θ)
f(h,r,t)=P(h∣C(h,r,t);Θ)=P(t∣C(h,r,t),h;Θ)=P(r∣C(h,r,t),h,t;Θ)\begin{aligned}f(h,r,t)&=P(h|C(h,r,t);\Theta) \\ &=P(t|C(h,r,t),h;\Theta) \\ &=P(r|C(h,r,t),h,t;\Theta)\end{aligned}f(h,r,t)?=P(h∣C(h,r,t);Θ)=P(t∣C(h,r,t),h;Θ)=P(r∣C(h,r,t),h,t;Θ)?
f(h,r,t)≈P(h∣CN(h);Θ)?P(t∣CP(h,t),h;Θ)?P(r∣h,t;Θ)f(h,r,t)\approx P(h|C_N(h);\Theta) \cdot P(t|C_P(h,t),h;\Theta) \cdot P(r|h,t;\Theta)f(h,r,t)≈P(h∣CN?(h);Θ)?P(t∣CP?(h,t),h;Θ)?P(r∣h,t;Θ)
- 目標(biāo)函數(shù)
P(K∣Θ)=Π(h,r,t)∈Kf(h,r,t)P(\mathcal{K}|\Theta) = \Pi_{(h,r,t)\in \mathcal{K}}f(h,r,t)P(K∣Θ)=Π(h,r,t)∈K?f(h,r,t)
總結(jié)與挑戰(zhàn)
- 融合更多本體特征的知識(shí)圖譜表示學(xué)習(xí)算法研發(fā)
- 知識(shí)圖譜表示學(xué)習(xí)與本體推理之間的等價(jià)性分析
- 知識(shí)圖譜學(xué)習(xí)與網(wǎng)絡(luò)表示學(xué)習(xí)之間的異同
- 神經(jīng)符號(hào)系統(tǒng)
總結(jié)
以上是生活随笔為你收集整理的【知识图谱】知识抽取与挖掘(Ⅱ)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【知识图谱】知识抽取与挖掘(I)
- 下一篇: 【知识图谱】知识存储