當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【知识图谱】知识抽取与挖掘（Ⅱ）

發(fā)布時(shí)間：2025/3/19 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了【知识图谱】知识抽取与挖掘（Ⅱ）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

一、面向文本的知識(shí)抽取
- 1、DeepDive關(guān)系抽取實(shí)戰(zhàn)
- 2、開(kāi)放域關(guān)系抽取
- - （1）信息抽取（IE）概述
  - （2）信息抽取（IE）系統(tǒng)發(fā)展
  - - ① 第一代OpenIE系統(tǒng)
    - ② 第二代OpenIE系統(tǒng)：更深入研究句子的語(yǔ)法特性
    - ③ 更多進(jìn)展
  - （3）OpenIE的應(yīng)用
二、知識(shí)挖掘
- 1、實(shí)體消歧與鏈接
- - （1）實(shí)體鏈接
  - （2）基于 entity-mention 模型：生成概率模型
  - （3）構(gòu)建實(shí)體關(guān)聯(lián)圖與標(biāo)簽傳播算法消歧
  - （4）基于實(shí)體關(guān)聯(lián)圖和動(dòng)態(tài)PageRank算法消歧
  - （5）小結(jié)
- 2、知識(shí)規(guī)則挖掘
- - （1）主要方法
  - （2）關(guān)聯(lián)規(guī)則挖掘（ARM）
  - - ① OWL2公理 =》關(guān)聯(lián)規(guī)則
  - （3）統(tǒng)計(jì)關(guān)系學(xué)習(xí)（SRL）
  - - ① 基于圖的方法
    - ② 路徑排序算法（Path Ranking Algorithm）
- 3、知識(shí)圖譜表示學(xué)習(xí)
- - （1）知識(shí)圖譜表示學(xué)習(xí)的意義
  - （2）TransE
  - （3）TransE改進(jìn)
  - - ① 實(shí)體語(yǔ)義空間投影
    - ② 屬性表示：分而治之
  - （4）路徑的表示學(xué)習(xí)
  - （5）加入規(guī)則的表示學(xué)習(xí)
  - （6）多模態(tài)的表示學(xué)習(xí)
  - （7）基于知識(shí)圖譜結(jié)構(gòu)的表示學(xué)習(xí)
總結(jié)與挑戰(zhàn)

一、面向文本的知識(shí)抽取

1、DeepDive關(guān)系抽取實(shí)戰(zhàn)

2、開(kāi)放域關(guān)系抽取

（1）信息抽取（IE）概述

IE的發(fā)展趨勢(shì)

主要系統(tǒng)

傳統(tǒng)IE和OpenIE互相補(bǔ)充：

可以按當(dāng)前知識(shí)庫(kù)的規(guī)范數(shù)據(jù)，鏈接更多網(wǎng)絡(luò)數(shù)據(jù)。
OpenIE所得到的三元組可以用擴(kuò)充知識(shí)庫(kù)。

（2）信息抽取（IE）系統(tǒng)發(fā)展

① 第一代OpenIE系統(tǒng)

TextRunner

抽取特征：NER、POS、Dependency Parsing
學(xué)習(xí)模型：Navie Bayes、CRF

WOE

將核心語(yǔ)法路徑也作為一個(gè)關(guān)系（涉及依存句法分析技術(shù)）

示例

面臨的挑戰(zhàn)

關(guān)系不一致、不準(zhǔn)確（例如：從句）
E.g. Peter thought that John began his career as a scientist
- True: (John, began, his career as a scientist)
- False: (Peter, began, his career as a scientist)
提取的關(guān)系不包含有效信息（例如：多元關(guān)系）
E.g. Al-Qaeda claimed responsibility for the 9/11 attacks
- True: (AI-Qaeda, claimed responsibility, for the 9/11 attacks)
- False: (Al-Qaeda, claimed, responsibility)

② 第二代OpenIE系統(tǒng)：更深入研究句子的語(yǔ)法特性

Reverb

基于動(dòng)詞的關(guān)系抽取：圍繞動(dòng)詞詞組抽取以下關(guān)系V | VP | VW * PV = verb particle? adv?W = (noun | adj | adv | pron | det)P = (prep | particle | inf.marker)

OLLIE

增加抽取名詞和形容詞中包含的語(yǔ)義信息；
示例：Microsoft co-founder Bill Gates spoke at ...
OLLIE可以抽取 (Bill Gates, be co-founder of, Microsoft)，Reverb不可以
把 Reverb 中抽取的關(guān)系作為種子，來(lái)學(xué)習(xí)更多的模板。

ClauseIE

基于子句的抽取
- 將句子拆分成各個(gè)從句，定義從句類型
- 用語(yǔ)法規(guī)則和句法依賴判斷從句類型（Decision Tree）
過(guò)程：抽取從句集合->識(shí)別從句類型->抽取關(guān)系

③ 更多進(jìn)展

模型

聯(lián)合訓(xùn)練：訓(xùn)練一個(gè)統(tǒng)一模型，同時(shí)抽取實(shí)體和關(guān)系
模板匹配方法與深度學(xué)習(xí)方法相結(jié)合
矩陣因式分解等所有好用的分類器

源數(shù)據(jù)

結(jié)構(gòu)化的知識(shí)庫(kù)：可以依賴知識(shí)庫(kù)進(jìn)行更好的鏈接和特征抽取

（3）OpenIE的應(yīng)用

直接回答問(wèn)題：回答不同用戶提出的不同領(lǐng)域形如 (A1, ?, A2) 的問(wèn)題

作為其他NLP任務(wù)的特征

文本理解
相似度比較

二、知識(shí)挖掘

1、實(shí)體消歧與鏈接

實(shí)體消歧可以通過(guò)實(shí)體鏈接的方式完成

（1）實(shí)體鏈接

實(shí)體鏈接：給定一篇文本中的實(shí)體指稱(mention),確定這些指稱在給定知識(shí)庫(kù)中的目標(biāo)實(shí)體 (entity)

實(shí)體鏈接基本流程：

實(shí)體引用表：從 mention 到 entity ID 的映射表。
示例：將喬丹與ID為2的實(shí)體的映射就是實(shí)體引用表中的一個(gè)示例。
作用：查找出某一實(shí)體在知識(shí)庫(kù)中對(duì)應(yīng)的別名、簡(jiǎn)稱、和同義詞等。（可能存在錯(cuò)誤）

實(shí)體的鏈接主要工作：

候選實(shí)體的生成（圖中藍(lán)色的即為候選實(shí)體）
候選實(shí)體的消歧（如區(qū)分出UCB的喬丹和籃球之神喬丹）。

（2）基于 entity-mention 模型：生成概率模型

簡(jiǎn)述：基于百科型知識(shí)庫(kù)，適用于長(zhǎng)、短文本場(chǎng)景。

該模型的流程如上圖所示，其過(guò)程如下：假設(shè)有兩個(gè)句子，其中的實(shí)體分別為 Jordan(左) 和 Michael Jordan(右)，即模型中的 Mention。問(wèn)題：要判斷這兩個(gè) Jordan 指的到底是籃球大神還是 ML大神？這個(gè)問(wèn)題可以用公式表述為:

$e=argmax?eP(m,e)P(m)e=arg\max_{e}\frac{P(m,e)}{P(m)}$
等價(jià)于: $e=arg\max_{e}P(m,e)=arg\max_{e}P(e)P(s|e)P(c|e)$

其中， $e$ 為entity（目標(biāo)實(shí)體）， $s$ 為name， $c$ 為mention。
- $P (e)$ 表示該目標(biāo)實(shí)體的先驗(yàn)概率（實(shí)體流行度），
- $P (s ∣ e)$ 來(lái)自前面流程圖中的實(shí)體引用表,它表示s作為目標(biāo)實(shí)體e的毛文本出現(xiàn)的概率，s表示name。
- $P (c ∣ e)$ 表示的是翻譯概率，由目標(biāo)實(shí)體可以生成該mention的概率。

這樣可以將上述例子描述為：給定一個(gè) $m$ 求生成 $e$ 的概率，此處即為給定一個(gè)文本“Jordan joins Bulls in 1984.”，其中提及為 “Jordan”，通過(guò)計(jì)算由 Jordan 生成 Michael Jeffrey Jordan 的概率和 Michael I. Jordan 的概率，概率大的為最終的結(jié)果。即，根據(jù) mention 所處的句子和上下文來(lái)判斷該 mention 是某一實(shí)體的概率。

（3）構(gòu)建實(shí)體關(guān)聯(lián)圖與標(biāo)簽傳播算法消歧

簡(jiǎn)述：基于百科型知識(shí)庫(kù)，適用于長(zhǎng)文本場(chǎng)景。

實(shí)體關(guān)聯(lián)圖由三個(gè)部分組成：

每個(gè)頂點(diǎn) $V_i=<m_i,e_i>$ 由 mention-entity 對(duì)構(gòu)成；
每個(gè)頂點(diǎn)得分 ：代表實(shí)體指稱 $m_i$ 的目標(biāo)實(shí)體為 $e_i$ 概率可能性大小；
每條邊的權(quán)重：代表語(yǔ)義關(guān)系計(jì)算值，表明頂點(diǎn) $V_i$ 和 $V_j$ 的關(guān)聯(lián)程度。

基于實(shí)體關(guān)聯(lián)圖消歧具體過(guò)程如下：

1、頂點(diǎn)的得分的初始化
- 若頂點(diǎn) $V$ 實(shí)體不存在歧義，則頂點(diǎn)得分設(shè)置為 1，如圖中最左邊的兩個(gè)結(jié)點(diǎn)，即加粗表示；
- 若頂點(diǎn)中 mention 和 entity 滿足 $p(e∣m)>=0.95\mathrm{p}(e|m)>=0.95$ ，則頂點(diǎn)得分也設(shè)置為 1。
- 其余頂點(diǎn)的得分設(shè)置為 $p(e∣m)\mathrm{p}(e|m)$ 。
2、邊的權(quán)重的初始化：基于深度語(yǔ)義關(guān)系模型
- 此處可以使用Wikipedia作為知識(shí)庫(kù)，由于Wikipedia既包含結(jié)構(gòu)化數(shù)據(jù)有包括非結(jié)構(gòu)化數(shù)據(jù)，很適合作為訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練。
- 符號(hào)定義：E: entity, R: relation, ET: entity type, D: word.
- 過(guò)程：首先通過(guò) Word Hashing 將上述變量轉(zhuǎn)換為特征向量（類似于embedding？），接著做多層非線性投影（如使用 $s i g m o i d$ 等函數(shù)）得到語(yǔ)義層 $y$ ；最后計(jì)算語(yǔ)義的相似度（如計(jì)算余弦相似度）作為兩個(gè)實(shí)體之間的權(quán)重。
3、基于圖的標(biāo)簽傳播算法
- 步驟：（1）構(gòu)造相似矩陣；（2）迭代傳播直到收斂算法結(jié)束。
- 若某些 mention 沒(méi)有多個(gè)候選實(shí)體，則可認(rèn)為它是 labeled；
  - 例如：圖中 nba 可認(rèn)為是 labeled，而 new york 有兩個(gè)候選實(shí)體所以認(rèn)為是 unlabeled；
- 將 labeled 數(shù)據(jù)（一般多個(gè)）的影響向外傳播，形成了一種協(xié)同傳播，相當(dāng)于構(gòu)建了一個(gè)相似矩陣；
  對(duì)圖進(jìn)行 regulation，直到每一個(gè)標(biāo)簽都穩(wěn)定了，起到協(xié)同消歧的作用。

（4）基于實(shí)體關(guān)聯(lián)圖和動(dòng)態(tài)PageRank算法消歧

簡(jiǎn)述：基于百科型知識(shí)庫(kù)，適用于長(zhǎng)文本場(chǎng)景。

基本流程：

基于RDF三元組的數(shù)據(jù)庫(kù)，離線將RDF三元組轉(zhuǎn)換成實(shí)體向量（eg：woed2vec、知識(shí)圖譜表示學(xué)習(xí)等方法）；
根據(jù)實(shí)體向量計(jì)算相似度，并構(gòu)建實(shí)體關(guān)聯(lián)圖；
使用基于圖的動(dòng)態(tài)PageRank算法更新圖。

候選實(shí)體語(yǔ)義相似度計(jì)算：

基本思想：先將 RDF 轉(zhuǎn)換成 vector，接著計(jì)算 vector 之間的相似度。

Weisfeiler-Lehman Algorithm：將RDF圖轉(zhuǎn)換成子圖，再將子圖轉(zhuǎn)換成序列；
Skip-gram model：詞向量。The Skip-gram model architecture usually tries to achieve the reverse of what the CBOW model does. It tries to predict the source context words (surrounding words) given a target word (the center word);
計(jì)算余弦相似度。

構(gòu)建實(shí)體關(guān)聯(lián)圖：

實(shí)體關(guān)聯(lián)圖的組成（四個(gè)部分）：
- 實(shí)體指稱節(jié)點(diǎn)
- 候選實(shí)體節(jié)點(diǎn)
- 候選實(shí)體節(jié)點(diǎn)頂點(diǎn)值：代表該候選實(shí)體是實(shí)體指稱的目標(biāo)實(shí)體概率大小
- 候選實(shí)體節(jié)點(diǎn)邊權(quán)值：代表兩個(gè)候選實(shí)體間的轉(zhuǎn)化概率大小
構(gòu)建過(guò)程：
- 各候選實(shí)體節(jié)點(diǎn)值：初始化均相等，之后每一輪更新為上一輪PageRank得分。
- 候選實(shí)體節(jié)點(diǎn)邊權(quán)值：
  - 計(jì)算兩個(gè)實(shí)體之間相似度大小（cos函數(shù)）：
    $SM(eai,ebj)=cos(v(eai),v(ebj))SM(e^i_a,e^j_b)=cos(v(e^i_a),v(e^j_b))$
  - 計(jì)算兩個(gè)候選實(shí)體之間轉(zhuǎn)換概率：
    $ETP(eai,ebj)=SM(eai,ebj)∑kη(v,vi)SM(eai,k)ETP(e^i_a,e^j_b)=\frac{SM(e^i_a,e^j_b)}{\sum_{kη}(v,v_i)SM(e^i_a,k)}$

更新實(shí)體關(guān)聯(lián)圖：

過(guò)程：首先根據(jù)PageRank算法計(jì)算未消歧實(shí)體指稱實(shí)體的得分，取得分最高的未消歧實(shí)體。而后刪除其他候選實(shí)體及相關(guān)的邊，更新圖中的邊權(quán)值。

其流程如下圖所示：

（5）小結(jié)

知識(shí)庫(kù)的變更：從百科知識(shí)庫(kù)發(fā)展到特定領(lǐng)域知識(shí)庫(kù)；
實(shí)體鏈接的載體：從長(zhǎng)文本到短文本，甚至到列表和表格數(shù)據(jù)；
候選實(shí)體生成追求同義詞、簡(jiǎn)稱、各種縮寫(xiě)等的準(zhǔn)備和高效從Mention到實(shí)體候選的查找；
實(shí)體消歧則考慮相似度計(jì)算的細(xì)化和聚合，以及基于圖計(jì)算協(xié)同消歧；

2、知識(shí)規(guī)則挖掘

（1）主要方法

基于歸納邏輯編程 (Inductive Logic Programming, ILP)的方法
- 使用精化算子 (refinement operators)
基于統(tǒng)計(jì)關(guān)系學(xué)習(xí) (Statistical Relational Learning, SRL)的方法
- 主要對(duì)貝葉斯網(wǎng)絡(luò)進(jìn)行擴(kuò)展
基于關(guān)聯(lián)規(guī)則挖掘 (Association Rule Mining，ARM)的方法
構(gòu)建事務(wù)表
挖掘規(guī)則
將規(guī)則轉(zhuǎn)換為OWL公理
構(gòu)建本體

（2）關(guān)聯(lián)規(guī)則挖掘（ARM）

① OWL2公理 =》關(guān)聯(lián)規(guī)則

公理（Axiom）規(guī)則（rules）

C∈D\mathrm{C}\in\mathrm{D}

{C}?{D}\{\mathrm{C}\}\Rightarrow\{\mathrm{D}\}

規(guī)則 ${C}?{D}\{\mathrm{C}\}\Rightarrow\{\mathrm{D}\}$ 意味著：概念 C 的實(shí)例同時(shí)屬于概念 D，規(guī)則的置信度越高，則公理 $C∈D\mathrm{C}\in\mathrm{D}$ 的可能性越大。

支持度：指某頻繁項(xiàng)集在整個(gè)數(shù)據(jù)集中的比例。假設(shè)數(shù)據(jù)集有 10 條記錄，包含{‘雞蛋’, ‘面包’}的有 5 條記錄，那么{‘雞蛋’, ‘面包’}的支持度就是 5/10 = 0.5。
置信度：是針對(duì)某個(gè)關(guān)聯(lián)規(guī)則定義的。有關(guān)聯(lián)規(guī)則如 {‘雞蛋’, ‘面包’} -> {‘牛奶’}，它的置信度計(jì)算公式為 ${‘雞蛋’,‘面包’,‘牛奶’}的支持度{‘雞蛋’,‘面包’}的支持度\frac{\{‘雞蛋’, ‘面包’, ‘牛奶’\}的支持度}{\{‘雞蛋’, ‘面包’\}的支持度}$ 。假設(shè){‘雞蛋’, ‘面包’, ‘牛奶’}的支持度為 0.45，{‘雞蛋’, ‘面包’}的支持度為 0.5，則{‘雞蛋’, ‘面包’} -> {‘牛奶’}的置信度為 0.45 / 0.5 = 0.9。

support(Airport, Building)=2
support(Airport)=2
confidence(Airport=>Building)=1
Airport $∈\in$ Building

==》結(jié)果：可以推出Airport屬于Building。

（3）統(tǒng)計(jì)關(guān)系學(xué)習(xí)（SRL）

輸入：（實(shí)際上就是一個(gè)KG）

實(shí)體集合 ${e_i\}$
關(guān)系集合 ${r_k\}$
已知三元組集合 ${(e_i,r_k,e_j)\}$

目標(biāo)：根據(jù)已知三元組對(duì)未知三元組成立的可能性進(jìn)行預(yù)測(cè)，可用于知識(shí)圖譜補(bǔ)全。
ps：若 $e_i,e_j$ 之間沒(méi)有申明關(guān)系 $r_k$ ，而計(jì)算出來(lái)的 $P(ei,rk,ej)\mathrm{P}(e_i, r_k, e_j)$ 很高（如 $P = 1$ ），則認(rèn)為可以補(bǔ)全這條關(guān)系。

① 基于圖的方法

基本思想：將連接兩個(gè)實(shí)體的路徑作為特征來(lái)預(yù)測(cè)其間可能存在的關(guān)系。

示例：下面的圖譜中的邊是一個(gè)有向的圖，為了使圖中可以形成路徑，在圖中定義了一些逆關(guān)系（如 $IsA^{?1}$ ）。在這個(gè)圖中我們希望可以通過(guò)其他的三元組推出 Charlotte 也是一個(gè) Writer。

通用關(guān)系學(xué)習(xí)框架如下：

② 路徑排序算法（Path Ranking Algorithm）

在基于圖的方法中采用了的Relational Learning Algorithm是路徑排序算法（Path Ranking Algorithm）。
相關(guān)定義：

定義 $G = (N, E, R)$ ：
- N: nodes (instances or concepts)
- E: edges
- R: edge types，note： $r^{-1}$ ——reverse of edge type $r$
接著定義Path type $π:?r1,r2,...,rn?\pi:\langle r_1, r_2,..., r_n \rangle$
- eg：<HasFather, Profrssion>

實(shí)體對(duì)概念計(jì)算：
在前面給出的圖中，我們可以通過(guò)如 <HasFather, Profession> 的一些路徑將 Charlotte 和 Writer 進(jìn)行關(guān)聯(lián)起來(lái)。我們可以將在圖中已經(jīng)定義的節(jié)點(diǎn)、邊和邊的類型作為上下文來(lái)表示實(shí)體對(duì) (Charlotte Bonte, Writer)，同時(shí)可以抽取出一些特征供后面學(xué)習(xí)。
對(duì)于這個(gè)實(shí)體對(duì)的概率可以通過(guò)如下公式計(jì)算：
$score(s,t)=∑π∈QP(s→t;π)θπscore(s,t)=\sum_{\pi\in{Q}}P(s\to t;\pi)\theta_{\pi}$

$Q$ ：是所有起始為 $s$ 終點(diǎn)為 $t$ 的路徑集合（限制路徑的最大長(zhǎng)度為 $n$ ）
$θπ\(zhòng)theta_{\pi}$ ：通過(guò)訓(xùn)練得到的路徑權(quán)重

路徑概率的計(jì)算：
$P(s→t;π)=∑P(s→z;π′)P(z→t;r)P(s\to{t};\pi)=\sum P(s\to{z};\pi')P(z\to{t};r)$

$P$ ：將 $s$ 到 $t$ 的路徑細(xì)化成 $s$ 到 $z$ 和 $z$ 到 $t$ 兩條路徑，其中 $z$ 到 $t$ 是存在關(guān)系 $r$ 的單跳路徑；
具體使用動(dòng)態(tài)規(guī)劃的方法求解
?

訓(xùn)練權(quán)重的計(jì)算（離線計(jì)算）：

可以將路徑作為特征，進(jìn)行邏輯回歸來(lái)求得權(quán)重。

最后通過(guò)計(jì)算出來(lái)的 $P$ 的大小判斷出 (Charlotte Bonte, Writer) 是成立的。

3、知識(shí)圖譜表示學(xué)習(xí)

（1）知識(shí)圖譜表示學(xué)習(xí)的意義

在自然語(yǔ)言處理中我們可以通過(guò) word embedding、sentence embedding甚至是document embedding等嵌入表示的方式來(lái)建立一個(gè)低維的統(tǒng)一的語(yǔ)義空間，使得語(yǔ)義可以計(jì)算。
在知識(shí)圖譜中也類似，具體應(yīng)用為：

實(shí)體預(yù)測(cè)與推理
給定一個(gè)實(shí)體和一個(gè)關(guān)系來(lái)預(yù)測(cè)另外一個(gè)實(shí)體。
- eg：若給定一個(gè)電影實(shí)體《臥虎藏龍》和一個(gè)關(guān)系“觀影人群”，來(lái)預(yù)測(cè)另外一個(gè)實(shí)體是什么。
關(guān)系推理
推薦系統(tǒng)

（2）TransE

基本思想：TransE（Translation Embedding）是基于實(shí)體和關(guān)系的分布式向量表示，將三元組(head，relation，tail)看成向量 $h$ 通過(guò) $r$ 翻譯到 $t$ 的過(guò)程，通過(guò)不斷的調(diào)整向量 $h 、 r 和 t$ ，使 $h + r$ 盡可能與 $t$ 相等。

示例：如給出三元組 Capital of(Beijing, China) 和 Capital of(Pairs, France)，則可以得出如下向量表示：
Beijing?China=Pairs?France=Capital of

TransE的優(yōu)化目標(biāo)：

勢(shì)能函數(shù)： $f(h,r,t)=||h+r-t||_2$
$f (B e i j i n g, C a p i t a l ? o f, C h i n a) < f (S h a n g h a i, C a p i t a l ? o f, C h i n a)$
目標(biāo)函數(shù)：最小化整體勢(shì)能。即使知識(shí)庫(kù)中定義的勢(shì)能比不在知識(shí)庫(kù)中的三元組的勢(shì)能低。
$min?∑(h,r,t)∈Δ∑(h′,r′,t′)∈Δ′[γ+f(h,r,t)?f(h′,r′,t′)]+\min\sum_{(h,r,t)\in\Delta}\sum_{(h',r',t')\in\Delta'}[\gamma+f(h,r,t)-f(h',r',t')]_+$
其中， $x]_+=\max(0,x)$

TransE的缺陷：

無(wú)法處理一對(duì)多、多對(duì)一和多對(duì)多問(wèn)題。
關(guān)系的性質(zhì)。

（3）TransE改進(jìn)

① 實(shí)體語(yǔ)義空間投影

TransH：將頭尾實(shí)體映射到一個(gè)超平面

TransR：通過(guò)矩陣變換，將頭、尾實(shí)體映射到一個(gè)新的語(yǔ)義空間，使得這個(gè)空間的關(guān)系盡量保持一對(duì)一。

② 屬性表示：分而治之

對(duì)于知識(shí)圖譜的邊既可以是屬性（data type property）也可以是關(guān)系（object property）。對(duì)于屬性來(lái)說(shuō)，很容易產(chǎn)生一對(duì)多（如喜好）和多對(duì)一（性別），若將關(guān)系和屬性的表示會(huì)出現(xiàn)困難。
分而治之：將對(duì)屬性的學(xué)習(xí)和對(duì)關(guān)系的學(xué)習(xí)做了一個(gè)區(qū)分，同時(shí)基于屬性的學(xué)習(xí)可以推進(jìn)對(duì)關(guān)系的學(xué)習(xí)。

（4）路徑的表示學(xué)習(xí)

PRA vs. TransE： 兩種方法存在互補(bǔ)性

PRA：可解釋性強(qiáng)；能夠從數(shù)據(jù)中挖掘出推理規(guī)則；難以處理稀疏關(guān)系；路徑特征提取效率不高。
TransE：能夠表示數(shù)據(jù)中蘊(yùn)含的潛在特征；參數(shù)較少，計(jì)算效率較高；模型簡(jiǎn)單，難以處理多對(duì)一、一對(duì)多、多對(duì)多的復(fù)雜關(guān)系可解釋性不強(qiáng)。

評(píng)價(jià)指標(biāo)：

三元組分類任務(wù)：accuracy
鏈接預(yù)測(cè)任務(wù)：hits10

（5）加入規(guī)則的表示學(xué)習(xí)

學(xué)習(xí)推理的規(guī)則：推理的規(guī)則似然最大化。

（6）多模態(tài)的表示學(xué)習(xí)

助力Zero-Shot和長(zhǎng)尾鏈接預(yù)測(cè)：

對(duì)于在KG中出現(xiàn)很少，甚至沒(méi)有出現(xiàn)過(guò)，而在長(zhǎng)文本中出現(xiàn)較多的長(zhǎng)尾數(shù)據(jù)來(lái)做實(shí)體鏈接預(yù)測(cè)。
$h_s$ ：KG中結(jié)構(gòu)的學(xué)習(xí)
$h_d$ ：在文本中的描述的學(xué)習(xí)，這里使用了Bi-LSTM模型

（7）基于知識(shí)圖譜結(jié)構(gòu)的表示學(xué)習(xí)

考慮哪些數(shù)據(jù)可以用來(lái)描述實(shí)體：

Neighbor Context：實(shí)體周?chē)膶?shí)體；
Path Context：從一個(gè)實(shí)體到這個(gè)實(shí)體的聯(lián)通路徑；

Triple Context = Triple + Path Context + Neighbor Context

勢(shì)能函數(shù)

希望三元組在Triple Context概率最大

f(h,r,t)=P((h,r,t)∣C(h,r,t);Θ)f(h,r,t)=P((h,r,t)∣C(h,r,t);Θ)f(h,r,t)=P((h,r,t)|C(h,r,t);\Theta) f(h,r,t)=P((h,r,t)∣C(h,r,t);Θ)

假設(shè)不同的Context都是相互獨(dú)立的企且獨(dú)立用來(lái)描述三元組的某一部分

f(h,r,t)=P(h∣C(h,r,t);Θ)=P(t∣C(h,r,t),h;Θ)=P(r∣C(h,r,t),h,t;Θ)\begin{aligned}f(h,r,t)&amp;=P(h|C(h,r,t);\Theta) \\ &amp;=P(t|C(h,r,t),h;\Theta) \\ &amp;=P(r|C(h,r,t),h,t;\Theta)\end{aligned}

$f(h,r,t)≈P(h∣CN(h);Θ)?P(t∣CP(h,t),h;Θ)?P(r∣h,t;Θ)f(h,r,t)\approx P(h|C_N(h);\Theta) \cdot P(t|C_P(h,t),h;\Theta) \cdot P(r|h,t;\Theta)$

目標(biāo)函數(shù)
$P(K∣Θ)=Π(h,r,t)∈Kf(h,r,t)P(\mathcal{K}|\Theta) = \Pi_{(h,r,t)\in \mathcal{K}}f(h,r,t)$

總結(jié)與挑戰(zhàn)

融合更多本體特征的知識(shí)圖譜表示學(xué)習(xí)算法研發(fā)
知識(shí)圖譜表示學(xué)習(xí)與本體推理之間的等價(jià)性分析
知識(shí)圖譜學(xué)習(xí)與網(wǎng)絡(luò)表示學(xué)習(xí)之間的異同
神經(jīng)符號(hào)系統(tǒng)

總結(jié)

以上是生活随笔為你收集整理的【知识图谱】知识抽取与挖掘（Ⅱ）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。