开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/k-zsl
GitHub地址:https://github.com/China-UK-ZSL/Resources_for_KZSL
開放許可協議:CC BY-SA 4.0 (署名相似共享)
貢獻者:浙江大學(耿玉霞、陳卓、陳華鈞),牛津大學(陳矯彥),愛丁堡大學(Jeff Z. Pan),華為(苑宗港)
摘要
本開放資源由浙江大學知識引擎實驗室以及牛津大學的陳矯彥研究員和愛丁堡大學的Jeff Z. Pan教授聯合貢獻。在此開放資源中,我們為零樣本學習相關技術貢獻了類別語義知識圖譜,圖譜囊括了類別的屬性信息和文本信息、結構化知識信息,以及語義更豐富的邏輯約束信息等,包含了比以往工作更豐富的類別語義知識,為推動知識驅動的零樣本學習研究提供數據支撐。
1. 前言:知識驅動的零樣本學習
近年來,深度學習技術依托強大的計算資源、復雜的神經網絡和大規模的標注數據集在視覺、語言、醫學、金融等廣泛的研究領域取得了顯著的成就。然而,在現實應用場景中,尤其是在開放世界的背景假設下,隨時會有一些新的概念/對象出現,持續地為這些新概念/對象收集樣本并進行標注是極為不現實的。因此,研究人員提出了零樣本學習(Zero-shot Learning, ZSL)的概念,用于處理沒有標注樣本的情況下概念/對象的預測問題,以解決現有的深度學習模型尤其是有監督學習模型對大量標注數據(即訓練樣本)的依賴。
借助一個直觀的例子,我們首先對ZSL的工作原理做一個簡單的介紹:某動物園內,小明在爸爸的帶領下先后認識了馬、老虎和熊貓三種動物,隨后爸爸讓小明在動物園里找一種之前從未見過的動物——斑馬,并告訴了小明關于斑馬的信息:“斑馬的體型很像馬,它身上還有像老虎一樣的條紋,而且它像熊貓一樣是黑色色的”。最后,小明根據爸爸的提示,在動物園里找到了斑馬。
上述例子描述了一個典型的人類推理的過程——利用常識或者某個領域的專業知識(馬、老虎、熊貓和斑馬的描述),在腦海里推理出新對象的具體形態,從而對新對象進行辨認。ZSL所做的正是模仿人的這種推理能力,依賴對象間的語義聯系,將模型在有標注樣本的、訓練過的對象(Seen Object,即上述例子中的馬、老虎、熊貓)上學習到的特征遷移到沒有標注樣本、未在訓練集中出現過的新對象(Unseen Object,即斑馬)上,從而解決這些沒有訓練樣本的對象的預測問題。
圖1?知識驅動的零樣本學習
對象間的語義聯系通常依賴一些外部知識建立,如自然語言文本,這些外部知識從另一維度對象進行了描述(區別于對象的樣本),且相比于標注樣本更容易獲取(如百科知識、在線語料)。其他的一些領域特定的語義知識如屬性描述、類別層次等描述了領域內概念間的關系,為該領域的零樣本預測問題提供了幫助。
2. 資源構建及概況
借助知識圖譜強大的知識表示和知識融合能力,我們提出使用知識圖譜建模對象間的語義聯系,并將現有的語義關系補充到圖譜資源中,同時引入更豐富的關系類型,旨在解決現有工作中對象關系語義不足,以及缺乏基準數據集以公平比較各類知識驅動的零樣本學習方法的問題。我們為兩個典型的、來自不同領域的零樣本學習問題構建了資源,即零樣本圖像分類和零樣本知識圖譜補全任務,下面我們將對這兩個任務資源的構建過程進行簡單介紹,具體的構建細節可參見原文(https://arxiv.org/pdf/2102.07339.pdf)。
零樣本圖像分類任務(ZS-IMGC)資源構建過程
零樣本圖像分類任務(Zero-shot Image Classification, ZS-IMGC),是指分類未在訓練集中出現的類別的圖像。在訓練集中出現過的類別定義為seen類別,而未出現的類別定義為unseen類別,我們使用知識圖譜為這些類別標簽構建它們之間的語義聯系。資源的構建過程如下:
(1)我們首先使用WordNet中定義的類別層次關系建立KG的基本結構,其中 每個類別對應 WordNet 中的一個實體節點,由 WordNet 實體 ID 唯一標識,不同的節點之間通過subClassOf關系連接;
(2)基于此結構,我們加入類別的屬性信息。屬性同樣也被表示為節點,并通過自定義的ID唯一標識。對于類別節點和屬性節點之間關系的定義,我們通過對屬性分組/分類實現,這是因為,類別的部分屬性信息通常描述了對象相同方面的特征,如紅色、白色、黑色等屬性均描述了對象的外觀顏色,對于相同類別的屬性,我們為其定義對應的連接關系,如為顏色屬性定義hasColor屬性。此外,對于屬性的歸類,同時也豐富了屬性間的關系;
(3)接下來,我們在圖譜中加入當前實體的文本描述信息。考慮到類別間具有明顯的層次關聯關系,且父類別與子類別間名稱較相似,如紅狐、黑狐等都是狐貍類別的子類,因此,我們選擇類別及屬性的名稱作為文本語義加入圖譜,并通過label關系,與當前圖譜進行關聯;
(4)此外,我們從外部KG如ConceptNet中抽取與當前類別和屬性相關的知識。具體地,我們利用類別和屬性的文本信息以字符串匹配的方式與外部 KG中的實體進行對齊,并抽取這些實體1跳范圍內的三元組加入當前圖譜中。對齊后的實體通過 sameAs 關系關聯。此外,為保證抽取知識的質量,ConceptNet中一些不相關的關系在抽取的過程中被過濾;
(5)除上述語義信息外,我們在圖譜中也引入了類別間以及類別和屬性間的邏輯互斥關系。這是因為很多類別雖然視覺上存在較大差異但存在數量不少的共享屬性,如“斑馬”、“老虎”都有屬性“條紋”、“尾巴”和“肌肉”等。大量的共享屬性,使得這些視覺差異較大的類別,很容易在特征遷移時互相影響,因此,我們在這些類別之間添加互斥關系。同時我們也類別和屬性間的互斥關系,如“斑馬不吃魚”聲明了“斑馬”和“吃魚”間的互斥關系。
經上述構建過程,我們為ZS-IMGC任務構建了領域特定的知識圖譜語義資源,構建的片段如下圖所示:
我們以ZS-IMGC任務的三個基準數據集AwA、ImNet-A和ImNet-O為例構建了該資源,資源的統計信息如下表所示。
零樣本知識圖譜補全任務(ZS-KGC)資源構建過程
該任務主要是為知識圖譜補全過程中出現的新關系建模語義知識。不同于為ZS-IMGC構建的知識圖譜資源,針對KG(即data graph)本身零樣本的問題,我們利用知識圖譜本體層的語義信息為知識圖譜關系構建語義圖譜(即schema graph)。
(1)我們首先利用RDFS中的術語定義schema graph的基本結構,不同于一般KG中關系被建模為實體間的連接邊,在schema graph中,關系也可以出現在實體的位置,以此建模關系之間的關系,即元關系。具體地,我們利用rdfs:subPropertyOf定義關系間的層次關系,rdfs:domain和rdfs:range定義分別定義關系的頭尾實體類型約束,以及rdfs:subClassOf 定義實體類型的層次結構,下圖展示了該 schema的一個片段。
(2)隨后,我們在schema graph中加入實體類型和關系的文本描述信息,引入關系的文本語義,這些文本通過rdfs:comment屬性與當前圖譜進行關聯;
(3)除上述語義外,我們引入OWL術語描述關系間更復雜的關系,主要包括兩類,一類是對關系間關系的表達,如等價關系、互逆關系、互斥關系以及組合關系,這些關系對于關系間關系的建立有重要幫助,如已知一個seen關系和一個unseen關系互為逆關系,則可以通過該seen關系的三元組直接推理預測出unseen的部分三元組。另一類是關系的屬性信息,如對稱&非對稱、自反&非自反、函數&反函數、傳遞性等,這些屬性可以幫助unseen關系進行更好的預測。
經上述構建過程,我們為ZS-KGC任務構建了領域特定的本體語義資源,構建的片段如下圖所示:
我們以ZS-KGC任務的兩個基準數據集NELL-ZS和Wikidata-ZS為例構建了該資源,資源的統計信息如下表所示。
3. 資源用途
對于構建后的資源,我們可以從以下幾個方面進行利用:
(1)首先是用于提升ZSL模型性能。現有ZSL方法在訓練模型時,通常利用從語義知識中學習的語義向量,如屬性向量和文本詞向量。相應地,在利用基于知識圖譜的語義資源增強ZSL模型性能時,可借助語義嵌入的相關技術如知識圖譜表示學習和本體表示學習等對圖譜進行向量化的表示,得到類別/關系的語義向量,應用到ZSL模型中;
(2)該資源還可應用于為ZSL模型提供可解釋性。圖譜中包含的類別間的共享知識可以很好地為類別間特征的可遷移性提供佐證。相比于使用通用域知識圖譜為模型提供可解釋性,我們所構建的知識圖譜資源更加領域適配;
(3)從資源的統計數據中,我們可以發現,我們構建的圖譜資源具有樣本分布不均衡、部分關系/元關系具有對稱性,以及存在組合邏輯語義等特點,這些語義特征依賴現有的知識圖譜表示學習及本體表示學習技術無法很好地捕獲,因此,我們希望基于此開放資源,探究表達能力更強、更魯棒的語義嵌入技術,從而在深度學習的背景;
4. 總結
在本開放資源中,我們為來自兩個不同領域的零樣本學習任務構建了基于知識圖譜的類別語義信息,并詳解介紹了該語義資源的構建過程,構建的資源整合 ZSL 現有語義信息的同時,也為 ZSL 任務帶來了語義更豐富的知識。這些知識 為 ZSL 模型定義了更豐富的類別/關系描述信息,從而幫助其進行更好的特 征遷移,同時,圖譜資源也為 ZSL 模型的可解釋性等任務帶來了更豐富的 領域知識。我們希望此開放資源,可以更好地為研究知識驅動的零樣本學習技術以及表達能力更強的語義嵌入技術提供支持,探究有效的神經-符號集成(Neural-Symbolic Integration)模式,促進人工智能系統的進步。
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - COLING2020 |
- 下一篇: 新书速递 | 《知识图谱:方法、实践与应