Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引
CognitiveInference
Cognitive Inference,認知推理、常識知識庫、常識推理與常識推理評估的系統項目,以現有國內外已有的常識知識庫為研究對象,從常識知識庫資源建設和常識推理測試評估兩個方面出發進行整理,并結合自己近幾年來在邏輯性推理知識庫的構建、應用以及理論思考進行介紹。具體包括已有常識知識庫項目資源介紹、邏輯推理類知識庫的項目實踐集合、常識推理測試評估項目集合。
項目地址 :https://github.com/liuhuanyong/CognitiveInference/
項目介紹
常識推理是人工智能的高級階段,基于已有知識,運用知識推理機技術,完成限定領域決策行為,能夠在充分減少人為勞動的同時,產生經濟效益。例如,基于已知知識進行知識推理,采用如事件驅動傳導路徑等進行知識發現,能夠輔助于業務的推理和輔助決策,在智能投研進行未知風險預警、在輿情分析中對公司進行輿論控制和監控。
“邏輯知識庫”+"邏輯推理機"的混合協作模式,是目前實現以上目的的重要方式。
"邏輯知識庫"作為描述現實社會事件之間傳導關聯的庫,需要在規模、質量,領域針對性三個方面入手進行解決。具體地,作者通過對自己所涉及的推理項目進行系統回顧,認為,推理類常識知識庫,應該從縱向和橫向兩個維度出發進行構建。
一、縱向常識邏輯
縱項常識邏輯需要考慮的是類人的抽象和概括能力,這個需要抽象、概念性、上下位知識的構建,可以讓機器模仿人類的舉一反三和概括總結的技能。例如,作者對縱向常識邏輯,形成了以下工作:
1、上下位關系圖譜項目:HyponymyExtraction.
上下位這種語義關系是整個詞匯語義關系中的一個重要內容,通過上下位關系,可以將世間萬物進行組織和練聯系起來,對于增進人們對某一實體或概念的認知上具有重要幫助,自然語言文本中存儲著大量的上下位關系知識,如經過語言專家編輯整理形成的概念語義詞典,如同義詞詞林,中文主題概念詞典,hownet等,也存在開放百科知識平臺當中,有效地利用這些信息,能夠支持多項應用基于知識概念體系,百科知識庫,以及在線搜索結構化方式的詞語上下位抽取。項目實現為用戶輸入一個需要了解的詞語,后臺通過查詢既定知識庫,從百科知識庫,在線非結構化文本中進行抽取,形成關于該詞語的上下位詞語網絡,并以圖譜這一清晰明了的方式展示出來。
2、電商商品概念與銷售知識圖譜項目:GoodsKG.
項目以京東電商為實驗數據來源,采集京東商品目錄樹,并獲取其對應的底層商品概念信息,組織形成商品知識圖譜。目前,該圖譜包括有概念的上下位is a關系以及商品品牌與商品之間的銷售sale關系共兩類關系,涉及商品概念數目1300+,商品品牌數目約10萬+,屬性數目幾千種,關系數目65萬規模。該項目可以進一步增強商品領域概念體系的應用,對自然語言處理處理的幾個下游應用帶來幫助,如商品品牌識別,商品對象及屬性級別情感分析,商品評價短語庫構建,商品品牌競爭關系梳理等提供基礎性的概念服務。
3、抽象知識圖譜項目:AbstractKnowledgeGraph.
項目提出了一個抽象知識圖譜的項目,目的是對知識抽象與泛化提供一個思路并初步實踐,介紹了抽象知識圖譜,對抽象圖譜的現實需求進行論述。介紹了中文抽象圖譜的相關工作。包括 CN-Probase,Hownet,大詞林,百度百科Schema等,并給出了之前關聯的項目地址。本項目提出了一個可用的抽象知識圖譜構建路線,提出抽象知識圖譜的實施路線并給出抽象接口實踐。建成抽象知識圖譜,目前規模50萬,支持名詞性實體、狀態性描述、事件性動作進行抽象,可完成抽象知識,包括抽象實體,抽象動作,抽象事件。基于該知識圖譜,可以進行不同層級的實體抽象和動作抽象,這與人類真實高度概括的認知是保持一致。
二、橫向常識邏輯
橫向上,需要挖掘順承、因果、反轉等多個方向的邏輯演化關系。例如,作者對橫向常識邏輯,形成了以下工作:
4、順承事件圖譜項目:SequentialEventExtration.
以謂詞性短語作為事件表示的方法方興未艾,針對特定領域,構建起特定領域的順承事件圖譜,可以支持事件推理,基于事件的意圖識別與推薦等多項運用。本項目基于50W文章領域語料,運用簡單提取方式形成的順承關系圖譜demo,形成了事件節點為326781個, 順承事件對為543580條,分別為30W和50W的圖譜規模。
5、因果事件圖譜項目:CausalityEventExtraction.
項目以構造和總結因果模板,結合中文語言特點,構建因果語言知識庫的方式,對因果事件抽取以及因果知識圖譜構建進行嘗試。羅列出了9類顯式因果邏輯抽取模式,通過使用因果連詞庫,結果詞庫、因果模式庫等,完成因果抽取、對文本進行噪聲移除,非關鍵信息去除等進行文本預處理;基于因果模式庫,完成因果對抽取,選擇短語、短句、句子主干等方式進行事件表示;使用知識圖譜中的實體對齊技術進行事件融合,基于業務需求,可以用相應的數據庫進行存儲,比如圖數據庫等完成事件存儲。
6、復合事件圖譜項目:ComplexEventExtraction.
項目對中文復合事件抽取,包括條件事件、因果事件、順承事件、反轉事件等事件事件圖譜的類型、表現形式進行了歸納,并結合復合事件模式與語料進行了實驗。實驗表明,反轉事件,其實在某種程度上可以用來構造反義詞詞典,例如"不是A而是B"這種模式,可以得到很多反義的詞或短語,可以用wordvector找相近詞,可以靠這種方式收集反義詞。漢語顯示標記其實在中文文本當中還是用的很普遍,在1000W文本中,有超過半數的文本中包含以上模式。能夠把顯示事件圖譜做好,感覺用處還是很多的。
三、常識邏輯推理
"邏輯推理機"是支配邏輯知識庫的重要運算機器,通過對現有邏輯知識庫,通過推理規則傳導、知識關聯路徑匹配,完成對現有邏輯知識庫的游走,最終實現單跳或多跳等后續事件的推理和預測,在這個方面,需要使用owl本體推理機、圖數據庫匹配、圖數據庫路徑查找、推理規則配置、圖結構預測等多種不同形式。與此同時,與邏輯推理關聯的推理能力評估,也是檢驗常識推理智能的必要手段。例如,作者對常識邏輯推理,形成了一下工作:
7、基于問答社區的邏輯知識問答項目:ZhidaoChatbot.
本項目完成了一個基于線上問答社區的常識邏輯性問答機器人接口demo,本項目的問答機器人接口可以滿足原因邏輯,結果邏輯,可以回答為什么,有了會怎么樣等問題,也可以推薦相似性的問題,可以作為基于邏輯事理知識的一種補充,問答機器人接口可以作為開源實體性問答機器人的邏輯性問答補充,也可以為邏輯性知識庫的構建提供幫助。
8、基于事理圖譜的未來事件預測項目:EventPredictBasedOnEG.
基于海量數據進行因果挖掘,可以得到大量的因果知識,基于因果邏輯庫,即歷史因果,通過計算當前事件與歷史事件的相似性,可以在定性的方式上做出一些方向性的預測,方向上包括兩種,一種是積極信號,另一種是消極信號,項目介紹了一個基于因果圖譜的既定事件未來預測的接口預測demo。
9、學跡事理實時知識庫終身學習項目:EventKGNELL.
事理圖譜版Magi,EventKGNELL, eventuality knowlege graph never end learning system,一個7*24小時不斷學習的實時事理學習與搜索平臺,力圖緊跟實時網絡信息,面向公眾提供以“事件”為核心的實時結構化知識搜索服務的實時事理邏輯知識庫終身學習和事件為核心的知識庫搜索項目,項目實現了包括事件概念抽取、事件因果邏輯抽取、事件數據關聯推薦與推理,
開放常識知識庫與常識推理評測項目
本項目對現有國內外已有的常識知識庫為研究對象,從常識知識庫資源建設和常識推理測試評估兩個方面出發進行整理,形成已有常識知識庫資源集合、常識推理評測項目集合兩個組成部分。
一、已有常識知識庫資源集合
| 語言學知識庫 | 語言標注語料庫 | Penn Treebank | 點擊查看 |
| 語言學知識庫 | 語言標注語料庫 | The Penn Discourse Tree- bank (PDTB) | 點擊查看 |
| 語言學知識庫 | 語言標注語料庫 | The Abstract Meaning Representation (AMR) corpus | 點擊查看 |
| 語言學知識庫 | 詞匯知識庫 | WordNet | 點擊查看 |
| 語言學知識庫 | 詞匯知識庫 | VerbNet | 點擊查看 |
| 語言學知識庫 | 詞匯知識庫 | VerbOcean | 點擊查看 |
| 語言學知識庫 | 詞匯知識庫 | VerbCorner | 點擊查看 |
| 語言學知識庫 | 框架語義知識庫 | FrameNet | 點擊查看 |
| 語言學知識庫 | 框架語義知識庫 | PropBank | 點擊查看 |
| 語言學知識庫 | 預訓練語義向量 | GloVe | 點擊查看 |
| 語言學知識庫 | 預訓練語義向量 | FastText | 點擊查看 |
| 語言學知識庫 | 預訓練語義向量 | wordpiece embeddings | 點擊查看 |
| 常識庫 | 常識庫 | YAGO | 點擊查看 |
| 常識庫 | 常識庫 | DBpedia | 點擊查看 |
| 常識庫 | 常識庫 | WikiTaxonomy | 點擊查看 |
| 常識庫 | 常識庫 | Freebase | 點擊查看 |
| 常識庫 | 常識庫 | NELL | 點擊查看 |
| 常識庫 | 常識庫 | Probase | 點擊查看 |
| 常識庫 | 常識庫 | Wikidata | 點擊查看 |
| 常識知識庫 | 常識知識庫 | Cyc | 點擊查看 |
| 常識知識庫 | 常識知識庫 | ConceptNet | 點擊查看 |
| 常識知識庫 | 常識知識庫 | SenticNet | 點擊查看 |
| 常識知識庫 | 常識知識庫 | Isanette and IsaCore | 點擊查看 |
| 常識知識庫 | 常識知識庫 | COGBASE | 點擊查看 |
| 常識知識庫 | 常識知識庫 | WebChild. | 點擊查看 |
| 常識知識庫 | 常識知識庫 | LocatedNear | 點擊查看 |
| 常識知識庫 | 常識知識庫 | ATOMIC | 點擊查看 |
| 常識知識庫 | 常識知識庫 | ASER | 點擊查看 |
| 常識知識庫 | 常識知識庫 | 學跡實時事理系統 | 點擊查看 |
二、常識推理評測項目資源
| Reference Resolution | Winograd Schema Challenge | Morgenstern et al., 2016 | 60 | 點擊查看 |
| Reference Resolution | WinoGrande | Sakaguchi et al., 2019 | 44.0K | 點擊查看 |
| Question Answering | MCTest. | Richardson et al., 2013 | 2.00K | 點擊查看 |
| Question Answering | RACE. | Lai et al., 2017 | 97.7K | 點擊查看 |
| Question Answering | NarrativeQA. | Kocˇisky et al., 2018 | 46.8K | 點擊查看 |
| Question Answering | ARC | Clark et al., 2018 | 7.79K | 點擊查看 |
| Question Answering | MCScript | Ostermann et al., 2018 | 13.9K | 點擊查看 |
| Question Answering | ProPara | Mishra et al., 2018 | 488 | 點擊查看 |
| Question Answering | MultiRC. | Khashabi et al., 2018 | 9.87K | 點擊查看 |
| Question Answering | ARCT | Habernal et al., 2018 | 2.45K | 點擊查看 |
| Question Answering | SQuAD. | Rajpurkar et al., 2018 | 151K | 點擊查看 |
| Question Answering | CoQA. | Reddy et al., 2018 | 8.40K | 點擊查看 |
| Question Answering | QuAC. | Choi et al., 2018 | 98.4K | 點擊查看 |
| Question Answering | OpenBookQA. | Mihaylov et al., 2018 | 5.96K | 點擊查看 |
| Question Answering | CommonsenseQA | Talmor et al., 2019 | 9.40K | 點擊查看 |
| Question Answering | DREAM. | Sun et al., 2019 | 10.2K | 點擊查看 |
| Question Answering | DROP. | Dua et al., 2019 | 96.6K | 點擊查看 |
| Question Answering | Cosmos QA. | Huang et al., 2019 | 35.6K | 點擊查看 |
| Question Answering | MC-TACO. | Zhou et al., 2019 | 1.89K | 點擊查看 |
| Textual Enatailment | RTE Challenges. | Bentivogli et al., 2011 | 48.8K | 點擊查看 |
| Textual Enatailment | Conversational Entailment. | Zhang & Chai, 2009 | 875 | 點擊查看 |
| Textual Enatailment | SICK. | Marelli et al., 2014a | 9.84K | 點擊查看 |
| Textual Enatailment | SNLI. | Bowman et al., 2015 | 570K | 點擊查看 |
| Textual Enatailment | SciTail. | Khot et al., 2018 | 27.0K | 點擊查看 |
| Textual Enatailment | SherLIiC. | Schmitt & Schütze, 2019 | 3.99K | 點擊查看 |
| Plausible Inference | COPA. | Roemmele et al., 2011 | 1.00K | 點擊查看 |
| Plausible Inference | CBT. | Hill et al., 2015 | 687K | 點擊查看 |
| Plausible Inference | ROCStories. | Mostafazadeh et al., 2016 | 98.2K | 點擊查看 |
| Plausible Inference | LAMBADA. | Paperno et al., 2016 | 10.0K | 點擊查看 |
| Plausible Inference | JOCI. | hang et al., 2017 | 39.1K | 點擊查看 |
| Plausible Inference | CLOTH. | Xie et al., 2017 | 99.4K | 點擊查看 |
| Plausible Inference | SWAG. | Zellers et al., 2018 | 114K | 點擊查看 |
| Plausible Inference | ReCoRD. | Zhang et al., 2018 | 121K | 點擊查看 |
| Plausible Inference | HellaSWAG. | Zellers et al., 2019a | 70.0K | 點擊查看 |
| Plausible Inference | AlphaNLI. | Bhagavatula et al., 2019 | 171K | 點擊查看 |
| Intuitive Psychology | Triangle-COPA. | Gordon, 2016 | 100 | 點擊查看 |
| Intuitive Psychology | Story Commonsense. | Rashkin et al., 2018a | 161k | 點擊查看 |
| Intuitive Psychology | Event2Mind. | Rashkin et al., 2018b | 57.1K | 點擊查看 |
| Intuitive Psychology | SocialIQA. | Sap et al., 2019b | 44.8K | 點擊查看 |
| Multple Tasks | bAbI. | Weston et al., 2016 | 40.0K | 點擊查看 |
| Multple Tasks | Inference is Everything. | - | - | 點擊查看 |
| Multple Tasks | GLUE. | - | - | 點擊查看 |
| Multple Tasks | DNC. | Poliak et al., 2018a | 570K | 點擊查看 |
| Multple Tasks | SuperGLUE. | - | - | 點擊查看 |
關于作者
劉煥勇, Liu Huanyong,2017年碩士畢業,目前就職于中國科學院軟件研究所,兼任數據地平線科技算法總監。專注金融、情報兩大領域,從事事件抽取、事件演化、情感分析、事理(知識)圖譜、常識推理、語言資源構建與應用等研發工作。主持研發自然語言處理技術開放平臺數地工場、大規模實時事理知識學習系統學跡、全行業因果鏈查詢與溯源項目尋鏈系統,并在智能金融、智能情報落地中負責實施了多個項目。致力于面向中文處理的基礎知識庫建設與理論技術開源共享,目前累計對外開放自然語言處理實踐項目六十余項,其中知識圖譜和事理圖譜項目十六項。在openkg開放知識圖譜聯盟中開放工業應用知識庫七類,主筆數地工場技術類系列文章二十余篇。
如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯系我:
1、我的自然語言處理開源項目:https://liuhuanyong.github.io
2、我的csdn技術博客:https://blog.csdn.net/lhy2014
3、我的聯系方式: 劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com.
4、我的共享知識庫項目:劉煥勇,事理類知識庫數據集,http://www.openkg.cn/organization/datahorizon.
5、我的工業項目:劉煥勇,以事理為核心的金融情報探索:https://datahorizon.cn.
項目地址:https://github.com/liuhuanyong/CognitiveInference/
總結
以上是生活随笔為你收集整理的Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 模拟嫁接技术
- 下一篇: 推荐系统经典论文学习