开源开放 | 中国近代历史人物知识图谱
OpenKG地址:http://openkg.cn/dataset/zgjdlsrw
項目地址:http://www.zjuwtx.work/project/kg
開放許可協議:CC BY-SA 4.0 (署名相似共享)
貢獻者:浙江大學(王天笑)
1、引言
中國近代歷史涌現了?量的杰出?物和事跡,史料文獻豐富,構成了一個龐?的知識體系。本項?旨在收集挖掘中國近代歷史?物信息,構建?物及其相關實體的知識圖譜,為歷史資料的檢索和研究?作提供幫助。
2、知識圖譜構建
2.1?數據來源
中國近現代歷史?物信息主要來源于百度百科和歷史記兩個?站。通過 python scrapy 爬?獲取了 近1300位?物的結構化數據,半結構化數據和?本數據。其中,結構化數據主要包含?物的姓名、字號、出?地、?卒年?等信息;半結構化數據包括?物間的關系、歷史成就等;?本數據主要是?物的生平介紹、評論等,有?站負責編輯維護,語?描述和記錄的史料不?定完全準確。
2.2?數據處理
2.2.1 半結構化數據處理
數據變換:從半結構化數據中提取信息,轉化匯總成相同的格式,例如?
數據清理:將明顯不正確的信息刪除,例如?
數據集成:整合兩個數據源的數據,如果有不一致,直接刪除
2.2.2?文本數據處理
項目嘗試了基于語義??標注和基于深度學習的實體關系抽取?法。
(1)基于LTP語義角色標注的實體關系抽取
LTP(Language Technology Platform)是由哈爾濱工業?學開源的中??然語?處理?具,用戶可以使?這些?具對于中??本進?分詞、詞性標注、句法分析等等?作。Github:https://github.com/HIT-SCIR/ltp?
使?LTP提供的語義??標注分解句?:
上述例句被分解為了中?語(動詞:加?),主語A0(王俊昌),賓語A1(中國共產黨)和時間狀 語ARGM-TMP(1943年2?)。通過構建基于語義??標注的規則,可以從?本數據中提取符合規則的關系,準確度較?。但規則構建依賴??。
(2)基于OpenUE的實體關系抽取
OpenUE 是?個輕量級知識圖譜抽取?具,?于基于預訓練語言模型的知識圖譜抽取任務。Github:https://github.com/zjunlp/OpenUE?
使?OpenUE?具包和默認ske數據集訓練并執?抽取。在簡單句?中準確率較?,但是在所有?本 數據中的表現并不理想。原因可能是?本語句通常?較復雜,且句?間存在上下?關聯的情況。例如主 語缺失等。
(3)基于OpenNRE的人物關系抽取
OpenNRE 是?個開源且可擴展的工具包,它提供了一個統?的框架來實現關系提取模型。項?嘗 試使?基于OpenNRE的中?人物關系抽取,Github:https://github.com/taorui-plus/OpenNRE
按照上述Github項?的描述訓練模型并執?關系提取任務,結果同樣在簡單句型中表現良好,但在 多數復雜句型中出現了遺漏和錯誤。綜上所述,出于準確度、史實正確性優先的考慮,項目最終使?了基于語義??標注的實體關系抽取?法。
3、知識圖譜存儲
項目基于neo4j圖數據庫存儲實體關系數據。實體對象共3類:?物,組織(學校),成就(作品)。其中人物包含屬性:名稱、附加名稱、出?地、出??期、死亡?期、?作職責、名族、國籍(在華外籍?物)。實體關系共3個?類:相關?物、畢業于、創作。相關?物可細分為7個?類,21個具體關系,如下圖所示:
4、知識圖譜應用
項目最終成果使?BS形式部署上云。后端打包為Docker鏡像部署到阿?云ECI,前端部署到阿?云CDN。可以訪問 http://www.zjuwtx.work/project/kg 查看。
4.1 人物檢索
基本的?物檢索功能,查看?物屬性以及與其他實體間的關系。
4.2?圖譜推理
基于規則的圖譜推理,通過?定義Cypher腳本實現。包括關系推理和屬性補全。
4.3?知識眾包
考慮到數據來源有限,同時數據內容以及數據處理過程不可避免地會存在?些問題,導致了圖譜知識的缺失和錯誤。項目提供了知識眾包功能,所有?戶可以快速提交新增、修改數據的請求,在審核通過后會合并到現有的知識圖譜中。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的开源开放 | 中国近代历史人物知识图谱的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | 知识图谱的策展
- 下一篇: 会议交流 | 智能风控技术峰会(请关注图