PersonGraphDataSet近十万的开放人物关系图谱项目
PersonGraphDataSet
PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物圖譜數據集,近十萬的人物關系圖譜事實數據庫,通過人物關系抽取算法抽取+人工整理得出,可用于人物關系搜索、查詢、人物關系多跳問答,以及人物關系推理等場景提供基礎數據。
項目地址:https://github.com/liuhuanyong/PersonRelationKnowledgeGraph
項目由來
關于為什么要開放這個項目,主要有以下幾個方面的緣由:
1、階段性總結。以刻畫人物復雜關系為核心的網絡關系網構建,居于十分重要的現實意義,兩年前,帶著個人興趣,發布了一個未完成版的人物關系知識圖譜項目(https://github.com/liuhuanyong/PersonRelationKnowledgeGraph),嘗試采用基于知識庫的數據回標,基于遠程監督與bootstrapping方法的人物關系抽取,并以此完成基于知識圖譜的知識問答等應用。但但由于工作時間為題,一直沒能更新。今天,先對該工作的一個結果數據集開放出來,以對之前的項目做一個階段性的總結。
2、數據集空缺。目前,面向中文領域的人物關系抽取數據集,還相對較少,代表性有ccks2019的開放數據集(https://arxiv.org/abs/1907.12801) ,該數據集公開了親屬關系、社交關系、師生關系三大類,現夫、潛伏、朋友、戀人等34小類的人物關系數據集。該數據集是面向評測使用的,其所涉及的人物關系類型有限,并且不提供現成可用的人物關系數據。
3、應用驅動。當前,面向知識圖譜入門級別的知識圖譜推理、知識圖譜可視化、知識問答、圖譜搜索等場景,還缺乏可用的數據集。目前關于人物關系方面的應用,目前看到的,主要是百科類的展示以及搜狗人物圖譜(https://www.sogou.com/tupu/person.html) 為代表,雖說是娛樂導向,但目前還缺乏這樣的練手的數據和項目。
4、應用支撐。基于開放出來的人物關系知識數據,大家可以在此基礎上進行多種應用嘗試,包括算法訓練、知識圖譜入門、培訓等等,這十分有意義。
項目構成
本項目一共包括三個文件,分別記錄人物關系元組信息以及關系類型信息:
1、big_rel_distribution.txt:大類關系及其分布文件。
2、person_rel_kg.data:人物關系圖譜數據集文件。
3、small_rel_distribution.txt:小類關系及其分布文件
數據概況
本數據集,一共包括97,158條人物關系數據,涉及人物71,243個,大類關系102個,小類關系266條,大致的情況具體如下:
| 關系數目 | 97,158 | 父親、母親、女友 |
| 人物數目 | 71,243 | 姚明、易建聯、喬布斯 |
| 大類關系數 | 102 | 父親、母親、朋友 |
| 小類關系數 | 266 | 閨蜜、女好友、前妻 |
關系類型
本數據集對人物關系進行了上下級分類,針對小類關系進一步歸類整理成了若干個大類,選取小類數大于3的大類進行展示,如下表所示:
| 敵人 | 死敵;傳聞不和;競爭對手;死對頭;敵人;對手;罵戰 |
| 父親 | 父親;其父;繼父;生父;干爹;義父;養父 |
| 學生 | 學生;愛徒;徒孫 |
| 合作 | 同伙;合作人;相聲搭檔;合作演員;合作;影視搭檔;戲曲搭檔;搭檔;同時期隊友;前隊友;隊友;國家隊隊友;女雙搭檔;主持搭檔;合作伙伴;盟友;戲曲合作;混雙搭檔;合伙人 |
| 情人 | 初戀;配偶;情侶;情人;伴侶;情敵;舊愛;情夫;愛人;前任;戀人;心上人;分手 |
| 朋友 | 圈中好友;同伴;密友;友人;伙伴;好友;圈內好友;紅顏知己;摯友;女好友 |
| 丈夫 | 未婚夫;第二任丈夫;現任丈夫;前夫;第一任丈夫;丈夫 |
| 祖先 | 祖先;鼻祖;始祖;先祖 |
| 姐姐 | 大姐;二姐;姐姐 |
| 妻子 | 妻妾;第二任妻子;現任妻子;第三任妻子;未婚妻;前妻;妻子;第一任妻子 |
| 同門 | 同門師兄;校友;師妹;師弟;師兄弟;師姐 |
| 弟弟 | 義弟;三弟;弟弟;五弟;四弟;六弟;胞弟;二弟 |
| 女兒 | 女兒;繼女;大女兒;養女;次女;干女兒;義女;三女;長女;二女兒;小女兒 |
| 兒子 | 四子;三子;大兒子;干兒子;兒子;次子;五子;繼子;義子;小兒子;二兒子;養子;幼子;長子 |
| 哥哥 | 三哥;哥哥;長兄;二哥;四哥;大哥;五哥 |
| 家人 | 親戚;家屬;親屬;近親;親人;孩子;家人;長輩 |
| 老師 | 啟蒙教練;師祖;師;師叔;師承;老師;現任教練;教練;班主任;伯樂 |
| 母親 | 義母;生母;養母;繼母;干媽;母親 |
| 下屬 | 下級;下屬;屬下;部下;君臣 |
| 同學 | 同班同學;同學;同門 |
| 繼任者 | 繼任者;后裔;繼承人;后人;后代;繼任 |
| 偶像 | 喜歡的演員;最喜歡的歌手;喜歡的歌手;偶像 |
| 妹妹 | 義妹;二妹;三妹;妹妹 |
數據分布
目前,共涉及大類關系102個,小類關系266條,大類的top20樣例如下:
| 合作 | 14,048 | <左永邦,合作演員,合作,王珞丹> | 哥哥 | 2,379 | <周星霞,哥哥,哥哥,周星馳> |
| 朋友 | 13,632 | <祖孫登,好友,朋友,張正見> | 學生 | 2,017 | <左宏元,學生,學生,鄧麗君> |
| 父親 | 6,857 | <左太北,父親,父親,左權> | 敵人 | 1,948 | <左武王,死敵,敵人,諸葛正我> |
| 丈夫 | 5,348 | <左藍,未婚夫,丈夫,余則成> | 弟弟 | 1,880 | <祝龍,弟弟,弟弟,祝彪> |
| 情人 | 4,880 | <莊睿,愛人,情人,秦萱冰> | 同學 | 1,695 | <祖峰,同學,同學,黃曉明> |
| 老師 | 4,727 | <左欣然,老師,老師,許蕙蘭> | 女友 | 1,427 | <鄒世龍,前女友,女友,梅艷芳> |
| 兒子 | 4,631 | <左武王,兒子,兒子,安禎侯> | 妹妹 | 1,384 | <祝齊英,妹妹,妹妹,祝英臺> |
| 妻子 | 4,491 | <祖峰,現任妻子,妻子,劉天池> | 姐姐 | 1,149 | <卓龍,姐姐,姐姐,卓鳳> |
| 母親 | 3,832 | <卓玥,母親,母親,鄧榕> | 子女 | 977 | <朱壽,子女,子女,朱厚熜> |
| 女兒 | 2,583 | <宗慶后,女兒,女兒,宗馥莉> | 祖父 | 962 | <周璟馨,祖父,祖父,周海嬰> |
數據樣例
1、數據格式為:<人物1,小類關系,大類關系,人物2>,為四元組形式,以滿足不同的數據需求。
2、注意:為了對存在歧義的實體,采用了實體[實體簡短描述]的方式進行區分處理。
3、樣例數據:
數據應用
擁有了刻畫人與人之間的復雜關系數據集,可以支撐包括知識問答、多跳推理、圖譜可視化、未知關系推理、數據回標、特征增強、人物推薦、人物建模等多種應用嘗試和科學研究:
| 信息檢索 | 知識問答 | 姚明的老婆是誰? |
| 信息檢索 | 多跳推理 | 姚明的女兒的爺爺是誰? |
| 信息檢索 | 圖譜可視化 | 將數據導入圖數據庫,進行圖譜可視化展示 |
| 信息檢索 | 未知關系推理 | 給定兩個人物節點,進行人物之間的潛在關聯路徑發現 |
| 信息抽取 | 數據回標 | 根據結構化人物關系數據,利用遠程監督方法進行回標 |
| 信息抽取 | 特征增強 | 根據結構化人物關系數據,將用戶的關聯關系作為某個用戶的某個特征 |
| 信息推薦 | 人物推薦 | 根據關注某個人物,類推出與該人物相關的其他人物 |
| 用戶畫像 | 人物建模 | 利用某個人物的關聯信息,對其進行特征表示和畫像建模 |
項目總結
1、本項目開放了一個人物關系知識圖譜數據集,一共包括97,158條人物關系數據,涉及人物71,243個,大類關系102個,小類關系266條。
2、本項目采用了數據格式為:<人物1,小類關系,大類關系,人物2>,為四元組形式,可以滿足不同的數據使用需求。
3、基于本項目,可以支撐包括知識問答、多跳推理、圖譜可視化、未知關系推理、數據回標、特征增強、人物推薦、人物建模等多種應用嘗試和科學研究工作。
4、本項目面向開放文本,采用人物關系抽取模型進行抽取形成,經人工矯正后,可以保證數據的質量。
關于作者
劉煥勇,中國科學院軟件研究所,專注金融、情報兩大領域,從事事件抽取、事件演化、情感分析、事理(知識)圖譜、常識推理、語言資源構建與應用等研發工作。如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯系我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn技術博客:https://blog.csdn.net/lhy2014
3、我的聯系方式: 劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com.
4、我的共享知識庫項目:劉煥勇,數據地平線,http://www.openkg.cn/organization/datahorizon.
5、我的工業項目:劉煥勇,數據地平線,大規模實時事理學習系統:https://xueji.datahorizon.cn.
6、我的工業項目:劉煥勇,數據地平線,面向事件和語義的自然語言處理工具箱:https://nlp.datahorizon.cn
7、我的公眾號:
總結
以上是生活随笔為你收集整理的PersonGraphDataSet近十万的开放人物关系图谱项目的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新闻文本内容知识图谱表示项目
- 下一篇: Android官方开发文档Trainin