MiningZhiDaoQACorpus,580万百度知道问题,980万问答对数据挖掘项目
MiningZhiDaoQACorpus
580萬百度知道問答數(shù)據(jù)挖掘項目
ZhiDaoChatCorpus, zhidao QA pairs crawled from Baidu zhidao which contains more than 5,800,000 question and answers with certain tags。百度知道問答語料庫,包括超過580萬的問題,每個問題帶有問題標(biāo)簽。基于該問答語料庫,可支持多種應(yīng)用,如邏輯挖掘。
項目介紹
知道類問答社區(qū),是目前社會知識傳播和交流的重要場所之一,有問題找百度,有問題,更找百度知道,這句話鮮明的點出了作為國內(nèi)最大的全民問答社區(qū),百度知道所占據(jù)的地位。 本項目以百度問答數(shù)據(jù)位試點進(jìn)行挖掘,目標(biāo)有二,其一是開源數(shù)據(jù),其二是基于該數(shù)據(jù)集做知識挖掘。
知道類問答數(shù)據(jù)的特點
1, 規(guī)模之大。截止到我敲下這個現(xiàn)在這個字時,百度知道已經(jīng)積累了549,406,017個問題,這個問題數(shù)量無時不刻在增長,并且已經(jīng)達(dá)到了5億的級別,這個數(shù)量隱藏著百度知道這一社區(qū)的知識財富。
2, 質(zhì)量之傷。既然是眾包之下的一個產(chǎn)物,準(zhǔn)確性和規(guī)范性容易被人詬病,我們必須承認(rèn)很多答非所問,亂說一通現(xiàn)象的存在。但好的占多數(shù)(這個數(shù)字可以參考相關(guān)論文,已有論文做過研究)。
3, 范圍之廣。百度問答社區(qū)所涉及到的問題有很多,有專業(yè)領(lǐng)域的問題,也有吃喝拉撒睡之類的生活問題,也有小學(xué)生問作業(yè)怎么做,這與人們的生活息息相關(guān)。
5, 價值之大。一問一答,往往是以解決問題為目的而產(chǎn)生的,這種解決問題的行為是一種潛在的因果邏輯所在,這種邏輯又包括多種領(lǐng)域。
知道類問答數(shù)據(jù)的應(yīng)用
因此,知道類問答社區(qū),可以支持以下應(yīng)用:
1, 問答QA。問答語料庫目前不少,加上這個百度問答語料能夠有一定程度的擴充,用作算法學(xué)習(xí)也好,用作閑聊或者領(lǐng)域問答也好,都能發(fā)揮出其價值。
2, 數(shù)據(jù)挖掘。社區(qū)問答是社會語言生活最為直接的一種反映途徑,基于百萬級的問答對,可以支持多方面的分析,如問題畫像等。
3, 語言挖掘。語言挖掘,指的是基于問答語料做諸如百度社區(qū)問句風(fēng)格上,詞語使用情況等的分析工作,借此來考察語言生活上的特點,也可以用該特定語料進(jìn)行領(lǐng)域模型的訓(xùn)練。
4, 知識挖掘。百度問答對是非結(jié)構(gòu)化的知識庫,里面隱藏著大量的邏輯知識,實體知識和關(guān)系知識,如果對其進(jìn)行結(jié)構(gòu)化,那將能夠挖掘出大量的實體性,事件性的邏輯知識出來。(這也是本項目的一個目標(biāo))。
知道類問答數(shù)據(jù)的概況
因此,考慮到百度知道的四個數(shù)據(jù)特點以及4個應(yīng)用點,本項目通過采集百度知道,形成了百萬級別的問答數(shù)據(jù)庫規(guī)模。其中:
1, 問題個數(shù)583萬個。
2, 問答對983萬個。
3, 每個問題的答案個數(shù)1.7個。
4, 問題標(biāo)簽個數(shù)5824個。
數(shù)據(jù)介紹
1, 文件路徑:已經(jīng)上傳至網(wǎng)盤,網(wǎng)盤地址為: 鏈接:https://pan.baidu.com/s/1Eesx24tAbfJ3Mch-6OeGrA 密碼:oin3
2, 文件名稱:zhidao_qa。json, json文件的內(nèi)容樣式為:
其中,url表示該問句所在百度百科的網(wǎng)址;question表示問題描述,answer是一個答案列表,列表中的順序為百度知道問答中的排序,一般是越靠前,置信度越高;tags是問題的標(biāo)簽列表。
3, 文件的說明:
1, len_distribution.txt,問題答案個數(shù)分布
2, tag_distribution.txt,問題的標(biāo)簽分布
問答對數(shù)據(jù)概況
| 1 | 3524209 |
| 2 | 1315246 |
| 3 | 554687 |
| 4 | 229455 |
| 5 | 186532 |
| 6 | 25256 |
| 7 | 629 |
| 8 | 9 |
| 9 | 2 |
| 11 | 1 |
問題標(biāo)簽概況
| 學(xué)習(xí) | 405608 | 感情 | 218283 |
| 理工學(xué)科 | 344649 | 汽車 | 213075 |
| 手機 | 338319 | 硬件 | 212689 |
| 游戲 | 319145 | 商業(yè) | 206260 |
| 保健養(yǎng)生 | 267062 | 網(wǎng)絡(luò)游戲 | 193532 |
| 煩惱 | 264315 | 法律 | 191664 |
| 交通 | 261084 | 醫(yī)療 | 177384 |
| 生活 | 253055 | 人體常識 | 175527 |
| 生活常識 | 243856 | 教育 | 172151 |
| 戀愛 | 236902 | 軟件 | 169979 |
下一步的工作
1, 基于問答對, 進(jìn)行邏輯關(guān)系挖掘,具體實施后續(xù)開源
總結(jié)
1, 本項目開源了一個問題個數(shù)583萬個, 問答對數(shù)目達(dá)到983萬的問答數(shù)據(jù)集。
2, 本項目對問答數(shù)據(jù)集的概況進(jìn)行了介紹, 請用于學(xué)習(xí)交流使用, 若有侵權(quán),請聯(lián)系我刪除。
3, 歡迎大家使用該數(shù)據(jù)集進(jìn)行知識挖掘,語言挖掘,數(shù)據(jù)挖掘等方面的學(xué)習(xí)和研究工作。
4, 本項目后續(xù)將嘗試基于該數(shù)據(jù)集進(jìn)行邏輯事理的挖掘工作,目標(biāo)是建成百科社區(qū)的邏輯知識庫。
If any question about the project or me ,see https://liuhuanyong.github.io/
如有自然語言處理、[知識圖譜、事理圖譜]、社會計算、語言資源建設(shè)等問題或合作,如果對事件知識庫有興趣的落地或者研究,可聯(lián)系我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學(xué)院軟件研究所,lhy_in_blcu@126.com
4、得語言者分天下,得知識邏輯者,游得天下。
總結(jié)
以上是生活随笔為你收集整理的MiningZhiDaoQACorpus,580万百度知道问题,980万问答对数据挖掘项目的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020全球工业互联网大会在沈阳召开,聚
- 下一篇: Android官方开发文档Trainin