Atitit 知识图谱的数据来源
?
?
?
Atitit 知識圖譜的數據來源
?
2.?知識圖譜的數據來源1
a) 百科類數據2
b) 結構化數據3
c) 半結構化數據挖掘AVP?(垂直站點爬蟲)3
d) 通過搜索日志(query record log)進行實體和實體屬性等挖掘4
?
?
2.?知識圖譜的數據來源
為了提高搜索質量,特別是提供如對話搜索和復雜問答等新的搜索體驗,我們不僅要求知識圖譜包含大量高質量的常識性知識,還要能及時發現并添加新的知識。在這種背景下,知識圖譜通過收集來自百科類站點和各種垂直站點的結構化數據來覆蓋大部分常識性知識。這些數據普遍質量較高,更新比較慢。而另一方面,知識圖譜通過從各種半結構化數據(形如HTML表格)抽取相關實體的屬性-值對來豐富實體的描述。此外,通過搜索日志(query log)發現新的實體或新的實體屬性從而不斷擴展知識圖譜的覆蓋率。相比高質量的常識性知識,通過數據挖掘抽取得到的知識數據更大,更能反映當前用戶的查詢需求并能及時發現最新的實體或事實,但其質量相對較差,存在一定的錯誤。這些知識利用互聯網的冗余性在后續的挖掘中通過投票或其他聚合算法來評估其置信度,并通過人工審核加入到知識圖譜中。
a) 百科類數據
維基百科[4] ,通過協同編輯,已經成為最大的在線百科全書,其質量與大英百科媲美。可以通過以下方式來從維基百科中獲取所需的內容:通過文章頁面(Article Page)抽取各種實體;通過重定向頁面(Redirect Page)獲得這些實體的同義詞(又稱Synonym);通過去歧義頁面(Disambiguation Page)和內鏈錨文本(Internal Link Anchor Text)獲得它們的同音異義詞(又稱Homonym);通過概念頁面(Category Page)獲得各種概念以及其上下位(subclass)關系;通過文章頁面關聯的開放分類抽取實體所對應的類別;通過信息框(Infobox)抽取實體所對應的屬性-值對和關系-實體對。類似地,從百度百科和互動百科抽取各種中文知識來彌補維基百科中文數據不足的缺陷。此外,Freebase[5] 是另一個重要的百科類的數據源,其包含超過3900萬個實體(其稱為Topics)和18億條事實,規模遠大于維基百科。對比之前提及的知識圖譜的規模,我們發現僅Freebase一個數據源就構成了Google知識圖譜的半壁江山。更為重要的是,維基百科所編輯的是各種詞條,這些詞條以文章的形式來展現,包含各種半結構化信息,需要通過事先制定的規則來抽取知識;而Freebase則直接編輯知識,包括實體及其包含的屬性和關系,以及實體所屬的類型等結構化信息。因此,不需要通過任何抽取規則即可獲得高質量的知識。雖然開發Freebase的母公司MetaWeb于2010年被Google收購,Freebase還是作為開放的知識管理平臺獨立運行。所以百度和搜狗也將Freebase加入到其知識圖譜中。
b) 結構化數據
除了百科類的數據,各大搜索引擎公司在構建知識圖譜時,還考慮其他結構化數據。其中,LOD項目在發布各種語義數據的同時,通過owl:sameAs將新發布的語義數據中涉及的實體和LOD中已有數據源所包含的潛在同一實體進行關聯,從而實現了手工的實體對齊(entity alignment)。LOD不僅包括如DBpedia[6] 和YAGO[7] 等通用語義數據集,還包括如MusicBrainz[8] 和DrugBank[9] 等特定領域的知識庫。因此,Google等通過整合LOD中的(部分)語義數據提高知識的覆蓋率,尤其是垂直領域的各種知識。此外,Web上存在大量高質量的垂直領域站點(如電商網站,點評網站等),這些站點被稱為Deep Web[10]。它們通過動態網頁技術將保存在數據庫中的各種領域相關的結構化數據以HTML表格的形式展現給用戶。各大搜索引擎公司通過收購這些站點或購買其數據來進一步擴充其知識圖譜在特定領域的知識。這樣做出于三方面原因:其一、大量爬取這些站點的數據會占據大量帶寬,導致這些站點無法被正常訪問;其二、爬取全站點數據可能會涉及知識產權糾紛;最后,相比靜態網頁的爬取,Deep Web爬蟲需要通過表單填充(Form Filling)技術來獲取相關內容,且解析這些頁面中包含的結構化信息需要額外的自動化抽取算法,具體細節在下一節描述。
c) 半結構化數據挖掘AVP?(垂直站點爬蟲)
雖然從Deep Web爬取數據并解析其中所包含的結構化信息面臨很大的挑戰,各大搜索引擎公司仍在這方面投入了大量精力。一方面,Web上存在大量長尾的結構化站點,這些站點提供的數據與最主流的相關領域站點所提供的內容具有很強的互補性,因此對這些長尾站點進行大規模的信息抽取(尤其是實體相關的屬性-值對的抽取)對于知識圖譜所含內容的擴展是非常有價值的。另一方面,中文百科類的站點(如百度百科等)的結構化程度遠不如維基百科,能通過信息框獲得AVP的實體非常稀少,大量屬性-值對隱含在一些列表或表格中。一個切實可行的做法是構建面向站點的包裝器(Site-specific Wrapper)。其背后的基本思想是:一個Deep Web站點中的各種頁面由統一的程序動態生成,具有類似的布局和結構。利用這一點,我們僅需從當前待抽取站點采樣并標注幾個典型詳細頁面(Detailed Pages),利用這些頁面通過模式學習算法(Pattern Learning)自動構建出一個或多個以類Xpath表示的模式,然后將其應用在該站點的其他詳細頁面中從而實現自動化的AVP抽取。對于百科類站點,我們可以將具有相同類別的頁面作為某個“虛擬”站點,并使用類似的方法進行實體AVP的抽取。自動學習獲得的模式并非完美,可能會遺漏部分重要的屬性,也可能產生錯誤的抽取結果。為了應對這個問題,搜索引擎公司往往通過構建工具來可視化這些模式,并人工調整或新增合適的模式用于抽取。此外,通過人工評估抽取的結果,將那些抽取結果不令人滿意的典型頁面進行再標注來更新訓練樣本,從而達到主動學習(Active Learning)的目的。
?
d) 通過搜索日志(query record log)進行實體和實體屬性等挖掘
搜索日志是搜索引擎公司積累的寶貴財富。一條搜索日志形如<查詢,點擊的頁面鏈接,時間戳>。通過挖掘搜索日志,我們往往可以發現最新出現的各種實體及其屬性,從而保證知識圖譜的實時性。這里側重于從查詢的關鍵詞短語和點擊的頁面所對應的標題中抽取實體及其屬性。選擇查詢作為抽取目標的意義在于其反映了用戶最新最廣泛的需求,從中能挖掘出用戶感興趣的實體以及實體對應的屬性。而選擇頁面的標題作為抽取目標的意義在于標題往往是對整個頁面的摘要,包含最重要的信息。據百度研究者的統計,90%以上的實體可以在網頁標題中被找到。為了完成上述抽取任務,一個常用的做法是:針對每個類別,挑選出若干屬于該類的實體(及相關屬性)作為種子(Seeds),找到包含這些種子的查詢和頁面標題,形成正則表達式或文法模式。這些模式將被用于抽取查詢和頁面標題中出現的其他實體及其屬性。如果當前抽取所得的實體未被包含在知識圖譜中,則該實體成為一個新的候選實體。類似地,如果當前被抽取的屬性未出現在知識圖譜中,則此屬性成為一個新的候選屬性。這里,我們僅保留置信度高的實體及其屬性,新增的實體和屬性將被作為新的種子發現新的模式。此過程不斷迭代直到沒有新的種子可以加入或所有的模式都已經找到且無法泛化。在決定模式的好壞時,常用的基本原則是盡量多地發現屬于當前類別的實體和對應屬性,盡量少地抽取出屬于其他類別的實體及屬性。上述方法被稱為基于Bootstrapping的多類別協同模式學習。
?
?
知識圖譜技術原理介紹 _ 36大數據.html??
?
?
作者::?綽號:老哇的爪子?(?全名::Attilax?Akbar?Al?Rapanui?阿提拉克斯?阿克巴?阿爾?拉帕努伊?)?
漢字名:艾提拉(艾龍),???EMAIL:1466519819@qq.com
轉載請注明來源:?http://www.cnblogs.com/attilax/
Atiend
?
?
?
轉載于:https://www.cnblogs.com/attilax/p/5998163.html
總結
以上是生活随笔為你收集整理的Atitit 知识图谱的数据来源的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 废纸现在回收多少钱一斤?
- 下一篇: 《闺怨词三首》第三句是什么