论文浅尝 | 实体图的预览表格生成
鏈接:ranger.uta.edu/~cli/pubs/2016/tabview-sigmod16-yan.pdf
動機
對于結構化數據和關系數據,通常使用Schema圖為數據庫的使用者提供基本信息。因此,作者提出了生成預覽表格(preview table)的方法,為實體圖中呈現重要的實體類型和關系。預覽表格可以幫助用戶快速粗略地預覽數據。它們可以在有限的顯示空間內給用戶提供實體圖的摘要信息,幫助用戶決定是否需要花費大量時間獲取并研究完整數據集。
實例
下圖為FreeBase種部分實體及實體間關系構成的一個實體圖。
下面兩個表格是一種可能的預覽表格。一個表格對應電影類,另一個表格對應演員類。
相關工作
一種解決方案是顯示對應于知識庫的Schema圖。雖然模式圖比相應的實體圖小得多,但它依舊包含大量的類型和關系,不易于演示和快速預覽。
另一種解決方案是通過Schema摘要技術提供Schema圖的摘要。然而,現有的一些方法只適用于關系數據和半結構數據,而不適合圖數據。雖然這些方法部分用在實體圖上是合理的,但有幾個原因會使它們失效。首先,Schema圖的摘要仍然可能非常大。其次,Schema摘要的目的是為了方便用戶編寫查詢,而我們目標是讓用戶明白實體圖的用途
概念
⒈ Preview Table
論文作者提出了預覽表(preview table)的實體圖摘要方法,預覽表格由多個表格構成,每個表格的列頭包含主鍵屬性(keyattribute,對應一種類型)和非主鍵屬性(no-keyattribute,對應一種關系),表格的行頭對應不同的實體。
⒉ Concise, Tightand Diverse Preview
針對不同的目標,文章提出了三種不同的優化目標,簡潔預覽(包含k個主鍵屬性),緊湊預覽(主鍵屬性區別較小),多樣性預覽(主鍵屬性區別較大)。
方法
表格生成方法,包括2個主要步驟:
⒈ Preview Scoring
對預覽表格的打分通過主鍵屬性和非主鍵屬性來計算
對于主鍵屬性基于覆蓋的打分方式考慮該屬性所能覆蓋的實體數量。
而基于隨機游走的打分方式,給定各邊的權重并計算出轉移矩陣,以穩定分布的概率作為打分。
對于非主鍵屬性,可以基于覆蓋和熵來進行打分。
⒉ Preview Discovery
根據不同的目標,文章提出了三種算法。
a)?? 蠻力算法,窮舉所有大小滿足要求的屬性選區,比較最終得分。
b)?? 動態規劃算法,使用動態轉移方程計算出最優的簡潔預覽。
c)?? Apriori風格算法,使用類似頻繁項集的算法窮舉可能的組合,求出最優的緊湊預覽和多樣性預覽。
實驗
⑴. 數據集:FreeBase上的五大類實體。
⑵. 實驗結果
論文作者在FreeBase數據集上進行了三組實驗分別驗證了預覽評分的精度,預覽生成算法的效率和總體質量。針對預覽評分的精度,文章對于主鍵屬性和非主鍵屬性分別進行了實驗并與標準結果進行了比較,不同的打分方法均取得了較好的精度。在性能實驗中動態規劃算法和Apriori算法較蠻力算法有很大提升。在總體質量實驗中,采用用戶打分的方式和其他方法進行了比較,結果用戶認為預覽表格更方便。
論文筆記整理:黃佳程,南京大學碩士,研究方向為知識圖譜、實體消解。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 实体图的预览表格生成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百度机器阅读理解比赛赛后总结
- 下一篇: OpenCV和tesseract-ocr