开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/melbench
GitHub地址:https://github.com/seukgcode/MELBench
開放許可協(xié)議:CC BY-SA 4.0 (署名相似共享)
貢獻者:東南大學(xué)(汪鵬、周星辰、鄧臻凱、李國正、謝佳鋒、吳江恒)
1. 摘要
多模態(tài)實體鏈接是多模態(tài)數(shù)據(jù)處理的基礎(chǔ)任務(wù)之一,旨在將多模態(tài)數(shù)據(jù)中的實體鏈接到知識圖譜中,在多模態(tài)數(shù)據(jù)理解、多模態(tài)知識圖譜、多模態(tài)問答中具有廣泛應(yīng)用意義。然而,目前開源和能重現(xiàn)的多模態(tài)實體鏈接數(shù)據(jù)集還很少,一定程度上制約著相關(guān)工作的研究。
東南大學(xué)團隊發(fā)布的多模態(tài)實體鏈接數(shù)據(jù)集MELBench包含3個任務(wù):Weibo-MEL、Wikidata-MEL和Richpedia-MEL數(shù)據(jù)集,數(shù)據(jù)源分別包含來自社交媒體、百科知識和多模態(tài)知識圖譜等領(lǐng)域,分別包含2.5萬、1.8萬和1.7萬條多模態(tài)實體鏈接數(shù)據(jù),每條數(shù)據(jù)均為人工標(biāo)注,包含與目標(biāo)實體相關(guān)的文本信息和視覺信息。該數(shù)據(jù)集能夠為多模態(tài)實體鏈接(MEL)任務(wù)提供基準(zhǔn)數(shù)據(jù)支持。
2. 多模態(tài)實體鏈接(MEL)
實體鏈接(EL)是將實體描述映射到知識圖譜中相應(yīng)實體的任務(wù),在語義檢索、推薦系統(tǒng)和問答系統(tǒng)等任務(wù)中起到重要的作用。現(xiàn)有的方法主要利用文本信息進行實體鏈接。然而,一方面,通過簡短粗略的文本獲取相應(yīng)的實體具有很大的挑戰(zhàn)性。另一方面,在現(xiàn)實世界的數(shù)據(jù)中,例如社交媒體、百科知識和多模態(tài)知識圖譜等領(lǐng)域數(shù)據(jù),通常同時使用文本和視覺信息描述相應(yīng)實體。因此,有必要結(jié)合多模態(tài)信息解決EL問題,這一任務(wù)也被稱為多模態(tài)實體鏈接(MEL)。
3.?數(shù)據(jù)集構(gòu)建
為了構(gòu)建大規(guī)模MEL數(shù)據(jù)集,促進相關(guān)研究,我們提出了一種MEL數(shù)據(jù)集構(gòu)建方法,包括五個階段,如下圖所示。在多模態(tài)信息抽取階段,我們選擇不同的現(xiàn)實世界多模態(tài)數(shù)據(jù)源,提取文本和視覺信息;在提及抽取階段,我們從文本信息中獲取提及,并保留可能存在相應(yīng)實體的提及;在實體抽取階段,我們用上一階段保留的提及查詢知識圖譜,收集相關(guān)實體列表,并保留提及相應(yīng)的實體;在三元組構(gòu)建階段,我們將相應(yīng)的提及和實體合并為提及-實體對,并將它們與多模態(tài)信息抽取階段獲取的文本和視覺信息合并為MEL三元組;最后,在數(shù)據(jù)集構(gòu)建階段,我們按照7:1:2的比例,將數(shù)據(jù)分為訓(xùn)練集,驗證集和測試集。
4.?數(shù)據(jù)集詳情
基于上述的MEL數(shù)據(jù)集構(gòu)建方法,我們完成了三個MEL數(shù)據(jù)集構(gòu)建:
Weibo-MEL 采用微博作為多模態(tài)數(shù)據(jù)源,并采用 CN-DBpedia 作為知識圖譜。數(shù)據(jù)集包含 25,602 個樣本,對應(yīng) 31,516 個提及-實體對。
Wikidata-MEL 采用 Wikidata 和 Wikipedia 作為多模態(tài)數(shù)據(jù)源,并采用 Wikidata 作為知識圖譜。數(shù)據(jù)集包含 18,880 個樣本,對應(yīng) 22,534 個提及-實體對。
Richpedia-MEL 采用 Richpedia 和 Wikipedia 作為多模態(tài)數(shù)據(jù)源,同樣采用 Wikidata 作為知識圖譜。數(shù)據(jù)集包含 17,806 個樣本,對應(yīng) 20,752 個提及-實體對。
此外,我們統(tǒng)計了數(shù)據(jù)集的文本長度和提及數(shù)量,如下圖所示,三個數(shù)據(jù)集具有較大差異,體現(xiàn)了不同領(lǐng)域的數(shù)據(jù)特征。
5. 致謝
數(shù)據(jù)集由東南大學(xué)KGCODE實驗室的周星辰、鄧臻凱、李國正、謝佳鋒、吳江恒等同學(xué)完成,指導(dǎo)老師汪鵬。
?
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的开源开放 | 多模态实体链接数据集MELBench(CCKS2021)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ICLR2021 | 从信
- 下一篇: 论文浅尝 | Data Intellig