开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/rcwi-dataset
開放許可協議:CC BY-SA 4.0 (署名相似共享)
貢獻者:北京語言大學(闕孟溪、張宇飛、于東)
1. 摘要
中文領域的詞匯復雜度評估資源較為匱乏,且現有的外語數據集大多數只關注造成閱讀困擾的詞匯。中文相對復雜詞匯識別數據集(以下簡稱RCWI-Dataset)為針對中文母語者構建的詞匯復雜度評估資源,包含40613條樣本,三種詞匯復雜度類型,每條數據至少被三名中文母語標注員標注。該數據集為推動中文詞匯復雜度評估任務發展提供有力支撐。
2. 詞匯復雜度資源
中文詞匯復雜度資源以分級詞表為主,一般通過專家標注構建,數據質量高,但成本較高,規模較小。自然語言處理用的詞匯復雜度資源以詞匯簡化、復雜詞匯識別等任務為構建導向,標注句子中不能被獨立理解的詞匯。簡單將詞匯分為“復雜”或“不復雜”兩類的方式無法對詞匯的復雜度進行具體說明,且直接標注目標詞匯的方式主觀性較強。對此我們引入句子中其余詞匯作為客觀比較對象,對句子中超出平均難度的詞匯進行標注,稱為“相對復雜詞匯”。此外,我們對詞匯的復雜程度作出區分,與傳統二值化詞匯復雜度的資源相比包含更豐富的復雜度信息。
3. 數據集
我們采用唐玉玲等人構建的的漢語句子難度等級語料庫作為原始語料來源,該語料庫來自語文教材,涵蓋科普、記敘等多種文本體裁。我們根據原始句子等級比例抽取2-4等級的句子共2萬條。為了獲得更加可靠和多樣的標注結果,我們規定RCWI-Dataset的標注對象為:給定句子中,明顯超過句子平均詞匯難度的詞匯和詞組。若標注詞匯對閱讀理解造成困擾,標注為“Hard”,否則標注為“Complex”。根據試標注的結果確定了常見的三種標注情況,如表1所示。我們要求標注者在標注每條數據之前,先完成對句子的閱讀以獲得句子的整體詞匯難度。同時,考慮上下文對詞匯復雜度的影響,對于脫離當前上下文則無法準確理解的詞匯,同樣需要進行標注。
表1 三種常見的標注類型示例,橙色詞匯為“Complex”,紅色為“Hard”
Complex:能理解的但是超過句子平均詞匯難度的詞匯 |
1. 萬眾一心,冒著敵人的炮火,前進! 2. 正因為它不是一般的頑石,當然不能去做墻,做臺階,不能去雕刻,捶布。 |
| Hard:閱讀理解困難的詞匯 |
1. 見到人們受苦,鯀很著急,就把天上的土偷下來,去堵塞洪水。 2. 于是,伯父家蓋房,想以它壘山墻,但苦于它極不規則,沒棱角兒,也沒平面兒;用鏨破開吧,又懶得花那么大氣力,因為河灘并不甚遠,隨便去掮一塊回來,哪一塊也比它強。 |
| 無標注:句子中的詞匯都很簡單或者難度比較平均 |
1. 爸把我從床頭打到床尾,外面的雨聲混合著我的哭聲。 2.?當山間的清泉奔向溪流,當嘩啦啦的大雨砸向屋頂,當小水滴清脆地落到盛水的盆里,你總該聽到些什么了吧? |
由于復雜度標注具有較強的主觀性,以及和英文相比中文詞匯標注還隱性包含了詞匯邊界判定的環節,部分標注結果存在標注重疊、標注冗余、標注類別差異等現象,我們對語義不完整的標注進行補充,拆分去除了冗余標注。在合并此詞匯復雜度類別的環節中,標注員都來自大學生群體,母語水準要高于一般母語者,存在向下評估詞匯復雜度的可能性,因此保留復雜度最高的標簽。
我們選擇在現有的標注數據上構造負例樣本。在句子分詞后未標注詞匯的集合中按照詞頻進行排序,選取與正例詞匯等量的頻率最低的詞匯作為負例,標記為“Normal”類別。最終RCWI-Dataset中包含40613句子樣本,其中Complex標簽19218條、Hard標簽1169條、Normal標簽20226條,數據實例如下:
數據示例:
ID1 據王粲的《英雄記鈔》說,諸葛亮與徐庶、石廣元、孟公威等人一道游學讀書,三人務于精熟,而亮獨觀其大略。?? Hard 1 3 王粲
ID2 據王粲的《英雄記鈔》說,諸葛亮與徐庶、石廣元、孟公威等人一道游學讀書,三人務于精熟,而亮獨觀其大略。?? Complex 37 41 務于精熟
ID3 據王粲的《英雄記鈔》說,諸葛亮與徐庶、石廣元、孟公威等人一道游學讀書,三人務于精熟,而亮獨觀其大略。??? Normal 28 30 一道
4. 總結
針對中文詞匯復雜度評估領域相關資源的不足,我們構建了中文詞匯相對復雜度評估數據集RCWI-Dataset,該數據集包含多樣的詞匯復雜度信息,為中文詞匯復雜度評估領域提供數據支撐。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ACL2020 | Int
- 下一篇: java架构师进阶之独孤九剑:数据结构以