助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源
句子變換,是指根據(jù)給定中文句子,借助某種語(yǔ)言處理手段,擴(kuò)展出一定數(shù)據(jù)規(guī)模的中文句子集合,是一個(gè)從1到N的過程,目的在于解決搜索(查詢擴(kuò)展)、分類(樣本擴(kuò)充)、抽取(數(shù)據(jù)回標(biāo))、推薦與生成(關(guān)聯(lián)引導(dǎo))等多個(gè)工業(yè)級(jí)應(yīng)用任務(wù)。
我們發(fā)現(xiàn),在處理以上幾個(gè)任務(wù)的過程中,句子級(jí)別的操作,是以句子中的詞為基本單位來實(shí)現(xiàn)的,即以詞的更換、刪除,語(yǔ)序和組合規(guī)則的重組等操作為基本手段。
將詞的這種操作依據(jù)進(jìn)行有效整理和形式化,是一項(xiàng)重要的工作,我們?cè)趯?shí)際開發(fā)過程中,對(duì)該工作的成果進(jìn)一步歸類成“抽象知識(shí)”、“同義知識(shí)”、“簡(jiǎn)稱知識(shí)”三大類知識(shí)庫(kù),并將其中的部分?jǐn)?shù)據(jù)集開放至OpenKG,供大家下載使用。
本期內(nèi)容以開放的句子變換為主題,對(duì)常見的句子變換操作典型應(yīng)用場(chǎng)景、數(shù)據(jù)地平線開放的三大知識(shí)三元組概要,以及它們?cè)趯?shí)際句子變換中所能發(fā)揮的作用進(jìn)行介紹。
一、句子變換操作的典型應(yīng)用場(chǎng)景
句子變換在搜索(查詢擴(kuò)展)、分類(樣本擴(kuò)充)、抽取(數(shù)據(jù)回標(biāo))、推薦與生成(關(guān)聯(lián)引導(dǎo))等典型NLP傳統(tǒng)任務(wù)中均有應(yīng)用。具體體現(xiàn)在基于句子標(biāo)準(zhǔn)化的輿情文本聚合,基于句子擴(kuò)展的信息采集與推薦、基于句子變換的數(shù)據(jù)擴(kuò)充和數(shù)據(jù)回標(biāo)等三個(gè)方面。
1、 基于句子標(biāo)準(zhǔn)化的輿情文本聚合
文本去重是輿情分析的一項(xiàng)重要任務(wù),解決的方法包括基于標(biāo)題的去重、基于文本全文的去重、基于文檔摘要的去重、基于標(biāo)題與文檔元數(shù)據(jù)的去重等多種途徑。
處理速度和計(jì)算復(fù)雜度是去重過程中需要考慮的兩個(gè)重要因素,尤其是在項(xiàng)目工期緊且需要大規(guī)模進(jìn)行文本去重時(shí),將特定文本進(jìn)行代表內(nèi)容的標(biāo)準(zhǔn)化和規(guī)范化處理成為了一個(gè)重要手段。
圖1-文本去重系統(tǒng)中的指紋架構(gòu)圖
內(nèi)容的標(biāo)準(zhǔn)化和規(guī)范化,指將一個(gè)來源內(nèi)容生成一個(gè)唯一的md5指紋,指紋的值取決于標(biāo)準(zhǔn)后的結(jié)果。一般而言,常規(guī)的操作包括對(duì)內(nèi)容進(jìn)行停用詞處理、短句語(yǔ)序統(tǒng)一重排等,也有進(jìn)一步地在此基礎(chǔ)上進(jìn)行文本的詞義標(biāo)準(zhǔn)化映射、句子縮寫、句子復(fù)寫、句子翻譯。此外,也有加入一些其他的信息,如文本的時(shí)間信息、作者信息等進(jìn)行標(biāo)準(zhǔn)化融合。
2、 基于句子擴(kuò)展的信息采集與推薦
定點(diǎn)搜索和采集同樣也是輿情處理過程中的兩個(gè)重要手段。定點(diǎn)搜索,指針對(duì)關(guān)鍵詞或關(guān)鍵詞組成的query進(jìn)行擴(kuò)展,是搜索和采集的前置操作:如監(jiān)控“營(yíng)業(yè)收入下降”這一節(jié)點(diǎn)時(shí),考慮到目標(biāo)文檔中可能存在的表述不一致,需要需要進(jìn)行擴(kuò)展,形成“營(yíng)收下跌”、“營(yíng)收下降”、“經(jīng)營(yíng)收入下降”等多個(gè)關(guān)鍵詞。
圖2-基于同義知識(shí)庫(kù)的句子擴(kuò)展
基于句子擴(kuò)展的關(guān)聯(lián)推薦也是一個(gè)重要的應(yīng)用。通過對(duì)原先給定的query,通過識(shí)別出其中的關(guān)鍵信息,借助外部知識(shí)庫(kù),對(duì)關(guān)鍵信息集合中的元素進(jìn)行替換,如獲取抽象關(guān)系實(shí)體、同級(jí)關(guān)系(同屬一個(gè)抽象類)實(shí)體進(jìn)行替換,得到“美元貶值”擴(kuò)展成“人民幣貶值”和“貨幣貶值”等推薦結(jié)果。
3、 基于句子變換的數(shù)據(jù)擴(kuò)充與數(shù)據(jù)回標(biāo)
無論是分類任務(wù)還是抽取任務(wù),都存在著樣本不足、訓(xùn)練數(shù)據(jù)不夠的問題,為此,數(shù)據(jù)擴(kuò)充和數(shù)據(jù)回標(biāo)是兩個(gè)主要手段。其中,數(shù)據(jù)擴(kuò)充主要包括詞語(yǔ)替換和回譯等幾種方式。
詞語(yǔ)替換,指在不更改句子含義的情況下替換文本中出現(xiàn)的單詞,實(shí)現(xiàn)方式包括基于同義詞庫(kù)的替換 、基于詞嵌入替換、基于TF-IDF的單詞替換等,基于TF-IDF的單詞替換也常用于確定給定句子中需要替換的詞語(yǔ)成分;借助回譯進(jìn)行數(shù)據(jù)增強(qiáng)也是一種方案,即利用機(jī)器翻譯來釋義文本,將這個(gè)新句子用作原始文本的擴(kuò)充結(jié)果。
圖3-基于遠(yuǎn)程監(jiān)督思想的數(shù)據(jù)回標(biāo)
遠(yuǎn)程監(jiān)督思想下基于已有知識(shí)庫(kù)的數(shù)據(jù)回標(biāo)是獲取大規(guī)模標(biāo)注數(shù)據(jù)的重要方法,其要求在給定知識(shí)三元組的情況下,在非結(jié)構(gòu)化文本中進(jìn)行回查,假設(shè)同時(shí)出現(xiàn)兩個(gè)實(shí)體的句子潛在地存在著實(shí)體關(guān)系。不過,這一操作在實(shí)際的處理過程中噪聲會(huì)較大。因此,為了擴(kuò)大候選召回,可借助外部知識(shí)庫(kù)對(duì)兩個(gè)實(shí)體進(jìn)行擴(kuò)展,同時(shí)可以引入實(shí)體之間的關(guān)系標(biāo)記詞以及標(biāo)記詞的擴(kuò)展詞作為增設(shè)條件提高準(zhǔn)確率。
二、句子變換中的開放知識(shí)三元組
準(zhǔn)確而大規(guī)模的記錄詞語(yǔ)之間的同義、抽象、同義等關(guān)系的知識(shí)三元組,是完成以上三個(gè)應(yīng)用任務(wù)的堅(jiān)實(shí)基礎(chǔ),在OpenKG中,我們開源了積累的部分中文抽象知識(shí)、中文同義知識(shí)、中文簡(jiǎn)稱三元組數(shù)據(jù)集,供大家下載使用。下面是對(duì)該數(shù)據(jù)集的介紹:
1、35萬中文抽象知識(shí)三元組
1)地址 :
http://www.openkg.cn/dataset/35
圖4-35萬中文抽象知識(shí)三元組詳情截圖
2)樣例與介紹
該數(shù)據(jù)集開放了高質(zhì)量的346,048條中文抽象知識(shí)三元組知識(shí)庫(kù),來源于公開網(wǎng)絡(luò)文本抽象三元組挖掘、人工手工整理等多個(gè)渠道,覆蓋商品、行業(yè)、動(dòng)作、性狀、名詞性實(shí)體等多種類型。樣例如下圖所示:
圖5-35萬中文抽象知識(shí)示例截圖
該知識(shí)庫(kù)可用于查詢擴(kuò)展、句子改寫、句子相似度計(jì)算、句子推薦等多個(gè)應(yīng)用場(chǎng)景。
2、 43萬中文同義知識(shí)三元組
1) 地址:
http://www.openkg.cn/dataset/sim-knowlege-triples
該數(shù)據(jù)集開放了43萬中文同義知識(shí)三元組,來源于公開數(shù)據(jù)文本同義詞挖掘、詞典整理與人工修正等多個(gè)渠道。樣例如下圖所示:
圖7-43萬中文同義知識(shí)示例截圖
該知識(shí)庫(kù)可用于同義詞擴(kuò)展相關(guān)應(yīng)用,如搜索擴(kuò)展查詢、句子相似度計(jì)算、數(shù)據(jù)增強(qiáng)等。
3、 13萬中文簡(jiǎn)稱知識(shí)三元組
地址:http://www.openkg.cn/dataset/abbr-knowlege-triples
圖8-13萬中文簡(jiǎn)稱知識(shí)詳情截圖
2) 介紹與樣例
該數(shù)據(jù)集開放了136,081條中文簡(jiǎn)稱知識(shí)三元組,涉及高校、商品名稱、公司簡(jiǎn)稱等多個(gè)領(lǐng)域,來自公開網(wǎng)絡(luò)文本簡(jiǎn)稱抽取、人工整理等多個(gè)渠道。樣例如下圖所示:
圖9-13萬中文簡(jiǎn)稱知識(shí)示例截圖
中文簡(jiǎn)稱知識(shí)庫(kù),可用于簡(jiǎn)稱抽取評(píng)測(cè)、實(shí)體鏈接、搜索查詢擴(kuò)展、句子改寫等多個(gè)場(chǎng)景。
三、總結(jié)
句子級(jí)別的操作,是以句子中的詞為基本單位來實(shí)現(xiàn)的,即以詞的更換、刪除,語(yǔ)序和組合規(guī)則重組等操作為基本手段。將詞的這種操作依據(jù)進(jìn)行有效整理以及形式化,是一項(xiàng)重要的工作,我們將這種形式化的成果進(jìn)一步歸類成“抽象知識(shí)”、“同義知識(shí)”、“簡(jiǎn)稱知識(shí)”三大類知識(shí)庫(kù),并將其中的一部分?jǐn)?shù)據(jù)集開放至OpenKG:
346048條中文抽象知識(shí)三元組知識(shí)庫(kù),可用于查詢擴(kuò)展、句子改寫、句子相似度計(jì)算、句子推薦等多個(gè)應(yīng)用場(chǎng)景;
43萬中文同義知識(shí)三元組,可用于同義詞擴(kuò)展相關(guān)應(yīng)用,如搜索擴(kuò)展查詢、句子相似度計(jì)算、數(shù)據(jù)增強(qiáng)等場(chǎng)景;
136,081條中文簡(jiǎn)稱知識(shí)三元組,涉及高校、商品名稱、公司簡(jiǎn)稱等多個(gè)領(lǐng)域,可用于簡(jiǎn)稱抽取評(píng)測(cè)、實(shí)體鏈接、搜索查詢擴(kuò)展、句子改寫等多個(gè)場(chǎng)景。
底層知識(shí)三元組,能夠在句子變換中發(fā)揮重要作用,具體體現(xiàn)在基于句子標(biāo)準(zhǔn)化的輿情文本聚合,給予句子擴(kuò)展的信息采集與推薦、基于句子變換的數(shù)據(jù)擴(kuò)充和數(shù)據(jù)回標(biāo)等幾個(gè)方面。
我們認(rèn)為,底層知識(shí)庫(kù)是自然語(yǔ)言處理的堅(jiān)實(shí)基礎(chǔ),可在工業(yè)界各項(xiàng)算法的實(shí)施中發(fā)揮奠基性和落地性的支持。
參考鏈接
1、http://www.openkg.cn/organization/datahorizon
2、http://www.openkg.cn/dataset/35
3、http://www.openkg.cn/dataset/sim-knowlege-triples
4、http://www.openkg.cn/dataset/abbr-knowlege-triples
5、https://www.datahorizon.cn
總結(jié)
以上是生活随笔為你收集整理的助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JAVA AIO
- 下一篇: 【JavaWeb】XML和Jsoup的相