语言资源的类别、搜索与搭建策略
語言資源的類別、搜索與搭建策略
一、引言
語言資源,本身是一個寬泛的概念,即語言+資源,語言指的是資源的限定域,資源=資+源,是資料的來源或者匯總,加在一起,也就形成了這樣一種界定:任何語言單位形成的集合,都可以稱為語言資源。語言資源是自然語言處理任務(wù)中的一個必不可少的組成部分,一方面語言資源是相關(guān)語言處理任務(wù)的支撐,為語言處理任務(wù)提供先驗知識進行輔助,另一方面,語言處理任務(wù)也為語言資源提出了需求,并能夠?qū)φZ言資源的搭建、擴充起到技術(shù)性的支持作用。因此,隨著自然語言處理技術(shù)的不斷發(fā)展,自然語言處理需求在各個領(lǐng)域的不斷擴張、應(yīng)用,相關(guān)語言資源的構(gòu)建占據(jù)了越來越為重要的地位。作者碩士期間所在的研究機構(gòu)為國家語言資源監(jiān)測與研究平面媒體中心,深受導師所傳授的語言資源觀熏陶,并在實際的學習、工作過程中,動手實踐,形成了自己的一些淺薄的語言資源認識,現(xiàn)在寫出來,供大家一起討論。這篇文章的名稱為“語言資源搜索、搭建策略”,主要介紹一些自己對語言資源的搜索,搭建過程中的一些心得。
二、語言資源的分類
前言中說到,任何語言單位的集合都可以稱為語言資源,比如我有一個個人的口頭禪集合,這個就可以稱為一個語言資源庫,在你實際生活中進行言語活動時,你其實就在使用這個語言資源庫。再比如說,一個班級中的學生名單,其實也可以當作是一種語言資源,這個語言資源在進行班級學生點名、考核的時候也大有幫助。當然,此處所討論的語言資源是從自然語言處理應(yīng)用的角度上出發(fā)的。總的來說,我把它歸為以下兩種類型:
1、領(lǐng)域語料庫
領(lǐng)域語料庫,是從語料的這個角度來講的,這里的語料,界定成文本級別(以自然語句為基礎(chǔ)級別形成的文本集合,即可以是句子、段落、篇章等)。領(lǐng)域語料庫,可以根據(jù)不同的劃分規(guī)則而形成不同的語料類別:
1)根據(jù)所屬領(lǐng)域,可以進一步細化成不同領(lǐng)域的語料庫。包括金融領(lǐng)域語料、醫(yī)藥領(lǐng)域語料、教育領(lǐng)域語料、文學領(lǐng)域語料等等。
2)根據(jù)所屬目的,可以進一步細化為:評測語料(為自然語言處理技術(shù)pk而人工構(gòu)造的一些評測語料,如ACE,MUC等國際評測中所出現(xiàn)的如semeval2014,snli等);工具語料(指供自然語言處理技術(shù)提供資源支撐的語料)
3)根據(jù)語料加工程度的不同,可進一步分為:熟語料(指在自然語言單位上添加人工的標簽標注,如經(jīng)過分詞、詞性標注、命名實體識別、依存句法標注形成的語料),生語料(指直接收集而未經(jīng)加工形成的語言資源集,如常見的微博語料,新聞?wù)Z料等)
4)根據(jù)語料語種的不同,可進一步分為:單語語料和多語語料,多語語料指的是平行語料,常見于機器翻譯任務(wù)中的雙語對齊語料(漢-阿平行語料庫,漢-英平行語料庫)等
5)根據(jù)語料規(guī)模的不同,可以進一步分為:小型語料庫,中型語料庫,大型語料庫。至于小型、中型、大型的界定,可根據(jù)實際領(lǐng)域語料的規(guī)模而動態(tài)調(diào)整
2、領(lǐng)域詞庫
領(lǐng)域詞庫,指以句級以下語言單位形成的語言資源庫,這個層級的語言單位可以是筆畫、偏旁部首、字、詞、短語等。同樣的,領(lǐng)域詞庫也可以進一步細分。
1)領(lǐng)域特征詞庫。這里所說的領(lǐng)域特征詞庫,指的是與領(lǐng)域強相關(guān),具有領(lǐng)域區(qū)別能力形成的詞語集合,如體育領(lǐng)域中常見的“籃球”、“足球”等詞,文學領(lǐng)域常見的“令狐沖”、“魯迅”等詞,又如敏感詞庫等,這些詞常常可作為分類特征而存在。
2)語法語義詞庫。語義詞庫的側(cè)重點在與語言的語法層面和語義層面:
a)語法詞庫:北大的語法信息詞典,北大的實體概念詞典、Hownet語義詞典這三類詞典,這幾個語法詞庫,在對詞的語法功能上都做了不同的工作,對詞的內(nèi)部結(jié)構(gòu)信息進行了詳細的標注,如北大的語法信息詞典,以詞類為劃分標準講漢語的常用詞進行了劃分,并對詞性、搭配(前接成分和后接成分)進行了詳細的標注;Hownet語義詞典從義項的角度對詞的義元進行了分解和注釋。
b)語義詞庫:這類語義詞點,側(cè)重點不在詞語的內(nèi)部語法結(jié)構(gòu),而在詞語的整體語義上。這類詞庫,常見的詞庫有哈工大發(fā)布的同義詞詞林擴展版,這個詞庫將同義詞按照語義的相近程度進行了不同層次的聚類,可以作為同義詞擴展提供幫助。另一個是情感分析任務(wù)中常用的情感詞典,這類詞典主要公開的詞典包括大連理工大學信息檢索實驗室公開的情感本體詞庫、hownet、香港中文大學、臺灣清華大學公開的情感詞庫(具體包括情感詞庫、否定詞庫、強度詞庫)等。另外,工業(yè)界,有boson公開的微博情感詞庫(詞的規(guī)模比較大,但標注信息不是很精準)。還有的,則是中文的反義詞庫等,這個可以參考我的github項目,里面對這些詞庫也有一些涉及。
三、語言資源的搜索策略
從根本上來說,語言資源的構(gòu)建是受具體應(yīng)用需求驅(qū)動的,有了應(yīng)用的需求,才能造就璀璨奪目的語言資源文化。在上一節(jié)中說到,目前網(wǎng)上開源的語言資源有很多,大家根據(jù)自己的業(yè)務(wù)需求或者目的,或多或少都能找到對應(yīng)的資源。而單單這個“找”字,其實有的時候,也急壞了一批人。因此,在這一小節(jié)中,我來談?wù)劇罢Z言資源的搜索策略”。
語言資源的搜索策略,指針對自己應(yīng)用需求,而在網(wǎng)絡(luò)開源信息當中尋求對口資源的一種方法論。根據(jù)自己的經(jīng)驗,語言資源的搜索策略大致可以分成三步走策略:
1)確定自己要搜什么。不要一上來就去百度里面搜索關(guān)鍵詞,這是最忌諱的。每次我們拿到一個語言資源需求時,應(yīng)該具體想明白自己要搜的這個東西。想三個問題:
搜的這個東西是什么?
搜的這個東西樣式是怎樣的?
搜的這個東西的目標數(shù)量有多少?
2)確定搜索的目標地。在想好自己要搜什么的時候,接下來就想去哪兒搜的問題。其實解決去哪兒搜的問題,可以遵循以下兩個原則:
一是專業(yè)詞庫的專業(yè)詞典戶優(yōu)先。這個意思是,專業(yè)的語言資源有很大概率都出現(xiàn)在專業(yè)的網(wǎng)站上,例如,我想找反義詞的相關(guān)詞庫,這是詞這一維度的,而且是一類語義詞,首先想到的應(yīng)該是詞典。這個對應(yīng)的,其實就可以去找相應(yīng)的詞典網(wǎng)站,如字典網(wǎng)、在線反義詞詞典等。說到詞典,其實可以想到什么地方詞典最多,答案很明顯,那就是有個叫“輸入法詞庫”的東西,我們在打字的時候,其實是一個個詞往外蹦出來的,因此現(xiàn)在的輸入法有很多詞庫,有的還提供上傳用戶個人詞庫的接口。我github中有一個關(guān)于搜狗詞庫下載及轉(zhuǎn)換的一個項目,可以對搜狗輸入法詞庫中的.scel格式的詞庫進行下載和轉(zhuǎn)碼,大家可以嘗試一下。話說,搜狗的詞庫的類別和數(shù)目真的聽過。另外,可以再從百度輸入法等多個輸入法進行擴展。此外,如果在專業(yè)的詞典戶中不存在的時候,那么則可以進一步義“你的詞+詞典”這種檢索方式在百度文庫、百度網(wǎng)盤、新浪微盤中進行搜索。
二是特征語料的垂直網(wǎng)站優(yōu)先。這個主要特指相關(guān)的領(lǐng)域特征詞庫或者類別語料。目前行業(yè)的發(fā)展,催生了很多行業(yè)的模范網(wǎng)站,這些網(wǎng)站對某個行業(yè)做的比較深入,直接帶來一個好處就是垂直語料的集大成。這個時候,我們其實就可以在這些網(wǎng)站中下功夫做工作。當然,這其實分成兩種類型,
a)如果針對的是句子或以上級別的語料資源的需求時,可直接就垂直網(wǎng)站中的對應(yīng)的板塊下進行采集即可,里面有個需要注意的點,就是要看充分利用網(wǎng)站中的各個信息,如板塊信息、標簽頁信息等,這是網(wǎng)站采編人員根據(jù)自己的業(yè)務(wù)體系自動梳理出來的。
b)如果是要做詞語級別的,那其實可以嘗試從板塊類別、標簽類別、類目體系等方面入手,這個解決部分的問題,而如果需要進一步擴充的話,則可以使用a)+ b)的方式,通過收集領(lǐng)域語料,再借助b)中收集的詞作為種子詞,使用詞庫擴充方法進行擴充。目前擴充的方式,包括:
一基于bootstrapping+wordvector/同義詞庫的方式不斷迭代擴充等。
二基于lda/tfidf/co-occurance/mi等特征詞提取的方式不斷迭代擴充。
這個步驟,最終需要形成目標標地的一個名單,可以以列表形式展現(xiàn)。
3)全力搜索
在完成步驟2)之后,就按圖索驥吧,動用全部家當,手動,寫爬蟲等等。這一部分不再贅述。
四、語言資源的搭建策略
語言資源的搭建,指的是語言資源的整個搭建過程。其實是要解決四個問題,一個是語言資源的收集問題;二是語言資源的融合標準化問題;三是語言資源的動態(tài)更新問題;四是語言資源的共享與聯(lián)盟問題。下面就這四點展開闡述:
1、語言資源收集的問題。上一節(jié)中說到的語言資源搜索策略中,講述了語言資源搜索過程中的三步走策略,在這個步驟完成之后,會得到一系列的詞庫。這些詞庫可能初期不會特別完善,往往還需要人工使用啟發(fā)式規(guī)則進行人工去噪的工作。
2,語言資源的融合標準化問題。通過不同方式收集起來的語言資源,往往會存在一個格式不對稱的問題,這有點像知識圖譜中的知識融合問題。因此,為了解決這個問題,我們通常需要制定一個標準化的語言資源格式,例如,在構(gòu)建情感詞表的過程當中,有的情感詞表沒有強度標記,有的強度值范圍不一樣,有的情感詞表的標記不一,這個時候往往需要標準化,給定一個標準化的樣式,再將不同來源的情感詞按照這個標記做相應(yīng)的調(diào)整。我在實際的工作過程中,常常把這種問題類別成知識圖譜構(gòu)建過程中的schema搭建問題,信息抽取過程中的slot-definition問題。先把規(guī)范和標準搭好,再去統(tǒng)一標準化。
3,語言資源的動態(tài)更新問題。知識和信息的價值,在很大程度上都在于它的一種實時性,語言資源作為一種常識性知識庫,能夠保證自身的一種與時俱進,將能夠最大限度地發(fā)揮自身的價值。而從實踐的角度上來說,語言資源的動態(tài)更新,可以靠人工去維持,去動態(tài)及時更新,也可以建立一種動態(tài)監(jiān)測和更新機制,讓機器自動地去更新。這類其實可以參考知識圖譜更新的相關(guān)工作。
4,語言資源的共享與聯(lián)盟問題。語言資源是否共享,其實是一個與業(yè)務(wù)敏感以及開源意識想結(jié)合的一種決策,有的資源因為某種業(yè)務(wù)敏感或者開源意識不夠open而無法共享,當然還有其他因素成分在,不過,語言資源最好是需要共享的,這樣能夠最大力度的發(fā)揮語言資源在各個領(lǐng)域的應(yīng)用。語言資源的聯(lián)盟問題,更像是對開源語言資源的一種鏈接與互聯(lián)。這類問題是對當前的資源零散、碎片化問題的一個思考,前面也說到,目前情感分析的詞表有很多個,語法和語義詞庫也有很多個,但每個人在構(gòu)建時的出發(fā)點不同,構(gòu)建者也分布在不同的高校或機構(gòu)當中,這些資源雖然在個數(shù)上會有增長,但隨著時間的推移,這種零散化的現(xiàn)象將會越來越嚴重。
五、總結(jié)
自然語言處理,是人工智能皇冠上的一顆明珠,懂語言者得天下,語言資源在自然語言處理中扮演著舉足輕重的作用,懂語言資源者,分得天下。目前開放的網(wǎng)絡(luò)環(huán)境,對語言資源的大繁榮提供了很大的契機。語言資源構(gòu)建是一門學問,也是一種手段,現(xiàn)在自然語言處理技術(shù)也對語言資源的構(gòu)建提供了技術(shù)上的支持,如何把握語言資源搜索策略,搭建策略,重點解決語言資源的動態(tài)更新、共享與聯(lián)盟問題,將是語言資源建設(shè)未來需要解決的問題。
總結(jié)
以上是生活随笔為你收集整理的语言资源的类别、搜索与搭建策略的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【手撕算法】字符串
- 下一篇: 当知识图谱遇上推荐系统(总述和推荐)