第三章 词汇与分词技术
文章目錄
- 1. 中文分詞
- 1.1 什么是詞與分詞規(guī)范
- 1.2 兩種分詞標(biāo)準(zhǔn)
- 1.3 歧義、機(jī)械分詞、語言模型
- 2. 系統(tǒng)總體流程與詞典結(jié)構(gòu)
- 2.1 概述
- 2.2 中文分詞流程
- 2.3 分詞詞典結(jié)構(gòu)
- 2.4 命名實(shí)體的詞典結(jié)構(gòu)
本章講解漢語自然語言處理的第一項(xiàng)核心技術(shù):中文(或漢語)詞匯自動(dòng)切分,也稱為中文分詞技術(shù)。從1979年,中國就開始進(jìn)行及其可讀語料庫的建設(shè),專業(yè)的高校和研究機(jī)構(gòu)紛紛建立大規(guī)模中文語料庫。這個(gè)階段歷經(jīng)十多年之久,由于語料庫建設(shè)之初,許多工作都要從零開始,分詞任務(wù)都由專業(yè)人員手工完成。這是一項(xiàng)繁重而枯燥的工作。即便如此,受到人為主觀因素的影響,人工分詞的標(biāo)準(zhǔn)并不統(tǒng)一,語料精度也不高。雖然是國家級(jí)的項(xiàng)目,所謂的“大規(guī)模”語料庫的規(guī)模不過也就是百萬級(jí)。因此,迫切需要統(tǒng)一的分詞規(guī)范及適合大規(guī)模語料的高精度中文分詞算法。
中文分詞的研究經(jīng)歷了二十來年,現(xiàn)在看來基本上分為如下三個(gè)流派。
- 機(jī)械式分詞法(基于字典)。機(jī)械分詞的原理式將文檔中的字符串與詞典中的詞條進(jìn)行逐一匹配,如果字典中找到某個(gè)字符串,則匹配成功,可以切分,否則不予切分。基于詞典的機(jī)械分詞法,實(shí)現(xiàn)簡單、實(shí)用性強(qiáng),但機(jī)械分詞法的最大缺點(diǎn)就是詞典的完備性不能得到保證。據(jù)統(tǒng)計(jì)喲個(gè)一個(gè)憨厚70000個(gè)詞的詞典去切分含有15000個(gè)詞的語料庫,仍然有30%以上的詞條沒有被切分出來,也就是說有4500個(gè)詞沒有在詞典中登錄。
- 基于語法和規(guī)則的分詞法。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來進(jìn)行詞性標(biāo)注,以解決分詞歧義現(xiàn)象。因?yàn)楝F(xiàn)有的語法知識(shí),句法規(guī)則十分籠統(tǒng)、復(fù)雜,基于語法和規(guī)則的分詞法所能達(dá)到的精確度還遠(yuǎn)遠(yuǎn)不能令人滿意。
- 基于統(tǒng)計(jì)的分詞法。其基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計(jì)頻率來決定其是否構(gòu)成詞。詞是字的組合,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此,字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映它們成為詞地可信度。
針對(duì)這些問題,經(jīng)多年的不懈努力,最終較成功地實(shí)現(xiàn)了中文詞匯的自動(dòng)切分技術(shù)。本章簡要介紹了 ICTCLAS 中文分詞算法的來源和現(xiàn)狀,以及實(shí)現(xiàn)了 NShort 最短路徑算法的一些著名的開源框架。為了讀者理解方便,我們選擇HaNLP系統(tǒng)提供的開源框架,結(jié)合實(shí)例,詳細(xì)分析和講解著名的 NShort 最短路徑分詞方法。內(nèi)容包括:一元詞網(wǎng)與原子切分、生成二元詞圖、NShort 最短路徑、命名實(shí)體識(shí)別、細(xì)分階段等內(nèi)容。
1. 中文分詞
1.1 什么是詞與分詞規(guī)范
什么是詞,我們?nèi)绾谓缍h語詞呢?古往今來,漢字雖然有5萬多個(gè),但常用的漢字大約僅有6000個(gè)。即便如此,其中很多漢字在日常生活中較少用到。然而,這些有限的漢字足以維持詞匯的長期更新,因?yàn)閿U(kuò)大中文詞匯的方法是通過構(gòu)造漢字的符合新詞,而不是創(chuàng)造新的字符來完成的。這就造成了漢語中所謂的詞與短語之間沒有明確的界限。這可能也就是中國的一些語法學(xué)家認(rèn)為,中文沒有詞語而只有漢字的原因,并創(chuàng)造了一個(gè)術(shù)語——“字短語”來代替?zhèn)鹘y(tǒng)的詞匯。東振東就認(rèn)為:“‘詞或字符’的爭論源于它們都急于給中國語言一個(gè)硬規(guī)范的共同基礎(chǔ)。遺憾的是,中文不是那么明確或硬的,它是軟的。我們必須認(rèn)識(shí)到其‘柔軟度’”。
除鉤子法的原因之外,人們還因?yàn)樽陨淼姆窖浴⑹芙逃潭取單幕炔町愐蛩?#xff0c;對(duì)詞匯的認(rèn)識(shí)也不同。
隨著NLP的大規(guī)模應(yīng)用,計(jì)算語言學(xué)界逐漸統(tǒng)一了漢語詞匯的標(biāo)準(zhǔn)。從最初的“結(jié)合緊密,使用穩(wěn)定”到信息處理領(lǐng)域的《信息處理用現(xiàn)代漢語分詞規(guī)范》的制定,都是去頂漢語分詞標(biāo)準(zhǔn)的一種嘗試,該文關(guān)于漢語詞的定義給出了如下說明。
從計(jì)算語言學(xué)的角度來看,如果把一個(gè)句子理解為一個(gè)特殊的可計(jì)算的邏輯表達(dá)式,那么句子中的一個(gè)詞就是表達(dá)式中的一個(gè)可計(jì)算符號(hào),有的表示為連接的符號(hào),如連詞“然后”、“而且”這樣的虛詞;有的表示為動(dòng)作、狀態(tài)(函數(shù)的簽名),如“出現(xiàn)”、“思考”當(dāng)這樣的動(dòng)詞;有的表示為事物的概念,如“中國”、“泰山”等這樣的名詞。
本書設(shè)計(jì)的分詞規(guī)范有如下兩大類:第一類包括《北大(中科院)詞性標(biāo)注》、《現(xiàn)代漢語語料庫加工規(guī)范——詞語切分與詞性標(biāo)注》、《北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范》三篇文章,讀者可從http://www.threedweb.cn/thread-1584–1-1.html、http://www.threedweb.cn/thread-437-1-2.html下載;第二類為《賓州樹庫中文分詞規(guī)范》,讀者可從http://www.threedweb.cn/thread-1478-1-1.html下載。
本文主要介紹中文分詞中最常用的《北大(中科院)詞性標(biāo)注》(以下簡稱《北大規(guī)范》)的基本規(guī)則。
《信息處理用現(xiàn)代漢語分詞規(guī)范》和傳統(tǒng)的語法教育中將漢語的此類主要分為 13 種:名詞、動(dòng)詞、代詞、形容詞、數(shù)詞、量詞、副詞、介詞、連詞、助詞、語氣詞、嘆詞和象聲詞。
這與朱德熙先生提出的19種分類法有所不同。朱先生的分類法還包括:時(shí)間詞、處所詞、方位詞、區(qū)別詞、狀態(tài)詞等。
除此之外,《北大規(guī)范》還加入了4個(gè)兼類謂詞:副動(dòng)詞、名動(dòng)詞、副形詞、名形詞;最后還增加了前綴、后綴、成語、簡稱、習(xí)用語 5 中國輔助詞類。這樣《北大規(guī)范》就形成了40種詞類。
修改后的現(xiàn)代漢語詞語分類體系對(duì)照表。
如表格所示,從分詞的角度來看,這兩種切分標(biāo)準(zhǔn)之間的差距在于被大標(biāo)準(zhǔn)除考慮到詞匯的語法特征之外,還兼顧了詞的語義特征。但從語義研究的角度來看,這些語義特征并不完備,不過一些更細(xì)節(jié)的詞性可劃歸到其父類之中。
除此之外,表中還有一個(gè)問題需要澄清,即“附加類別”種的各個(gè)子類。下面由簡而繁逐個(gè)說明。
- 語素。語素是構(gòu)成詞的最小單位,其粒度小于詞匯。是否需要進(jìn)行切分可根據(jù)用戶需求,從語言處理的角度來看,語素級(jí)別的切分使用范圍并不大。例如,“毛澤東”在《北大標(biāo)準(zhǔn)》中常切分為:“毛/澤東”。本書建議作為一個(gè)完整的詞來對(duì)待。
- 前后綴。比較典型的前/后綴包括:初(初一)、阿(阿姨、阿爸)、老(老先生)、第(第一、第二)、兒(花兒)、們(男人們、同志們)。這要根據(jù)實(shí)際情況來做處理。其切分標(biāo)準(zhǔn)按照前/后綴的【能產(chǎn)型】和【語義完整性】兩個(gè)標(biāo)準(zhǔn)來切分。例如,“初一”的“初”作為前綴,能產(chǎn)性較弱,不予切分;“們”的能產(chǎn)性比較強(qiáng),硬座切分,但也不絕對(duì)。“人們”的語義完整性更強(qiáng),可不做切分。
有關(guān)更多的切分細(xì)節(jié)可參照前文給出的相應(yīng)文檔,并結(jié)合自身的需求,指定切分規(guī)則。
1.2 兩種分詞標(biāo)準(zhǔn)
由于語素對(duì)詞匯的構(gòu)成也產(chǎn)生影響,實(shí)際應(yīng)用中,漢語分詞也分為兩個(gè)粒度。粗粒度分詞:將詞作為語言處理最小的基本單位進(jìn)行切分。細(xì)粒度分詞:不僅對(duì)詞匯進(jìn)行切分,也要對(duì)詞匯內(nèi)部的語素進(jìn)行切分。
例如,原始串:浙江大學(xué)坐落在西湖旁邊。
- 粗粒度:浙江大學(xué)/坐落/在/西湖/旁邊。
- 細(xì)粒度:浙江/大學(xué)/坐落/在/西湖/旁邊。
粗粒度將“浙江大學(xué)”看作一個(gè)完整的概念,對(duì)應(yīng)一個(gè)完整的詞匯,進(jìn)行切分。而細(xì)粒度則不同,除將“浙江大學(xué)”完整切分出來之外,還要將構(gòu)成“浙江大學(xué)”的各個(gè)語素切分出來:浙江/大學(xué)。
常見的例子還有很多,如“中華人民共和國”,粗粒度的分詞就是“中華人民共和國”,細(xì)粒度的分詞可能是“中華/人民/共和國”。一般細(xì)粒度切分的對(duì)象都為專有名詞。因?yàn)閷S忻~常表現(xiàn)為幾個(gè)一般名詞的合成。
在實(shí)踐中,粗粒度切分和細(xì)粒度切分都有其使用的范圍。粗粒度切分主要用于自然語言處理的各種應(yīng)用;而細(xì)粒度分詞最常用的領(lǐng)域是搜索引擎。一種常用的方案是,在索引的時(shí)候使用細(xì)粒度的分詞以保證召回,在查詢的時(shí)候使用粗粒度的分詞以保證精度。在本書中,如果未加特別的說明,則都為粗粒度分詞。
1.3 歧義、機(jī)械分詞、語言模型
現(xiàn)代漢語的復(fù)音詞結(jié)構(gòu),使少量的字符(4000多個(gè))通過排列組合來表示大量的詞匯(100萬個(gè)以上),而中間有沒有標(biāo)點(diǎn)的分隔,最容易出現(xiàn)的問題是歧義問題。歧義問題在漢語中普遍存在,長久以來歧義切分問題一直是中文分詞的核心問題之一。對(duì)此,梁南元等已經(jīng)做過廣泛和深入的研究。下面給出幾種重要的歧義切分的研究成果。
定義 7-1(交集型切分歧義)漢字串AJB稱作交集型切分歧義,如果滿足AJ、JB同時(shí)為詞(A、J、B分別為漢字串),則此時(shí)漢字串J稱作交集串。(梁南元 1987)
例如,交集型切分歧義:“結(jié)合成”。
其中,A = “結(jié)”,J = “合”,B = “成”。
一種切分為:(a)結(jié)合|成;另一種切分為:(b)結(jié)|合成
這種情況在漢語文本中非常普遍,如“大學(xué)生”、“研究生物”、“從小學(xué)起”、“為人民工作”、“中國產(chǎn)品質(zhì)量”、“部分居民生活水平”等。為了刻畫交集型歧義字段的復(fù)雜結(jié)構(gòu),梁南元還定義了鏈長的概念。
定義 7-3(組合型切分歧義)漢字串AB稱作多義組合型切分歧義,如果滿足A、B、AB同時(shí)為詞。
例如,多義組合型切分歧義:“起身”。在如下兩個(gè)例子中,“起身”有兩種不同的切分:(a)他站|起|身|來。(b)他明天|起身|去北京。類似的,“將來”、“現(xiàn)在”、“才能”、“學(xué)生會(huì)”等,都是組合型切分歧義字段。
梁南元(1987a)曾經(jīng)對(duì)一個(gè)含有48092字的自然科學(xué)、社會(huì)科學(xué)樣本進(jìn)行統(tǒng)計(jì),結(jié)果交集型切分歧義有518個(gè),多義組合型切分歧義有42個(gè)。據(jù)此推斷,中文文本中切分歧義的出現(xiàn)頻度約為1.2次/100字,交集型切分歧義與多義組合型切分歧義的出現(xiàn)比例約為12:1。
有意思的是,據(jù)文獻(xiàn)【劉挺等,1998a】的調(diào)查卻顯示了與梁南元截然相反的結(jié)果:漢語文本中交集型切分歧義與多義組合型七分歧義的出現(xiàn)比例約為1:22.孫茂松認(rèn)為,造成這種情形的原因在于,定義7-3有疏漏。因此孫茂松等(2001)曾猜測,加上一條上下文語境限制才真正反映額連梁南元的本意。
定義7-3‘(多義組合型切分歧義)漢字串AB稱作多義組合型切分歧義,如果滿足(1)A、B、AB同時(shí)為詞;(2)文本中至少存在一個(gè)上下文語境 c,在 c 的約束下,A、B在語法和語義上都成立。
上文均來自《統(tǒng)計(jì)自然語言處理》——宗成慶著
針對(duì)上述問題,人們設(shè)計(jì)了早期的【機(jī)械分詞】系統(tǒng)。機(jī)械分詞系統(tǒng)都是基于最大匹配方法作為最基本的分詞算法。該方法有蘇聯(lián)漢俄翻譯學(xué)者提出,也稱為MM(The Maximum Matching Method)方法。
其基本思想如下。
例如,現(xiàn)有短語”計(jì)算機(jī)科學(xué)和工程“,假設(shè)詞典中最長詞為7字詞,于是先取”計(jì)算機(jī)科學(xué)和工“為匹配字段,來匹配詞典,由于詞典中沒有該詞,古匹配失敗;去掉最后一個(gè)漢字成為”計(jì)算及科學(xué)和“作為新的匹配字段,重新匹配詞典,同樣匹配失敗;
取”計(jì)算機(jī)科學(xué)“作為先的字段拉匹配字典,由于詞典中有“計(jì)算機(jī)科學(xué)”一詞,從而匹配成功,切分出的第一個(gè)詞為“計(jì)算機(jī)科學(xué)”。以此類推,直至切分出第二、三……個(gè)詞。
使用MM方法切分的精度并不高,很難達(dá)到實(shí)際應(yīng)用的要求,隨著語料的增大,誤差也逐漸變大。之后人們又基于此方法提出了雙向匹配法。該方法是從最大匹配方法發(fā)展而來的,分為正向最佳匹配法和逆向最佳匹配法。
它們的基本原理都是相似的。
- 將待分析的漢字串與機(jī)器詞典中的詞條進(jìn)行最大匹配,若再詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。
- 所不同的是,兩個(gè)算法的搜多方向相反。
- 待處理的字符串中存在著交叉歧義,因此兩種方法所得的結(jié)果必然不同。
- 當(dāng)然,基于最大匹配的搜索方法還存在著局限性,比如正向最大匹配,因?yàn)橹荒苷虻卣页鲎铋L地詞,而不能找出所有地候選詞條。
- 因此,后來發(fā)展出了雙向掃描法來更快速地檢測出歧義產(chǎn)生的位置。
這類早期的分詞器因?yàn)闆]有考慮到詞匯上下文的相關(guān)性,分詞的精確度都不高。基于正向最大匹配算法的分詞器的準(zhǔn)確度為78%;召回率為75%;F1值約為76%。后來改進(jìn)的雙向匹配算法的最高精度也在80%左右徘徊。顯然這不能滿足高精度文本處理的需求。
基于機(jī)械方法的分詞器雖然沒有得到廣泛的應(yīng)用,但是卻揭示了一個(gè)重要的語言規(guī)律:一個(gè)詞匯的出現(xiàn)與其上下文環(huán)境中出現(xiàn)的詞匯序列存在著緊密的關(guān)系,如果過算法不能反映和處理這種上下文依賴關(guān)系,則不能最終達(dá)到滿意的分詞結(jié)果。
2. 系統(tǒng)總體流程與詞典結(jié)構(gòu)
2.1 概述
2.2 中文分詞流程
HanLP詞典下載地址:https://github.com/hankcs/HanLP/releases。
HanLP詳細(xì)介紹網(wǎng)址:https://github.com/hankcs/HanLP
HanLP源碼網(wǎng)址:https://github.com/hankcs/HanLP
本算法的所需的詞典位于data/dictionary/目錄下。
(1)在第一個(gè)環(huán)節(jié),系統(tǒng)讀取待分詞的字符串。
(2)根據(jù)輸入的配置信息,導(dǎo)入相應(yīng)的詞典。
(3) 進(jìn)入粗分階段。
- 首先對(duì)句子進(jìn)行字符級(jí)切分,即將輸入額句子切分為單個(gè)UTF-8編碼的字符數(shù)組(函數(shù) toCharArray()),包括單個(gè)中文字符、單個(gè)英文字符、其他單個(gè)字符等。
- 一元切分
- 二元切分
- Nshort算法計(jì)算
- 對(duì)粗分結(jié)果執(zhí)行后處理應(yīng)用規(guī)則,識(shí)別事件類專有名詞。
(4)進(jìn)入未登錄詞識(shí)別階段,使用隱馬爾科夫鏈語言模型。
- 根據(jù)人名識(shí)別詞典,將粗分的結(jié)果與之匹配,Viterbi算法識(shí)別外國的人名。
- 根據(jù)地名識(shí)別詞典,將粗分的結(jié)果與之匹配,Viterbi算法識(shí)別地名。
- 根據(jù)組織機(jī)構(gòu)名詞典,將粗分的結(jié)果與之匹配,Dijkstra算法識(shí)別組織機(jī)構(gòu)名。
(5)將命名實(shí)體識(shí)別后的分詞結(jié)果加入詞圖中,對(duì)詞圖再次進(jìn)行分詞(Dijkstrra 最短路徑法)。該階段為細(xì)分階段。
(6)使用詞性標(biāo)注模型,Viterbi算法,對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注:
- List item
該部分將在第四章介紹。
(7)轉(zhuǎn)換路徑為分詞結(jié)果,并輸出分詞的結(jié)果。
2.3 分詞詞典結(jié)構(gòu)
系統(tǒng)公有7個(gè)不同的詞典(包括語言模型)放置于Data目錄下。HanLP詞典結(jié)構(gòu)如下。
| CoreNatureDictionary | 一元語言模型詞典 |
| CoreNatureDictionary.ngram | 二元語言模型詞典 |
| person/nr.txt.trie.dat | 人名識(shí)別詞典——中國人名 |
| person/nr.txt.value.dat | 人名識(shí)別詞典——中國人名 |
| person/nrf.txt.trie.dat | 人名識(shí)別詞典——譯名 |
| person/nrf.txt.value.dat | 人名識(shí)別詞典——譯名 |
| person/nrj.txt.trie.dat | 人名識(shí)別詞典——日本人名 |
| person/nrj.txt.value.dat | 人名識(shí)別詞典——日本人名 |
| place/ns.txt.trie.dat | 地點(diǎn)識(shí)別詞典 |
| place/ns.txt.value.dat | 地點(diǎn)識(shí)別詞典 |
| organization/nt.txt.trie.dat | 組織機(jī)構(gòu)名詞典 |
| organization/nt.txt.value.dat | 組織機(jī)構(gòu)名詞典 |
(1)一元語言模型詞典也被稱為核心詞典,文件名為CoreNatureDictionary,系統(tǒng)提供了一個(gè)文本版本和一個(gè)二進(jìn)制版本的文件。打開文本版本的文件,截取詞典的片段內(nèi)容如下。
一下 m 2 d 1
一下子 m 2 d 1
一不做 nz 6
一元語言模型詞典的第一列是詞,第二列是該詞的第一詞性,第三列是對(duì)應(yīng)該詞性的詞頻,;如果存在第四列,則是對(duì)應(yīng)該詞的第二次性,第五列是對(duì)用第二詞性的詞頻;之后以此類推。
CoreNatureDictionary是算法的核心詞典,其他各個(gè)詞典都從此詞典衍生而來。而且,一元語言模型詞典的大小代表了系統(tǒng)的規(guī)模,即這個(gè)詞典越大,所包含的詞匯就越多,能夠正確分詞的語料范圍就越大。一般可用的、最小的中文分詞器,其核心詞典的規(guī)模不能夠少于30萬詞。
(2)二元語言模型詞典的文件名為CoreNatureDictionary.ngram,系統(tǒng)提供了一個(gè)文本版本和一個(gè)二進(jìn)制版本的文件。打開文本版本的文件,截取詞典的片段內(nèi)容。
一@一對(duì)一 5
一@一道 5
一@丁 6
一@七旬 8
一@萬 157
一@萬億 4
二元語言模型詞典的結(jié)構(gòu)第一列表示兩個(gè)相鄰詞,用@進(jìn)行分隔。例如,“一@萬”表示前一個(gè)詞是“一”,后一個(gè)詞是“萬”,它們用“@”連接起來。第二列是該相鄰詞(共現(xiàn)詞)在語料庫中出現(xiàn)的概率,如上例為157次。
二元語言模型詞典本質(zhì)上構(gòu)建出一個(gè)二維的矩陣,而且是一個(gè)方陣。矩陣的行和列就是一元詞表的長度。第一列的前一個(gè)詞相當(dāng)于矩陣的行索引,后一個(gè)詞相當(dāng)于矩陣的列索引,取值為矩陣詞頻(“Frequency”)。因此,這個(gè)矩陣非零元素的數(shù)量充分展示了詞匯的搭配信息。因?yàn)檫@個(gè)矩陣比較大,所以以一維列表的方式顯示出來。
如果把一元語言模型詞典和二元語言模型詞典合在一起看,它們也可看作一個(gè)圖(Graph)。其中圖的頂點(diǎn)為一元語言模型詞典中的詞;二元語言模型詞典的每個(gè)相鄰詞為連接兩個(gè)頂點(diǎn)的一條邊,詞頻為邊的權(quán)值。它們共同溝中了Graph這個(gè)完整的數(shù)據(jù)結(jié)構(gòu)。整個(gè)Nshort算法就是對(duì)這個(gè)圖計(jì)算最大概率額過程
2.4 命名實(shí)體的詞典結(jié)構(gòu)
人名、譯名、地名、機(jī)構(gòu)名的識(shí)別詞典均由兩個(gè)文件構(gòu)成,后綴名分別為 trie.dat 和 value.dat 。下面僅以人名識(shí)別詞典為例,簡單講解命名實(shí)體識(shí)別一元詞典和二元詞典的數(shù)據(jù)結(jié)構(gòu)。后綴名為trie.data的詞典是一元辭典,人名詞典的截圖如下。
郎 B 228 D 22 E 12 K 4 C 1 L 1
郟 B 4
鄭 B 3505 C 21 E 20 D 5
詞典的數(shù)據(jù)結(jié)構(gòu)與CoreNatureDictionary詞典相同,第一列為詞匯,第二列為第一個(gè)原模式標(biāo)簽,第三列為第一個(gè)原模式標(biāo)簽的詞頻;第四列為第二個(gè)原模式標(biāo)簽,第五列為第二個(gè)元模式標(biāo)簽的詞頻;之后依此類推。元模式位于 package com.hanks.hanlp.corpus.tag包的枚舉列表NR
中。
元模式標(biāo)簽
總結(jié)
以上是生活随笔為你收集整理的第三章 词汇与分词技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ZBrush:自定义QuickSave路
- 下一篇: 计算机思维典型方法有抽象,传说中的四大编