词法分析与词性标注学习之笔记(二)----词性标注
詞性標注
詞性標注的概念
詞性是詞匯的基本語法屬性,通常稱為詞類。
詞性標注(Part-Of-Speech tagging, POS tagging)也被稱為語法標注(grammatical tagging)或詞類消疑(word-category disambiguation),是語料庫語言學(corpus linguistics)中將語料庫內(nèi)單詞的詞性按其含義和上下文內(nèi)容進行標記的文本數(shù)據(jù)處理技術(shù)
??詞性標注可以由人工或特定算法完成,使用機器學習(machine learning)方法實現(xiàn)詞性標注是自然語言處理(Natural Language Processing, NLP)的研究內(nèi)容。
??常見的詞性標注算法包括隱馬爾可夫模型(Hidden Markov Model, HMM)、條件隨機場(Conditional random fields, CRFs)等 。
?? 詞性標注主要被應(yīng)用于文本挖掘(text mining)和NLP領(lǐng)域,是各類基于文本的機器學習任務(wù),例如語義分析(semantic analysis)和指代消解(coreference resolution)的預(yù)處理步驟。
?? 自然語言處理是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學的一部分。
??自然語言處理(NLP)是計算機科學,人工智能,語言學關(guān)注計算機和人類(自然)語言之間的相互作用的領(lǐng)域。
詞性標注中的難點
詞性標注遇到的最重要的問題就是詞性兼類問題。
漢語是一種缺乏詞形態(tài)變化的語言,詞的類別不能像印歐語那樣,直接從詞的形態(tài)變化上來判別。
造成詞性兼類問題的原因主要有以下幾點:
1.漢語缺乏詞形態(tài)變化,無法通過詞形變化判別詞類;
2.漢語中,常用詞兼類現(xiàn)象嚴重,比如:“這個人什么都好,就是好酗酒。”其中,第一個“好”讀三聲,是形容詞,而第二個“好”讀四聲,是動詞。
3.沒有統(tǒng)一的漢語詞類劃分標準,有些語料劃分很粗糙。
注意:《現(xiàn)代漢語八百詞》收取的常用詞中,兼類詞所占的比例高達22.5%,而且發(fā)現(xiàn)越是常用的詞,不同的用法越多。由于兼類使用程度高,兼類現(xiàn)象涉及漢語中大部分詞類,因而造成在漢語文本中詞類歧義排除的任務(wù)量巨大。
進行詞性標注的原因
詞性標注是很多NLP任務(wù)的預(yù)處理步驟,如句法分析,經(jīng)過詞性標注后的文本會帶來很大的便利性,但也不是不可或缺的步驟。
詞性標注的方法
詞性標注這里基本可以照搬分詞的工作,在漢語中,大多數(shù)詞語只有一個詞性,或者出現(xiàn)頻次最高的詞性遠遠高于第二位的詞性。據(jù)說單純選取最高頻詞性,就能實現(xiàn)80%準確率的中文詞性標注程序。
主要可以分為基于規(guī)則和基于統(tǒng)計的方法,下面列舉幾種統(tǒng)計方法:
1、基于最大熵的詞性標注
2、基于統(tǒng)計最大概率輸出詞性
3、基于HMM的詞性標注
詞性標注的應(yīng)用
1、句法分析預(yù)處理
2、詞匯獲取預(yù)處理
3、信息抽取預(yù)處理
漢語詞性對照表
詞性標注有小標注集和大標注集。
例如小標注集把代詞都歸為一類,大標注集可以把代詞進一步分成三類。
人稱代詞:你、我、他、它、你們、我們、他們
疑問代詞:哪里、什么、怎么
指示代詞:這里、那里、這些、那些
采用小標注集比較容易實現(xiàn),但是太小的標注集可能會導(dǎo)致類型區(qū)分度不夠。、
舉個例子:在黑白兩色世界中,可以通過顏色的深淺來分辨出物體,但是通過七彩顏色可以分辨出更多的物體。
練習例子
示例一
示例二
總結(jié)
以上是生活随笔為你收集整理的词法分析与词性标注学习之笔记(二)----词性标注的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 8.2.1 消息通知过时写法解决
- 下一篇: 移动互联网终端 淘宝客如何实现盈利