词性标注学习笔记
1 詞性標(biāo)注概述?
1.1 簡介
詞性(Par-Of-Speech,Pos)是詞匯基本的語法屬性,通常也稱為詞類。詞性標(biāo)注就是在給定句子中判定每個(gè)詞的語法范疇,確定其詞性并加以標(biāo)注的過程。
1.2 難點(diǎn)
1)漢語是一種缺乏詞形態(tài)變化的語言,詞的類別不能像印歐語那樣,直接從詞的形態(tài)變化上來判別。
2)常用詞兼類現(xiàn)象嚴(yán)重,具有多個(gè)詞性的兼類詞的占比高達(dá)22.5%。而且越是常用的詞,多詞性的現(xiàn)象越嚴(yán)重。
3)詞性劃分標(biāo)準(zhǔn)不統(tǒng)一。詞類劃分粒度和標(biāo)記符號(hào)等,目前還沒有一個(gè)廣泛認(rèn)可的統(tǒng)一的標(biāo)準(zhǔn)。比如LDC標(biāo)注語料中,將漢語一級(jí)詞性劃分為33類,而北京大學(xué)語料庫則將其劃分為26類。
4)未登錄詞問題。和分詞一樣,未登錄詞的詞性也是一個(gè)比較大的課題。
1.3?ICTCLAS漢語詞性標(biāo)注集
| a | 形容詞 | 取英語形容詞adjective的第1個(gè)字母。 | 最/d 大/a 的/u |
| ad | 副形詞 | 直接作狀語的形容詞。形容詞代碼a和副詞代碼d并在一起。 | 一定/d 能夠/v 順利/ad 實(shí)現(xiàn)/v 。/w |
| ag | 形語素 | 形容詞性語素。形容詞代碼為a,語素代碼g前面置以A。 | 喜/v 煞/ag 人/n |
| an | 名形詞 | 具有名詞功能的形容詞。形容詞代碼a和名詞代碼n并在一起。 | 人民/n 的/u 根本/a 利益/n 和/c 國家/n 的/u 安穩(wěn)/an 。/w |
| b | 區(qū)別詞 | 取漢字“別”的聲母。 | 副/b 書記/n 王/nr 思齊/nr |
| c | 連詞 | 取英語連詞conjunction的第1個(gè)字母。 | 全軍/n 和/c 武警/n 先進(jìn)/a 典型/n 代表/n |
| d | 副詞 | 取adverb的第2個(gè)字母,因其第1個(gè)字母已用于形容詞。 | 兩側(cè)/f 臺(tái)柱/n 上/ 分別/d 雄踞/v 著/u |
| dg | 副語素 | 副詞性語素。副詞代碼為d,語素代碼g前面置以D。 | 用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 節(jié)目/n 。/w |
| e | 嘆詞 | 取英語嘆詞exclamation的第1個(gè)字母。 | 嗬/e !/w |
| f | 方位詞 | 取漢字“方” 的聲母。 | 從/p 一/m 大/a 堆/q 檔案/n 中/f 發(fā)現(xiàn)/v 了/u |
| g | 語素 | 絕大多數(shù)語素都能作為合成詞的“詞根”,取漢字“根”的聲母。 | 例如dg 或ag |
| h | 前接成分 | 取英語head的第1個(gè)字母。 | 目前/t 各種/r 非/h 合作制/n 的/u 農(nóng)產(chǎn)品/n |
| i | 成語 | 取英語成語idiom的第1個(gè)字母。 | 提高/v 農(nóng)民/n 討價(jià)還價(jià)/i 的/u 能力/n 。/w |
| j | 簡稱略語 | 取漢字“簡”的聲母。 | 民主/ad 選舉/v 村委會(huì)/j 的/u 工作/vn |
| k | 后接成分 | 權(quán)責(zé)/n 明確/a 的/u 逐級(jí)/d 授權(quán)/v 制/k | |
| l | 習(xí)用語 | 習(xí)用語尚未成為成語,有點(diǎn)“臨時(shí)性”,取“臨”的聲母。 | 是/v 建立/v 社會(huì)主義/n 市場經(jīng)濟(jì)/n 體制/n 的/u 重要/a 組成部分/l 。/w |
| m | 數(shù)詞 | 取英語numeral的第3個(gè)字母,n,u已有他用。 | 科學(xué)技術(shù)/n 是/v 第一/m 生產(chǎn)力/n |
| n | 名詞 | 取英語名詞noun的第1個(gè)字母。 | 希望/v 雙方/n 在/p 市政/n 規(guī)劃/vn |
| ng | 名語素 | 名詞性語素。名詞代碼為n,語素代碼g前面置以N。 | 就此/d 分析/v 時(shí)/Ng 認(rèn)為/v |
| nr | 人名 | 名詞代碼n和“人(ren)”的聲母并在一起。 | 建設(shè)部/nt 部長/n 侯/nr 捷/nr |
| ns | 地名 | 名詞代碼n和處所詞代碼s并在一起。 | 北京/ns 經(jīng)濟(jì)/n 運(yùn)行/vn 態(tài)勢/n 喜人/a |
| nt | 機(jī)構(gòu)團(tuán)體 | “團(tuán)”的聲母為t,名詞代碼n和t并在一起。 | [冶金/n 工業(yè)部/n 洛陽/ns 耐火材料/l 研究院/n]nt |
| nx | 字母專名 | ATM/nx 交換機(jī)/n | |
| nz | 其他專名 | “專”的聲母的第1個(gè)字母為z,名詞代碼n和z并在一起。 | 德士古/nz 公司/n |
| o | 擬聲詞 | 取英語擬聲詞onomatopoeia的第1個(gè)字母。 | 汩汩/o 地/u 流/v 出來/v |
| p | 介詞 | 取英語介詞prepositional的第1個(gè)字母。 | 往/p 基層/n 跑/v 。/w |
| q | 量詞 | 取英語quantity的第1個(gè)字母。 | 不止/v 一/m 次/q 地/u 聽到/v ,/w |
| r | 代詞 | 取英語代詞pronoun的第2個(gè)字母,因p已用于介詞。 | 有些/r 部門/n |
| s | 處所詞 | 取英語space的第1個(gè)字母。 | 移居/v 海外/s 。/w |
| t | 時(shí)間詞 | 取英語time的第1個(gè)字母。 | 當(dāng)前/t 經(jīng)濟(jì)/n 社會(huì)/n 情況/n |
| tg | 時(shí)語素 | 時(shí)間詞性語素。時(shí)間詞代碼為t,在語素的代碼g前面置以T。 | 秋/Tg 冬/tg 連/d 旱/a |
| u | 助詞 | 取英語助詞auxiliary 的第2個(gè)字母,因a已用于形容詞。 | 工作/vn 的/u 政策/n |
| ud | 結(jié)構(gòu)助詞 | 有/v 心/n 栽/v 得/ud 梧桐樹/n | |
| ug | 時(shí)態(tài)助詞 | 你/r 想/v 過/ug 沒有/v | |
| uj | 結(jié)構(gòu)助詞的 | 邁向/v 充滿/v 希望/n 的/uj 新/a 世紀(jì)/n | |
| ul | 時(shí)態(tài)助詞了 | 完成/v 了/ ul | |
| uv | 結(jié)構(gòu)助詞地 | 滿懷信心/l 地/uv 開創(chuàng)/v 新/a 的/u 業(yè)績/n | |
| uz | 時(shí)態(tài)助詞著 | 眼看/v 著/uz | |
| v | 動(dòng)詞 | 取英語動(dòng)詞verb的第一個(gè)字母。 | 舉行/v 老/a 干部/n 迎春/vn 團(tuán)拜會(huì)/n |
| vd | 副動(dòng)詞 | 直接作狀語的動(dòng)詞。動(dòng)詞和副詞的代碼并在一起。 | 強(qiáng)調(diào)/vd 指出/v |
| vg | 動(dòng)語素 | 動(dòng)詞性語素。動(dòng)詞代碼為v。在語素的代碼g前面置以V。 | 做好/v 尊/vg 干/j 愛/v 兵/n 工作/vn |
| vn | 名動(dòng)詞 | 指具有名詞功能的動(dòng)詞。動(dòng)詞和名詞的代碼并在一起。 | 股份制/n 這種/r 企業(yè)/n 組織/vn 形式/n ,/w |
| w | 標(biāo)點(diǎn)符號(hào) | 生產(chǎn)/v 的/u 5G/nx 、/w 8G/nx 型/k 燃?xì)?n 熱水器/n | |
| x | 非語素字 | 非語素字只是一個(gè)符號(hào),字母x通常用于代表未知數(shù)、符號(hào)。 | |
| y | 語氣詞 | 取漢字“語”的聲母。 | 已經(jīng)/d 30/m 多/m 年/q 了/y 。/w |
| z | 狀態(tài)詞 | 取漢字“狀”的聲母的前一個(gè)字母。 | 勢頭/n 依然/z 強(qiáng)勁/a ;/w |
2 常見方法
2.1 基于字符串匹配的字典查找
從字典中查找每個(gè)詞語的詞性,對(duì)其進(jìn)行標(biāo)注。這種方法比較簡單,但是不能解決一詞多詞性的問題,因此存在一定的誤差。
2.2 基于統(tǒng)計(jì)的算法
通過機(jī)器學(xué)習(xí)模型,從數(shù)據(jù)中學(xué)習(xí)規(guī)律,進(jìn)行詞性標(biāo)注。此類方法可以根據(jù)詞的上下文進(jìn)行詞性標(biāo)注,解決一詞多詞性的問題。常見模型如HMM、CRF、神經(jīng)網(wǎng)絡(luò)等。
根據(jù)輸入的粒度,可以分為基于詞的方法,和基于字的方法。基于詞的方法需要首先對(duì)句子進(jìn)行分詞,然后對(duì)分詞的結(jié)果進(jìn)行詞性標(biāo)注。基于字的方法把分詞和詞性標(biāo)注兩個(gè)任務(wù)聯(lián)合訓(xùn)練。
3 數(shù)據(jù)集、評(píng)價(jià)指標(biāo)
3.1?常用數(shù)據(jù)集
- 賓州中文樹庫CTB 5~9
- PFR人民日?qǐng)?bào)標(biāo)注語料庫
- UD-Chinese-GSD數(shù)據(jù)集
3.2?評(píng)價(jià)指標(biāo)
一般采用精確率(precision)、召回率 (recall)和F1值進(jìn)行測評(píng)。
基于詞的方法, 可以直接計(jì)算以上三個(gè)指標(biāo)。基于字的方法,只有當(dāng)分詞和詞性標(biāo)注同時(shí)正確時(shí),才算標(biāo)注正確。
3 論文筆記
================================================================================================
ACL 2017:Character-based Joint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF
================================================================================================
概述
文本提出一個(gè)基于BiRNN-CRF的中文分詞和詞性標(biāo)注聯(lián)合標(biāo)注模型,模型在字符的表示上進(jìn)行改進(jìn),可以提供更加豐富的信息。?
模型架構(gòu)
模型的核心是傳統(tǒng)的雙向RNN加CRF架構(gòu),RNN選用GRU。標(biāo)簽體系使用BIES和詞性標(biāo)簽的組合,可以在一個(gè)標(biāo)簽中同時(shí)包含兩種信息(如B-DEG、I-DEG、E-DEG?)。
本文的關(guān)鍵創(chuàng)新是在字符的表示上。
1)Concatenated N-gram
首先對(duì)于每個(gè)字符,提取以該字符為中心的n-gram信息,其中m為開始位置,n為結(jié)束位置。為對(duì)應(yīng)n-gram字符串的embedding。然后把多個(gè)n-gram的進(jìn)行拼接,得到該字符的表示。
2)Radicals and Orthographical Features(偏旁和字形特征)
對(duì)于漢字,偏旁包含了豐富的信息,每個(gè)偏旁使用一個(gè)embedding表示,然后拼接到該字符的表示當(dāng)中。
漢字的字形也提供了重要的信息,使用兩層的CNN+Max?pooling卷積網(wǎng)絡(luò)提取字形信息,拼接到該字符的表示當(dāng)中。
3)Pre-trained Character Embeddings
本文測試了使用預(yù)訓(xùn)練的embedding和隨機(jī)embedding的區(qū)別。
4)Ensemble Decoding
本文測試了使用多個(gè)模型進(jìn)行聯(lián)合解碼的效果。
實(shí)驗(yàn)結(jié)果
特征分析
?
?
================================================================================================
IEEE 2018:A Simple and Effective Neural Model for Joint Word Segmentation and POS Tagging
================================================================================================
概述
由于中文分詞和詞性標(biāo)注具有高度的關(guān)聯(lián)性,傳統(tǒng)的首先進(jìn)行分詞再進(jìn)行詞性標(biāo)注的二階段模式會(huì)造成錯(cuò)誤的累積。文本提出一個(gè)簡單高效的,基于Seq2Seq架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,對(duì)中文分詞和詞性標(biāo)注進(jìn)行聯(lián)合標(biāo)注。?
模型架構(gòu)
1)?Transition System
由于本模型的解碼方式參考傳統(tǒng)的Transition System,所以首先對(duì)其進(jìn)行簡單介紹。Transition System主要包含兩部分:狀態(tài)(State)和動(dòng)作(Action)。開始時(shí),有一個(gè)空的開始狀態(tài),然后通過一系列的動(dòng)作逐漸改變狀態(tài)的值,直到得到一個(gè)表示最終結(jié)果的結(jié)束狀態(tài)。
通過設(shè)計(jì)一個(gè)針對(duì)分詞和詞性標(biāo)注聯(lián)合解碼的Transition System,可以把解碼過程表示為一系列動(dòng)作組成的序列,并使用Seq2Seq模型預(yù)測得出。系統(tǒng)包含兩類動(dòng)作:1)SEP(t):將當(dāng)前字作為詞性(t)開始的第一個(gè)字放入狀態(tài)當(dāng)中;2)APP:將當(dāng)前字添加到狀態(tài)當(dāng)中,作為當(dāng)前狀態(tài)頂端的詞性所表示的字當(dāng)中。具體可以參考下圖例子。
?
2)Seq2Seq模型
本模型包含Encoder和Decoder兩部分。
2.1)Encoder
2.1.1)Embedding Layer
本層包含字()的unigram和bigram的Embedding,其中bigram包含正向()和反向()兩種。
每種Embedding又分別包含兩種類型:1)隨機(jī)初始化并隨著網(wǎng)絡(luò)訓(xùn)練調(diào)整;2)使用外部數(shù)據(jù)預(yù)訓(xùn)練得到并固定權(quán)重。最終的Embedding由兩種類型拼接而成。
其中使用外部數(shù)據(jù)預(yù)訓(xùn)練Embedding時(shí),考慮兩種方式:1)只使用字信息訓(xùn)練的Basic Embeddings;2)結(jié)合分詞、詞性標(biāo)簽訓(xùn)練的Word-Context Embeddings。實(shí)驗(yàn)結(jié)果表明,Word-Context Embeddings效果更好。
2.1.2)LSTM Input
Encoder由正向和反向兩個(gè)LSTM組成,所以需要分別為兩個(gè)LSTM提供輸入。輸入由unigram和對(duì)應(yīng)的bigram的Embedding拼接后,通過一個(gè)簡單的線性變換得到:
或
2.1.3)Bi-Directional LSTM
經(jīng)過輸入層,分別得到正向和反向兩部分輸入:和。然后分別輸入到兩個(gè)LSTM當(dāng)中,Encoder的最終輸出由兩個(gè)LSTM的輸出拼接得到:。
2.2)Decoder
Decoder由一個(gè)基于動(dòng)態(tài)解碼的詞為輸入的單向LSTM構(gòu)成。和傳統(tǒng)的Seq2Seq模型對(duì)比,本模型具有兩方面的區(qū)別。第一,由于基于Transition System的解碼系統(tǒng)自帶了注意力的屬性,所以本模型不需要顯式的注意力結(jié)構(gòu)。第二,本模型的Decoder基于動(dòng)態(tài)解碼的word-level特征作為輸入,而不是原始輸入的character-level特征。
2.2.1)Word Representation
Decoder的輸入為詞列表,其中每個(gè)詞由兩部分組成:1)組成詞的每個(gè)字的Encoder輸出的組合;2)預(yù)測的詞性標(biāo)簽的Embedding。
Decoder的輸入的詞可以表示為:
其中有幾種可選的計(jì)算方式:
由于Encoder的輸出由兩個(gè)方向分別組成,所以詞的表示也分別由兩個(gè)方向的組合拼接得到:
然后把詞表示和詞性標(biāo)簽的Embedding拼接,通過一個(gè)簡單的線性變換得到:
2.2.2)LSTM
把輸入到單向LSTM當(dāng)中,得到每一步的隱藏狀態(tài),然后經(jīng)過兩次線性變換,得到每一步的輸出:
2.3)Training
使用交叉熵作為損失函數(shù):
實(shí)驗(yàn)結(jié)果
特征分析
1)Word Representation
2)Feature
?
3)Pretrain Embedding
================================================================================================
ACL 2020:Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge
================================================================================================
概述
當(dāng)前的詞性標(biāo)注模型只關(guān)注n-gram等上下文信息,忽略了其他語法知識(shí)。然而,句法結(jié)構(gòu)、依存關(guān)系等知識(shí)可以提供單詞之間的距離依賴信息。使用現(xiàn)成的工具自動(dòng)生成的語法知識(shí),可以對(duì)詞性標(biāo)注模型起到輔助作用。本文提出一個(gè)中文分詞和詞性標(biāo)注聯(lián)合標(biāo)注模型,使用雙向注意機(jī)制整合每個(gè)輸入字符的上下文特征及其相應(yīng)的語法知識(shí)。
模型架構(gòu)
設(shè)輸入為,輸出為,的上下文特征為,語法知識(shí)為。每個(gè)字符對(duì)應(yīng)的特征表示為和。
1)Auto-analyzed Knowledge
人工標(biāo)注的語法知識(shí)比較難以獲取,但是自動(dòng)分析得到的語法知識(shí)可以通過工具生成,雖然自動(dòng)生成的知識(shí)有一定噪聲,但是如果可以讓模型學(xué)習(xí)如何利用這些知識(shí),可以有效提升模型效果。本模型通過注意力機(jī)制,從自動(dòng)生成的語法知識(shí)中提取特征。
本文使用三種語法知識(shí):1)自動(dòng)生成的詞性標(biāo)注標(biāo)簽;2)句法結(jié)構(gòu);3)依存關(guān)系。
1.1)自動(dòng)生成的詞性標(biāo)注標(biāo)簽
對(duì)于每個(gè)字符?,取包含該字符的詞,以及其相鄰2個(gè)詞范圍內(nèi)的所有詞,的上下文和詞性標(biāo)注標(biāo)簽特征。
1.2)句法結(jié)構(gòu)
首先定義一組需要關(guān)注的句法標(biāo)簽。對(duì)于每個(gè)字符?,從包含該字符的詞開始往根節(jié)點(diǎn)回溯,直到遇到第一個(gè)在預(yù)定義的句法標(biāo)簽的詞為止,取該詞下的所有葉子節(jié)點(diǎn)的詞的上下文和句法標(biāo)簽特征。
1.3)依存關(guān)系
對(duì)于每個(gè)字符?,取包含該字符的詞以及與其存在依存關(guān)系的所有詞的上下文和依存關(guān)系標(biāo)簽特征。
2)Two-Way Attentions
之前的研究直接把上下文特征和語法知識(shí)進(jìn)行拼接,容易受噪聲干擾,本模型分別使用兩個(gè)attention提取上下文和語法知識(shí)特征。以上下文特征為例,計(jì)算方式為:
其中是編碼器提取的特征,是的上下文特征中的第j項(xiàng),是的embedding。
使用同樣的方式提取語法知識(shí)特征,最后把上下文和語法知識(shí)特征拼接,得到本層輸出。
3)Joint Tagging with Two-way Attentions
把編碼器和雙向注意機(jī)制提取的特征拼接后輸入到一個(gè)線性變換層,然后輸入到CRF層得到最終輸出:
實(shí)驗(yàn)結(jié)果
本文測試使用Stanford CoreNLP Toolkit(SCT)和Berkeley Neural Parser(BNP)兩個(gè)工具本身進(jìn)行詞性標(biāo)注的結(jié)果,和基于它們提取的語法特征在本模型下的結(jié)果。
同時(shí)也對(duì)比使用Bi-LSTM、BERT、ZEN三種編碼器的結(jié)果。
特征分析
總結(jié)
- 上一篇: ACM知识清单
- 下一篇: SWUN 1431 - 伊邪那美(Ⅱ)