自然语言处理期末复习(3)-(5)模型与句法分析
第三部分 隱馬爾科夫模型與詞類標注
1.定義:如果給定一個觀察序列(不同顏色的小球序列),不能直接確定狀態轉換序列(壇子的序列),因為狀態轉移過程被隱藏起來了。所以這類隨機過程被稱為隱馬爾科夫過程。
2.詞類標注的方法:
(1)基于規則的詞類標注:查字典,給詞標記所有可能,逐步刪除錯誤的可能
(2)基于隱馬爾科夫模型的詞類標注:詞代表小球,標注代表壇子,相當于給了小球,求壇子
(3)改進隱馬爾科夫模型:bigram:某詞類的出現至于其前面出現的詞有關
(4)基于轉換的詞類標注:將規則與統計結合,采用機器學習的方法,對詞類進行標注
第四部分:模型
一、??????最大熵模型
根據已知的約束,做出不偏不倚的選擇
二、??????條件馬爾可夫模型——圖模型
有向圖模型:
?圖模型用圖結構描述隨機變量之間的依賴關系?
無向圖模型:
無向圖模型以團為單位將聯合概率分布分 解為勢函數的乘積
條件馬爾可夫模型:
觀察序列在因子中作為條件出現,使得建模特征無需考慮特征間的獨立性?
三、??????條件隨機場模型——圖模型
用于解決標記偏執問題
四、??????深度語言處理模型
0. 神經網絡表達能力強,但是表達能力強 != 成功 神經元數量,局部最優
?? 特征表示分層,底層特征:簡單概念,高層特征:自動學習,深度表示為特征的層次性
1. 前饋神經網絡
? ?每一層都與下層節點相連
2. 卷積神經網絡:每一層都與有限個點連接
?1)稀疏連接?2)參數共享 3)寬連接,窄連接
????? 卷積操作有利于發現與位置無關的局部特征
?????? 池化操作可以將任意長度的序列轉換為固定長度的序列
3. 循環神經網絡:將每一層的隱藏節點也加了進來
1)面向序列結構的建模工具
2)RNN的變種,多層RNN、雙向RNN
3)LSTM
?? 緩解梯度消失 / 爆炸 問題
?? 輸入門,輸出門,遺忘門
4)GRU
?? 緩解梯度消失 / 爆炸 問題
?? 更新門,重置門
第五部分:句法分析——構建句法樹
一、??????CFG
分為自頂向下算法和自底向上算法
(1)??earley算法:用點來記錄操作。
(2)??LR算法:動作表與轉移表
(3) 廣義LR算法:ACTION表中可包含多個操作
二、??????PCFG
CKY算法:自底向上分析
概率上下文無關文法,CFG的一種擴展。
尋找最佳分析樹:韋比特算法
樹庫:樹庫(Treebank),是標記了句法樹結構的語料庫。
三、??????依存句法分析的主要方法
(1)基于圖的依存分析(Graph-based dependency parsing)
可被視作根據有向圖,求解最大分析樹。
cky算法
Eisner算法:一堆三角的組合
(2)基于轉移的依存分析(Transition-based dependency parsing)
arc-standard分析算法
arc-eager分析算法
總:基于轉移的依存分析有錯誤積累的問題、具有高效的優勢
Eisner算法沒有錯誤積累的問題,效率較低
最后記住一點:
1)文檔是話題的混合分布 2)話題是詞的混合分布
總結
以上是生活随笔為你收集整理的自然语言处理期末复习(3)-(5)模型与句法分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自然语言处理期末复习(6)话题模型
- 下一篇: java 枚举类 enum