自然语言处理期末复习(2)中文分词
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理期末复习(2)中文分词
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.漢語分詞:通過計算機程序把組成漢語文本的字串自動轉換
為詞串的過程被稱為自動切分
2.漢語切分的原因:(1)語音的合成(2)信息檢索(3)詞語計量分析
3.漢語分詞基本方法:(1)基于詞表的方法(2)字序列標記方法
4.最大匹配法:
(1)??正向最大匹配法(MM) 從左向右匹配詞表
(2)??逆向最大匹配法(RMM) 從右向左匹配詞表
5.歧義的類型
(1)交集型歧義:AJ/B、A/JB
交集型歧義字段中交集字段的個數,稱作鏈長
(2)組合型歧義: ?AB、A/B
(3)混合型歧義:?? 同時包含交集型歧義和組合型歧義的歧義字段
6.偽歧義: 歧義字段單獨拿出來看有歧義,但在(所有)真實語境中只有一種切分方式可接受。
真歧義:歧義字段在不同語境中確有多種切分方式,(1) 多種切分形式均勻分布 12% (2) 一種切分形式占優 88%
7.歧義的發現:
雙向最大匹配(MM+RMM)
– 同時使用MM法和RMM法
– 如果MM法和RMM法給出同樣的結果,認為沒
有歧義,若不同,則認為出現了歧義
發現組合型歧義
– MM+逆向最小匹配法
發現所有切分歧義
– 全切分算法
8歧義消解
基于規則的歧義消解。
基于統計的歧義消解:在詞圖上搜尋統計意義上的最佳路徑????????????????????????????
9.中文人名識別:計算一個可能的人名字串的概率,若其概率大于某個閾值,則判別為人名。
總結
以上是生活随笔為你收集整理的自然语言处理期末复习(2)中文分词的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自然语言处理期末复习(1)n元模型
- 下一篇: 自然语言处理期末复习(7)平行文本与机器