读《数学之美》第四章 谈谈分词
中文分詞其實有點像古代的句讀(dou),韓愈的《師說》中就有:“彼童子之師,授之書而習其句讀者也”。古人文章是沒有標點符號的,行文一氣呵成。如果不懂離經斷句,就很難理解古文的意思。從某種程度上,句讀就類似今天要講的中文分詞。
北京航空航天大學的梁南元教授提出了查字典的方法
查字典的方法就是把句子從左到右掃描一遍,遇到字典里有的詞就標示出來,遇到不認識的字串就分割為單字詞。如果分割出的詞與后面的字不會組成更長的詞,那么分割點就最終確定了。這種最簡單的方法可以解決七八層以上的分詞問題,在不太復雜的前提下,取得了還算滿意的效果。
20世紀80年代哈爾濱工業大學的王曉龍博士將查字典的方法理論化,發展成最少詞數的分詞理論,即一句話應該分成數量最少的詞串。但是并非所有最長匹配都是正確的,語言的歧義性是分詞的最大難題。
1990年清華電子工程系的郭進博士率先使用統計語言模型成功解決分詞二義性問題,將漢語分詞錯誤率降低了一個數量級。最為簡單的思考是有N中分詞所得,統計各種分詞結果出現的概率,選擇最大概率的分詞結果作為最好的分詞方法。這里有一個實現技巧,如果窮舉所有分詞結果,顯然會導致計算量大增。因此,可以看成一個動態規劃問題,利用維特比算法快速找到最佳分詞。這樣就可以構造分詞器:輸入字串,輸出分詞字串,中間需要詞典和語言模型作為輔助。
清華大學郭茂松教授解決了沒有詞典時的分詞問題;香港科技大學吳德凱教授較早將中文分詞方法用于英文詞組的分割,并將英文詞組和中文詞組在機器翻譯時對應起來。
另外,對于平板電腦和智能手機的出現,英文手寫體中的分詞常常是需要的,因此,中文分詞方法可以幫助判別英語單詞的邊界。
衡量分詞的結果可以采用分詞的一致性;人工分詞產生的原因主要在于人們對詞的顆粒度認識問題。解決辦法可以構建一個基本詞表和復合詞表,不斷豐富完善復合詞表,會將分詞器的明顯錯誤得以改進。
************************
2015-8-7
轉載于:https://www.cnblogs.com/huty/p/8519263.html
總結
以上是生活随笔為你收集整理的读《数学之美》第四章 谈谈分词的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (转)搞定DC/DC电源转换方案设计,必
- 下一篇: sphinx配置 + php