中科院分词系统大致流程
生活随笔
收集整理的這篇文章主要介紹了
中科院分词系统大致流程
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
轉載自:http://fay19880111-yeah-net.iteye.com/blog/1464110
?????
???? ictalas4j用到的字典主要是下面的三個:coreDict、biGramDict、nr。coreDict記錄了6768個詞塊,里面有對應的詞頻和句柄(用于詞性標注);biGramDict里面記錄的是詞和詞之間的關系,也就是相鄰兩個詞一起出現的頻率;nr記錄的是中文人名角色標注,該標注來自對人民日報語料庫訓練的結果。?
???? 了解了其應用的字典后,看一下ictclas4j的大致流程。? ?????? ???? 首先,把整片文檔分割成一個個的句子,對分割后的句子進行原子切割。? ???? 其次,查找coreDict字典進行粗略的分詞,所有可能的分詞結果都存儲在一個二維鏈表里面。該二位鏈表的每個節點中記錄了詞性(可能包含多個)、詞內容、詞頻。? ???? 然后,查找biGramDict字典,對第二部的結果處理,構造新的二維鏈表,該二維鏈表的節點中記錄了兩個詞之間的關系值(權重,衡量倆個詞同時出現的概率),通過一個計算公式,計算出兩個詞的平滑值。? ???? 接著,進行初次切分(通過最短路徑算法,而權重即為上一步計算出的平滑值)。? ???? 接著,進行人名識別了,這應該算是ictclas4j不同于其他分詞工具的特征吧,其他的分詞工具基本上不處理未登錄詞,但是未登錄詞對分詞的結果影響還是比較大的。該部分采用的是基于角色標注的算法,通過查找nr字典,最終匹配出人名。(本文只是介紹大致流程,具體的人名識別請閱讀 張華平、劉群的論文《基于角色標注的中國人名自動識別研究》)。? ???? 接著,處理地點等信息(個人感覺ictclas在處理地點信息時識別率不高,主要是其特征不像人名識別那樣緊緊有15中模式匹配模型,分詞在切分時并不能準備的切分出機構名稱)。? ???? 最后就是優化優化結果,添加詞性(對于詞性,前面已經包含相應的值,在調整相應的分詞后調整對應的詞性即可)。? ???
???? 了解了其應用的字典后,看一下ictclas4j的大致流程。? ?????? ???? 首先,把整片文檔分割成一個個的句子,對分割后的句子進行原子切割。? ???? 其次,查找coreDict字典進行粗略的分詞,所有可能的分詞結果都存儲在一個二維鏈表里面。該二位鏈表的每個節點中記錄了詞性(可能包含多個)、詞內容、詞頻。? ???? 然后,查找biGramDict字典,對第二部的結果處理,構造新的二維鏈表,該二維鏈表的節點中記錄了兩個詞之間的關系值(權重,衡量倆個詞同時出現的概率),通過一個計算公式,計算出兩個詞的平滑值。? ???? 接著,進行初次切分(通過最短路徑算法,而權重即為上一步計算出的平滑值)。? ???? 接著,進行人名識別了,這應該算是ictclas4j不同于其他分詞工具的特征吧,其他的分詞工具基本上不處理未登錄詞,但是未登錄詞對分詞的結果影響還是比較大的。該部分采用的是基于角色標注的算法,通過查找nr字典,最終匹配出人名。(本文只是介紹大致流程,具體的人名識別請閱讀 張華平、劉群的論文《基于角色標注的中國人名自動識別研究》)。? ???? 接著,處理地點等信息(個人感覺ictclas在處理地點信息時識別率不高,主要是其特征不像人名識別那樣緊緊有15中模式匹配模型,分詞在切分時并不能準備的切分出機構名稱)。? ???? 最后就是優化優化結果,添加詞性(對于詞性,前面已經包含相應的值,在調整相應的分詞后調整對應的詞性即可)。? ???
總結
以上是生活随笔為你收集整理的中科院分词系统大致流程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java jdk 类加载机制_JDK源码
- 下一篇: WEB_面试题_第三阶段