新词发现想法
參考
http://www.matrix67.com/blog/archives/5044
http://for-ever-young.iteye.com/blog/1133136
1. 通過用戶查詢query發現
2. 互信息
互信息之統計模型中衡量2個隨機變量X,Y之間的關聯程度,而在新詞的識別中則特指相鄰2個詞之間的關聯程度。
MI(X,Y)=log2(p(X,Y)/p(X)*P(Y))
那么當『XY』未在已經訓練完的詞庫中出現,且該互信息高于某一閥值值,那么我們就假定該詞為新詞。
3. 頻率
當某一組連續相鄰的字在新的語料庫或網絡日志中大量出現而未在詞庫中登記時,那么我們也可假定該詞為新詞。
4. 先分詞,求分詞結果組合串 出現的頻率
5. matrix67 新詞發現的工作很有創意
把一個新詞定位為兩個維度,一是內部凝結度,可以用互信息描述;二 是外面信息熵
很明顯的是,如果內部凝結度越高,互信息越高
并且 如果左鄰或右鄰的詞的種類越多,熵越大
總結
- 上一篇: 进制思想
- 下一篇: 只用一次+ 求三个整数之和