Jelinek-Merer与Absolute discounting 平滑方法
Jelinek-Merer
Jelinek-Merer平滑方法的基本思想是利用低元n-gram模型對高元n-gram模型進(jìn)行線性插值。
PML(wi∣wi?1)=c(wi,wi?1)c(wi?1)P_{ML}(w_i|w_{i-1})=\dfrac{c(w_i,w_{i-1})}{c(w_{i-1})}PML?(wi?∣wi?1?)=c(wi?1?)c(wi?,wi?1?)?
c(wi,wi?1)c(w_i,w_{i-1})c(wi?,wi?1?)是指詞i和詞i-1共同出現(xiàn)的次數(shù)。
PML(wi)=c(wi)NP_{ML}(w_i)=\dfrac{c(w_i)}{N}PML?(wi?)=Nc(wi?)?
N: term總數(shù)
Absolute discounting 絕對值減法
也是一種插值方式。通過從每個非零計數(shù)中減去一個固定的值D來建立高階分布。
D應(yīng)該是在0到1之間。D的估計值可以是:D=n1n1+2n2D=\dfrac{n_1}{n_1+2n_2}D=n1?+2n2?n1??
n1n_1n1?是訓(xùn)練語料庫中出現(xiàn)了1次的term總數(shù),在n元語法模型中。
n2n_2n2?是訓(xùn)練語料庫中出現(xiàn)了2次的term總數(shù),在n元語法模型中。
這部分的含義是:在n元語法模型中,和wi?1w_{i-1}wi?1?出現(xiàn)的不同元素個數(shù)。
∑wic(wi?n+1i)\sum_{w_i}c(w_{i-n+1}^i)∑wi??c(wi?n+1i?)的含義是與wiw_iwi?一起出現(xiàn)次數(shù)為0的不同元素的個數(shù)。
心存疑問,這里不太確定。
對于一元模型,Panyunsheng8講解的還是很清楚的。對于二元模型存在疑問。
參考資料:
MacCartney, B. (2005). Nlp lunch tutorial: Smoothing.
https://www.jianshu.com/p/a28acdc32b56
https://github.com/PangYunsheng8/Smoothing-Techniques-in-NLP/blob/master/smoothing.ipynb
總結(jié)
以上是生活随笔為你收集整理的Jelinek-Merer与Absolute discounting 平滑方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从零开始山寨Caffe·零:必先利其器
- 下一篇: 【Java面试系列】Linux面试题