如何衡量两个词的相关度
生活随笔
收集整理的這篇文章主要介紹了
如何衡量两个词的相关度
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在信息論中常用互信息(MI,Mutual Information)來衡量兩個詞的相關度MI(X,Y)=log2p(x,y)/p(x)p(y)
MI越大,表示兩個詞之間的結合越緊密。
當X,Y關聯大時,MI(X,Y)大于0;當X與Y關系弱時,MI(X,Y)等于0;當MI(X,Y)小于0時,X與Y稱為“互補關系”
這個算式看起來很直觀,但計算還是有些麻煩,因為計算概率值p(x),p(y)都需要在語料中進行分詞,
這就涉及到詞典的構成以及分詞的算法。
下面介紹一個簡便而直觀的算法:
假設一個文章集合 {C},總文章數目為N,其中含有單詞X的文章總數為Nx,含有單詞Y的文章總數是Ny,含有{X+Y}的文章總數是 Nxy,那么相關性這么計算
Corr(X,Y)= Nxy/(Nx+Ny-Nxy)-(Nx*Ny)/(N*N)
轉載于:https://www.cnblogs.com/leonjoon/archive/2008/07/07/1237231.html
總結
以上是生活随笔為你收集整理的如何衡量两个词的相关度的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: voip1
- 下一篇: 软件质量保证与测试(秦航第二版)第二章