Word2Vec学习笔记(二)
二、語言模型
????語言模型可以分為文法型模型和統計語言模型。在實際應用中語言識別、手寫體文字識別、機器翻譯、鍵盤輸入、信息檢索等研究領域都用到了語言模型。文法型語言模型是人工編制的語言學文法,文法規則來源于語言學家掌握的語言學知識和領域知識,但這種語言模型不能處理大規模真實文本。因此,統計語言模型出現了,并且得到了廣泛的應用,統計語言模型是基于概率的,包括了N元文法模型(N-gram Model)、隱馬爾科夫模型(Hidden Markov Model,簡稱HMM)、最大熵模型(Maximum Entropy Model)。
1.統計語言模型的基本原理
????統計語言模型是以概率分布的形式說明了一個字符串出現的概率。假設詞(word)是語言的最小單位,句子S是由一系列的詞w1,w2,…,wk順序構成,則句子S的概率為下:
且,上式中約定 p(w1|w0)=p(w1).觀察上式可以發現,句子S的概率計算是很復雜的,因此,往往采用一些方法來估計語料庫中句子的概率。
2.主要的統計語言模型
2.1 上下文無關模型
????上下文無關模型就是詞w1的出現與它所處的環境無關,僅僅是它在語料中出現的概率,即它是n-gram中n=1的情況,但是實際上,這種方法效果并不是很好。
2.2 n-gram模型
????n-gram模型是要考慮上下文的。w1出現的是依賴于它之前的n-1個詞的,即需要計算詞表中的每一個n-1元組的概率,此計算量是巨大的,因此實際中,常取n=2 或n=3.
2.3 暫時記錄在此
隱馬爾科夫模型(Hidden Markov Model,簡稱HMM)和最大熵模型(Maximum Entropy Model)暫時還沒有深入研究,暫時記錄下來,以后進行補充。
總結
以上是生活随笔為你收集整理的Word2Vec学习笔记(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2022年中国隐私计算行业研究报告
- 下一篇: 互联网晚报 | 3月6日 星期天 |