自然语言处理之词向量技术(二)
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理之词向量技术(二)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. 詞向量技術
詞向量(word2vec)是一種表示自然語言中單詞的方法,即把每個詞都表示為一個N維空間內的點,即一個高維空間內的向量,通過這種方法,把自然語言計算轉換為向量計算。詞向量的基本內容包括:
- 問題引入
- 基于統計方法的詞向量
- 基于語言模型的詞向量
2 問題引入
2.1 向量空間分布的相似性
- 在計算機中表示詞語時,當詞語轉換為向量之后,應保持詞語之間在空間中具有相似性。
2.2 向量空間子結構和目標
- 詞語的向量不僅能表示空間分布,還應保證空間子結構一直。
- 詞向量的最終目標是:詞向量的表示可以作為機器學習、深度學習的輸入和空間表示。
2.3 實現詞向量的挑戰
- 挑戰一:如何把詞轉換為向量?自然語言單詞是離散信號,比如“香蕉”、“橘子”、“水果”在我們看來就是3個離散的詞。我們應該如何把離散的單詞轉換為一個向量。
- 挑戰二:如何讓向量具有語義信息?我們知道,“香蕉”和“橘子”更加相似,而“香蕉”和“句子”就沒有那么相似,同時,“香蕉”和“食物”,“水果”的相似程度,可能介于“橘子”和“句子”之間。那么,我們該如何讓詞向量具備這樣的語義信息?
3 基于統計方法的詞向量
3.1 OneHotEncoder
- 獨熱碼,在英文文獻中稱做ont-hot code,直觀來說就是有多少個狀態就有多少比特,而且只有一個比特為1,其他全為0的一種碼制。
3.2 詞袋模型
- 詞袋模型(Bag of Words,簡稱BoW),即將所有詞語裝進一個袋子里,不考慮其詞法和語序的問題,即每個詞語都是獨立的,把每一個單詞都進行統計,同時計算每個單詞出現的次數。
- 詞袋模型的三部曲:分詞(tokenizing),統計修訂詞特征值(counting)與標準化(normalizing)。
- 文檔的向量表示可以直接將各詞的詞向量表示加和。
4 基于語言模型的詞向量
4.1 語言模型的概念
- N-Gram是一種基于統計語言模型的算法。它的基本思想是將文本里面的內容按照字節進行大小為N的滑動窗口操作,形成了長度是N的字節片段序列。
- 每一個字節片段稱為gram,對所有gram的出現頻度進行統計,并且按照事先設定好的閾值進行過濾,形成關鍵gram列表,也就是這個文本的向量特征空間,列表中的每一種gram就是一個特征向量維度
4.2 文本離散表示的缺點
- 詞向量的表示太稀疏,很難捕捉文本的含義
- n-gram詞序列隨語料庫膨脹太快
- 各種距離度量都無法滿足語義的內容
總結
以上是生活随笔為你收集整理的自然语言处理之词向量技术(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自然语言处理综述(一)
- 下一篇: 自然语言处理之词向量模型(三)