當前位置：首頁 > 编程语言 > python >内容正文

python

Python自然语言处理中文版-学习笔记

發布時間：2023/12/31 python 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python自然语言处理中文版-学习笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第 1 章語言處理與 Python

頻率分布是項目連同它們的頻率計數的集合(例如：一個文本中的詞與它們出現的頻率)。

自然語言處理研究的一個重要目標一直是使用淺顯但強大的技術代替無邊無際的知識和推理能力，促進構建“語言理解”技術的艱巨任務的不斷取得進展。

給出一個德文和英文雙語的文檔或者一個雙語詞典，我們就可以自動配對組成句子，這個過程叫做文本對齊。

離散圖中每一個豎線代表一個單詞，每一行代表整個文本。

一個詞類型是指一個詞在一個文本中獨一無二的出現形式或拼寫。

程序設計的一個關鍵特征是讓機器能按照我們的意愿決策，遇到特定條件時執行特定命令，或者對文本數據從頭到尾不斷循環遍歷直到條件滿足。

自動消除歧義需要使用上下文，利用相鄰詞匯有相近含義這樣一個簡單的事實。

第 2 章獲得文本語料和詞匯資源

博客：NLP學習路線總結

自然語言處理怎么最快入門？

把就職演說語料庫當作一個單獨的文本對待，實際上是 55 個文本的集合，每個文本都是一個總統的演說。這個集合的一個有趣特性是它的時間維度。

許多文本語料庫都包含語言學標注，有詞性標注、命名實體、句法結構、語義角色等。

條件頻率分布是頻率分布的集合，每個頻率分布有一個不同的“條件”。

一個詞項包括詞目（也叫詞條）以及其他附加信息，例如：詞性和詞意定義。

同義詞集和詞的配對叫做詞條。

WordNet 是一個面向語義的英語詞典，由同義詞的集合—或稱為同義詞集（synsets）—組成，并且組織成一個網絡。

特征提取是指將機器學習算法不能識別的原始數據轉化為算法可以識別的特征的過程。

語言識別指的是將不同語言的文本區分出來。其利用語言的統計和語法屬性來執行此任務。語言識別也可以被認為是文本分類的特殊情況。

第 3 章加工原料文本

第 4 章編寫結構化程序

第 5 章分類和標注詞匯

記住在正則表達式前加字母“r” ,它告訴 Python 解釋器按照字面表示對待字符串而不去處理正則表達式中包含的反斜杠字符。

如果你想編譯一些文本的詞匯,或者想要一個有效詞條(或中心詞)列表,WordNet 詞形歸并器是一個不錯的選擇。

如果你要索引一些文本和使搜索支持不同詞匯形式的話,Porter 詞干提取器是一個很好的選擇。

函數 re.search(p, s)檢查字符串 s 中是否有模式 p。

print 語句結尾加一個逗號,這是為了告訴 Python 不要在行尾輸出換行符。

基于轉換的標注學習一系列“改變標記 s 為標記 t 在上下文 c 中”形式的修復規則,每個規則會修復錯誤,也可能引入(較小的)錯誤。

N-gram 標注器可以定義較大數值的 n,但是當 n 大于 3 時,我們常常會面臨數據稀疏問題;即使使用大量的訓練數據,我們看到的也只是可能的上下文的一小部分。

詞性標注是 NLP 中一個重要的早期的序列分類任務:利用局部上下文語境中的詞和標記對序列中任意一點的分類決策。

自動標注是 NLP 流程中重要的一步,在各種情況下都十分有用,包括預測先前未見過的詞的行為、分析語料庫中詞的使用以及文本到語音轉換系統。

N-gram 標注器不應考慮跨越句子邊界的上下文。因此,NLTK 的標注器被設計用于句子鏈表,一個句子是一個詞鏈表。在一個句子的開始,tn-1和前面的標記被設置為 None。

由于我們通常很難獲得專業和公正的人的判斷, 所以使用黃金標準測試數據來代替。

動態規劃是一種在 NLP 中廣泛使用的算法設計技術,它存儲以前的計算結果,以避免不必要的重復計算。

大多數的標記都有后綴修飾符:-NC 表示引用,-HL 表示標題中的詞,-TL 表示標題(布朗標記的特征) 。

第 6 章學習分類文本

第 7 章從文本提取信息

第 8 章分析句子結構

文法的目的是給出一個明確的語言描述。

成分結構基于對詞與其他詞結合在一起形成單元的觀察。

按照慣例，第一條生產式的左端是文法的開始符號，通常是 S，所有符合語法規則的樹都必須有這個符號作為它們的根標簽。

分析器根據文法產生式處理輸入的句子，并建立一個或多個符合文法的組成結構。一種最簡單的分析器將一個文法作為如何將一個高層次的目標分解成幾個低層次的子目標的規范來解釋。將運用動態規劃算法設計技術分析問題。

NP-塊往往是比較完整的名詞短語的小片段。NP-分塊信息最有用的來源之一是詞性標記。

組成一個塊語法的規則使用標記模式來描述已標注的詞的序列。一個標記模式是一個用尖括號分隔的詞性標記序列，如<DT>?<JJ>*<NN>。標記模式類似于正則表達式模式。

命名實體識別是一個非常適合用基于分類器類型的方法來處理的任務，這些方法我們在名詞短語分塊時看到過。特別是我們可以建立一個標注器，為使用 IOB 格式的每個塊都加了適當類型標簽的句子中的每個詞加標簽。

信息提取系統搜索大量非結構化文本，尋找特定類型的實體和關系，并用它們來填充有組織的數據庫。這些數據庫就可以用來尋找特定問題的答案。

關系抽取可以使用基于規則的系統，它通常查找文本中的連結實體和相關的詞的特定模式；或使用機器學習系統，通常嘗試從訓練語料自動學習這種模式。

模式識別是自然語言處理的一個核心部分。

創建一個分類器的第一步是決定輸入的什么樣的特征是相關的，以及如何為那些特征編碼。

一旦初始特征集被選定，完善特征集的一個非常有成效的方法是錯誤分析。首先，我們選擇一個開發集，包含用于創建模型的語料數據。然后將這種開發集分為訓練集和開發測試集。

訓練一個有監督分類器時，你應該把語料分為三個數據集：用于構造分類器模型的訓練集，用于幫助選擇和調整模型特性的開發測試集，以及用于評估最終模型性能的測試集。

一種序列分類器策略，稱為連續分類或貪婪序列分類，是為第一個輸入找到最有可能的類標簽，然后使用這個問題的答案幫助找到下一個輸入的最佳的標簽。這個過程可以不斷重復直到所有的輸入都被貼上標簽。

用于評估一個分類最簡單的度量是準確度，測量測試集上分類器正確標注的輸入的比例。

為一個輸入值選擇標簽，樸素貝葉斯分類器以計算每個標簽的先驗概率開始，它由在訓練集上檢查每個標簽的頻率來確定。最大熵分類器使用了一個與樸素貝葉斯分類器使用的模型非常相似的模型。最大熵分類器采用迭代優化技術選擇模型參數，該技術用隨機值初始化模型的參數，然后反復優化這些參數，使它們更接近最優解。

第 9 章建立基于特征的文法

第 10章分析句子的意思

協議是動詞的形態屬性與主語名詞短語的句法屬性一起變化。非正式的語言類別具有屬性，例如：名詞具有復數的屬性。

一個特征結構實際上只是一種字典，所以我們可以平常的方式通過索引訪問它的值。特征結構本身并不依賴于語言對象；它們是表示知識的通用目的的結構。

上下文無關文法的傳統分類是原子符號。原子值的一個特定類別是布爾值，按照慣例用[+/- feat]表示。

通常情況下，我們在詞匯層面指定固定的特征值，限制短語中的特征值與它們的孩子中的對應值統一。

從廣義上講，自然語言語義表示的基于邏輯的方法關注那些指導我們判斷自然語言的一致性和不一致性的方面。

命題邏輯使我們能只表示語言結構的對應與句子的特定連接詞的那些部分。命題邏輯的基本表達式是命題符號，通常寫作 P、Q、R 等。

確定模型中公式的真假的一般過程稱為模型檢查。

一階邏輯是一種適合在計算環境中表示自然語言的含義的語言，因為它很靈活，足以表示自然語言含義的很多有用的方面，具有使用一階邏輯推理的高效的定理證明器。

一個封閉的表達式是一個沒有自由變量的表達式。也就是，變量都被綁定。一個封閉的表達式是真是假取決于所有變量賦值。

第 11 章語言數據管理

TIMIT 演示了語料庫設計中的幾個主要特點：語料庫包含語音和字形兩個標注層；它在多個維度的變化與方言地區和二元音覆蓋范圍之間取得平衡；將原始語言學事件作為錄音來捕捉和作為標注來捕捉之間有明顯的區分；語料庫的層次結構；雖然 TIMIT 是語音語料庫，它的錄音文本和相關數據只是文本，可以使用程序處理了，就像任何其他的文本語料庫那樣。

Kappa 系數 k 測量兩個人判斷類別和修正預期的期望一致性的一致性。

可擴展標記語言（XML）為設計特定領域的標記語言提供了一個框架。Python 的 ElementTree 模塊提供了一種方便的方式訪問存儲在 XML 文件中的數據。

大多數語料庫中基本數據類型是已標注的文本和詞匯。文本有時間結構，而詞匯有記錄結構。

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的Python自然语言处理中文版-学习笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。