當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pcfg 自然语言处理_自然语言处理：原理简明教程09-句法分析，语义分析和篇章分析...

發布時間：2023/12/9 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 pcfg 自然语言处理_自然语言处理：原理简明教程09-句法分析，语义分析和篇章分析... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

內容綱要

參考書：《統計自然語言處理(第2版)》，《形式語言與自動機理論》，《統計自然語言基礎》，《自然語言處理綜論》，《概率圖模型：原理與技術》，《概率論與數理統計》,《統計學方法》，《中文自動分詞與標注》

句法分析概述：

句法結構分析：對輸入的單詞序列(一般為句子)，判斷其構成是否合乎給定的語法，并分析出合乎語法的句子的句法結構。

句法分析的任務：

判斷輸入的字符串是否屬于某種語言

消除輸入句子中詞法和結構等方面的歧義

分析輸入句子的內部結構

構造句法分析器：

語法的形式化表示和詞條信息描述問題

分析算法的設計

句法結構分析方法：

基于規則的句法結構分析

基于統計的語法結構分析

PCFG：基于概率的上下文無關文法

論文：《Probabilistic Context-Free Grammars (PCFGs)》

思想：(結合論文看，該論文是一個lecture note，很棒)

CFG：提出了四元文法，最左文法

基于CFG的句法分析模型滿足三個假設條件：位置不變性，上下文無關性，祖先無關性

符合喬姆斯基范式，左邊都為單個非終結符，右邊要么都是非終結符，要么只有終結符，

如：

但是不同的語法樹解析相同的句子，可能有不同意思。

有了語法樹可以定義概率

TＧ(Ｓ)表示具體解析樹，當大于一表示有歧義，所以要用概率樹選最大的。

三大問題：1)已知產式概率，求語法樹概率。2)求所有語法樹中最大概率。3)不知道產式概率，求參數。這三個問題剛好對應HMM的三大問題。

如果有corpus可以統計處概率則，方法是文法每個產式可以根據corpus統計出概率，然后生成樹的過程不斷把概率相乘，最后得到最終的樹的概率。難點在于如何遍歷所有產式，得到所有樹的概率。用dp解答，寫出遞推式子，每個樹是在子樹概率基礎上得到的。

如果沒有corpus，則用EM求解：

淺層句法分析：

完全句法分析是困難的任務，目前還沒令人滿意的解決方法

樹庫成本昂貴

淺層句法分析：完全句法分析的簡化任務版，主要包括兩個子任務，語塊識別與分析，語塊之間依附關系分析

語塊(chunk)：句子中的結構獨立，相對較簡單的部分。例如，名詞短語，動詞短語

BaseNP：

與命名實體區別：命名實體是詞典中查不出的，BaseNP可以是查得出的

識別方法：

基于CRF識別BaseNP

基于SVM識別BaseNP

混合方法

基于CRF識別BaseNP：

參考論文：轉化為標注問題《Shallow Parsing with Conditional Random Fields》

說明：就是寫出標記之間的狀態轉移，然后根據CRF寫出模型公式，求解參數

基于SVM識別BaseNP：

參考論文：

《Use of? Support Vector Learning for Chunk Identification》最后用的是線性SVM

《Fast Methods for Kernel-based Text Analysis》上文改進，用了核函數

思想：

說明：

Col0為詞序列，col1為詞性序列，tag為標注序列，

以deficit為例，取前后詞，詞性，和tag，所有詞和詞性和tag都用word vector(0-1)表示，然后tag是類別，進行分類，訓練出分類模型。注意特征集包含了前兩個tag

為了保證空間要求，對數據進行壓縮，比如(3，101，1791)表示三個詞的vector

混合方法：

參考論文：《A Hybrid Approach to Chinese Base Noun Phrase Chunking》

思路：結合SVM+CRF多種因素的結果

結果分析：

依存語法(了解，不細講)：

依存語法：用詞不詞之間的依存關系來描述語言結構的框架

L.Tesniere理論：一切結構局句法現象可概括為關聯，組合，轉位三大核心。句法關聯建立起詞不詞之間的從屬關系，這種從屬關系是由支配詞和從屬詞聯結而成。價的概念：一個動詞所能支配的行動元的個數。

參考論文：

《Non-projective Dependency Parsing using Spanning Tree Algorithms》

《Layer-Based Dependency Parsing》

語義分析(不細講，了解)：一個詞多種意思，通過分析技術，確定它在上下文中的真實意思

篇章分析：自動文摘：摘錄，指代消解，銜接問題

指代消解：

論文：

《指代消解綜述》：對指代消解進行了綜述，其中有中文部分

《Coreference Resolution Current Trends and Future Directions》：綜述文章

《First-Order Probabilistic Models for Coreference Resolution》：從上面綜述文章中來的一篇

最后一篇思路：

說明：圖一邊表示之間關系的概率，公式為計算概率的公式

步驟：

1)corpus聚類，找到(bush, he)這樣的對

2)根據特征模板，選取特征，就是最后語料每個是啥樣

3)利用最大熵求解“人k”

4)得到P

5)得到圖

6)分區和聚類問題

7)改進：First-Order Logic Model

自動文摘：

Luhn在1958年的開創性工作

自勱文摘技術分類：單文檔摘要，多文檔摘要等

方法：

VSM方法

基于隱語義的方法

基于HMM的方法

VSM方法：

論文：《基于潛在語義分析的單文本自動摘要方法研究》里面提到了

基于潛在語義的方法

論文：《基于潛在語義索引的文本摘要方法》，《LATENT DIRICHLET LEARNING FOR DOCUMENT SUMMARIZATION》

思路：

基于HMM的方法：

參考論文：《Catching the Drift Probabilistic Content Models, with Applications to Generation and Summarization》

思路：

多文檔摘要：不成熟，不細講

問題：

怎樣找到感興趣的多篇文檔？

怎樣從多篇文檔里聯合抽取？

抽取出來的句子按怎樣的順序排列？

抽取出來的句子怎樣做到上下文“融合”？

參考論文：

《Centroid-based summarization of multiple documents》

《Sentence Fusion for Multidocument News Summarization》

總結

以上是生活随笔為你收集整理的pcfg 自然语言处理_自然语言处理：原理简明教程09-句法分析，语义分析和篇章分析...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： c语言数组扩容,数组的扩容
下一篇：美国网站服务器有哪些，可以搭建什么网站？