pcfg 自然语言处理_自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析...
內容綱要
參考書:《統計自然語言處理(第2版)》,《形式語言與自動機理論》,《統計自然語言基礎》,《自然語言處理綜論》 ,《概率圖模型:原理與技術》,《概率論與數理統計》,《統計學方法》,《中文自動分詞與標注》
句法分析概述:
句法結構分析:對輸入的單詞序列(一般為句子),判斷其構成是否合乎給定的語法,并分析出合乎語法的句子的句法結構。
句法分析的任務:
判斷輸入的字符串是否屬于某種語言
消除輸入句子中詞法和結構等方面的歧義
分析輸入句子的內部結構
構造句法分析器:
語法的形式化表示和詞條信息描述問題
分析算法的設計
句法結構分析方法:
基于規則的句法結構分析
基于統計的語法結構分析
PCFG:基于概率的上下文無關文法
論文:《Probabilistic Context-Free Grammars (PCFGs)》
思想:(結合論文看,該論文是一個lecture note,很棒)
CFG:提出了四元文法,最左文法
基于CFG的句法分析模型滿足三個假設條件:位置不變性,上下文無關性,祖先無關性
符合喬姆斯基范式,左邊都為單個非終結符,右邊要么都是非終結符,要么只有終結符,
如:
但是不同的語法樹解析相同的句子,可能有不同意思。
有了語法樹可以定義概率
TG(S)表示具體解析樹,當大于一表示有歧義,所以要用概率樹選最大的。
三大問題:1)已知產式概率,求語法樹概率。2)求所有語法樹中最大概率。3)不知道產式概率,求參數。這三個問題剛好對應HMM的三大問題。
如果有corpus可以統計處概率則,方法是文法每個產式可以根據corpus統計出概率,然后生成樹的過程不斷把概率相乘,最后得到最終的樹的概率。難點在于如何遍歷所有產式,得到所有樹的概率。用dp解答,寫出遞推式子,每個樹是在子樹概率基礎上得到的。
如果沒有corpus,則用EM求解:
淺層句法分析:
完全句法分析是困難的任務,目前還沒令人滿意的解決方法
樹庫成本昂貴
淺層句法分析:完全句法分析的簡化任務版,主要包括兩個子任務,語塊識別與分析,語塊之間依附關系分析
語塊(chunk):句子中的結構獨立,相對較簡單的部分。例如,名詞短語,動詞短語
BaseNP:
與命名實體區別:命名實體是詞典中查不出的,BaseNP可以是查得出的
識別方法:
基于CRF識別BaseNP
基于SVM識別BaseNP
混合方法
基于CRF識別BaseNP:
參考論文:轉化為標注問題《Shallow Parsing with Conditional Random Fields》
說明:就是寫出標記之間的狀態轉移,然后根據CRF寫出模型公式,求解參數
基于SVM識別BaseNP:
參考論文:
《Use of? Support Vector Learning for Chunk Identification》最后用的是線性SVM
《Fast Methods for Kernel-based Text Analysis》上文改進,用了核函數
思想:
說明:
Col0為詞序列,col1為詞性序列,tag為標注序列,
以deficit為例,取前后詞,詞性,和tag,所有詞和詞性和tag都用word vector(0-1)表示,然后tag是類別,進行分類,訓練出分類模型。注意特征集包含了前兩個tag
為了保證空間要求,對數據進行壓縮,比如(3,101,1791)表示三個詞的vector
混合方法:
參考論文:《A Hybrid Approach to Chinese Base Noun Phrase Chunking》
思路:結合SVM+CRF多種因素的結果
結果分析:
依存語法(了解,不細講):
依存語法:用詞不詞之間的依存關系來描述語言結構的框架
L.Tesniere理論:一切結構局句法現象可概括為關聯,組合,轉位三大核心。句法關聯建立起詞不詞之間的從屬關系,這種從屬關系是由支配詞和從屬詞聯結而成。價的概念:一個動詞所能支配的行動元的個數。
參考論文:
《Non-projective Dependency Parsing using Spanning Tree Algorithms》
《Layer-Based Dependency Parsing》
語義分析(不細講,了解):一個詞多種意思,通過 分析技術,確定它在上下文中的真實意思
篇章分析:自動文摘:摘錄,指代消解,銜接問題
指代消解:
論文:
《指代消解綜述》:對指代消解進行了綜述,其中有中文部分
《Coreference Resolution Current Trends and Future Directions》:綜述文章
《First-Order Probabilistic Models for Coreference Resolution》:從上面綜述文章中來的一篇
最后一篇思路:
說明:圖一邊表示之間關系的概率,公式為計算概率的公式
步驟:
1)corpus聚類,找到(bush, he)這樣的對
2)根據特征模板,選取特征,就是最后語料每個是啥樣
3)利用最大熵求解“人k”
4)得到P
5)得到圖
6)分區和聚類問題
7)改進:First-Order Logic Model
自動文摘:
Luhn在1958年的開創性工作
自勱文摘技術分類:單文檔摘要,多文檔摘要等
方法:
VSM方法
基于隱語義的方法
基于HMM的方法
VSM方法:
論文:《基于潛在語義分析的單文本自動摘要方法研究》里面提到了
基于潛在語義的方法
論文:《基于潛在語義索引的文本摘要方法》,《LATENT DIRICHLET LEARNING FOR DOCUMENT SUMMARIZATION》
思路:
基于HMM的方法:
參考論文:《Catching the Drift Probabilistic Content Models, with Applications to Generation and Summarization》
思路:
多文檔摘要:不成熟,不細講
問題:
怎樣找到感興趣的多篇文檔?
怎樣從多篇文檔里聯合抽取?
抽取出來的句子按怎樣的順序排列?
抽取出來的句子怎樣做到上下文“融合”?
參考論文:
《Centroid-based summarization of multiple documents》
《Sentence Fusion for Multidocument News Summarization》
總結
以上是生活随笔為你收集整理的pcfg 自然语言处理_自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c语言 数组扩容,数组的扩容
- 下一篇: 美国网站服务器有哪些,可以搭建什么网站?