自然语言处理笔记2-哈工大 关毅
目錄
文章目錄
- 目錄
- 前言
- 自然語言處理概論(七)
- 自然語言處理概論(八)
- 數學基礎和語言學基礎(1)
- 數學基礎和語言學基礎(2)
- 數學基礎和語言學基礎(3)
- 數學基礎和語言學基礎(4)
- 數學基礎和語言學基礎(5)
前言
碩士生涯結束,開始專心做一件自己覺得有用的工具,先做工程,后搞理論。
自然語言處理是一個非常難的問題,同時是人工智能皇冠上的明珠。
接下來會記錄一系列自然語言處理的筆記,來自于哈工大老師關毅
自然語言處理概論(七)
人工智能經典實驗,圖靈實驗,想象人和一塊機器隔著屏幕講話,如果,人無法判斷對面是機器還是人,那就說明這個機器通過了圖靈測試。
強調一點,人工智能的發展還是要依賴于對人大腦機理的了解,做出真正的人工智能。
涉及的學科:計算語言學,應用語言學,計算機科學。
可計算的方法來自于數學的理論基礎和人的心理學模型。
將人理解自然語言的步驟反著來一遍,就可以做出真正的自然語言理解。
現在想要在理論上做出大的創新,需要的是交叉學科,需要的是共同創新。
計算語言學側重于語言處理的基礎。自然語言理解側重于智能化人機接口。
自然語言處理概論(八)
漢語的特性:
大字符集的意音文字,同義多,詞態無變化,語法研究不規范。
漢語語言形式化和量化工作滯后。
力量較分散,分詞評測系統很難。
基礎理論講解:1概率統計2統計機器學習3人工智能4認知科學理論。
人工智能理論:1組合優化方法2邏輯方法
可研究的內容:1詞法分析2句法分析3上下文無關分析4語義分析5概念網絡6機器翻譯。
數學基礎與語言學基礎(一)
從小規模語料庫統計出語料信息然后在大規模語料庫里面使用。
個人的感受:
工程開發經驗以后,必須做一個精密的系統,收集分析情況,構造推斷模型。
概率論是我們的研究基礎,它研究的是隨機現象的規律,詞匯的分布也符合冪律。
數學基礎和語言學基礎(1)
1948年,熵出現,
H(P)=∑x屬于Ω?p(x)?logp(x)H(P)=\sum_{x 屬于 \Omega }-p(x)*log_p(x) H(P)=x屬于Ω∑??p(x)?logp?(x)
不確定性的信息熵最大,完全確定的信息,信息熵最小。
馮志偉漢語信息量最大。
條件概率復習:
P(A|B),B為真時A發生的概率。
數學基礎和語言學基礎(2)
貝葉斯定理
P(A∣B)=P(A,B)P(B)=P(B∣A)?P(A)P(B)=argmaxAP(B∣A)?P(A)P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)*P(A)}{P(B)}=argmax_AP(B|A)*P(A)P(A∣B)=P(B)P(A,B)?=P(B)P(B∣A)?P(A)?=argmaxA?P(B∣A)?P(A)
應用,音字替換,貝葉斯定理,將一個大問題分解成兩個小的問題的乘積。
隨機變量,數學期望與方差。
無參數分布以及有參數分布。
極大似然估計和貝葉斯統計。
語言學基礎:
1漢語的分類:可以分為實,虛,嘆。
屬于黏著語。
數學基礎和語言學基礎(3)
語法分類,句法分析特點。
漢語句法分析的特殊性。
一個詞可以在句中擔任多種成分,切勿形態變化。
語言知識庫,一個關鍵核心部分,調整知識庫。
現代漢語語法信息詞典,語用層提示到語義層。
數學基礎和語言學基礎(4)
貝葉斯公式和一個核心。
oncology是核心。
hownet搭建了一個意元為基礎的框架。
定義意元很難,派生整個系統。
數學基礎和語言學基礎(5)
搜索系統,人性化提問。
大規模文本抽取答案。
語義相似度的計算,基于庫或者基于統計的方法。
機器可讀詞典。
二進制文件構造你的詞典,保護知識產權。
總結
以上是生活随笔為你收集整理的自然语言处理笔记2-哈工大 关毅的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android日志打印机制,Androi
- 下一篇: matlab 层次聚类