nlp1-介绍
能做什么?
- 自然語言處理:
- 如何讓計算機能夠自動或半自動地理解自然語言文本,懂得人的意圖和心聲?
- ?如何讓計算機實現(xiàn)海量語言文本的自動處理、挖掘和有效利用,滿足不同用戶的各種需求,實現(xiàn)個性化信息服務?
基本概念
-
語言學:研究語言的本質、結構和發(fā)展規(guī)律的科學。
- 類別
- 歷時語言學 (diachronic linguistics)或稱歷史語言學 (historical linguistics)、
- 共時語言學 (synchronic linguistics)、
- 描述語言學 (descriptive linguistics)、
- 對比語言學(contrastive linguistics)、
- 結構語言學 (structural linguistics) 等等。
- 類別
-
語音學 (phonetics)
- 研究人類發(fā)音特點,特別是語音發(fā)音特點,并提出各種語音描述、分類和轉寫方法的科學。
- 包括:
- (1)發(fā)音語音學(articulatory phonetics),研究發(fā)音器官如何產生語音;
- (2)聲學語音學(acoustic phonetics),研究口耳之間傳遞語音的物理屬性;
- (3)聽覺語音學(auditory phonetics), 研究人通過耳、聽覺神經(jīng)和大腦對語音的知覺反應
-
計算語言學(Computational Linguistics)CL
- 通過建立形式化的計算模型來分析、理解和生成自然語言的學科,是人工智能和語言學的分支學科。
- 與內容接近的學科自然語言處理相比較,計算語言學更加側重基礎理論和方法的研究。
-
自然語言理解(Natural Language Understanding, NLU)
- 自然語言理解是探索人類自身語言能力和語言思維活動的本質,研究模仿人類語言認知過程的自然語言處理方法和實現(xiàn)技術的一門學科。它是人工智能早 期研究的領域之一,是一門在語言學、計算機科學、 認知科學、信息論和數(shù)學等多學科基礎上形成的交叉 學科。
-
智能?
- 關于“理解”的標準
- ? 如何判斷計算機系統(tǒng)的智能?
- 與有意識的個體(人)比較如何?
- 表現(xiàn)
- 反應
- 相互作用
- 方法:圖靈設計的“模仿游戲” - 圖靈實驗(Turing test)
- 仍有爭議
- 不易進行
- 只能說從表現(xiàn)上來看和人相似
- ? 如何判斷計算機系統(tǒng)的智能?
- 關于“理解”的標準
-
自然語言處理nlp
- 自然語言處理是研究如何利用計算機技術對語言文本(句子、篇章或話語等)進行處理和加工的一門學科,
- 研究內容:包括對詞法、句法、語義和語用等信息的識別、分類、提取、轉換和生成等各種處理方法和實現(xiàn)技術。
-
三個不同的語系
- ? 屈折語(fusional language/ inflectional language): 用詞的形態(tài)變化表示語法關系,如英語、法語等。
- ? 黏著語(agglutinative language): 詞內有專門表示語法意義的附加成分,詞根或詞干與附加成分的結合不緊密,如日語、韓語、土耳其語等。
- ? 孤立語(analytic language)(分析語, isolating language): 形態(tài)變化少,語法關系靠詞序和虛詞表示,如漢語。
-
中文信息處理:針對中文的自然語言處理技術
計算語言學也稱自然語言處理或自然語言理解——人類語言技術HLT
4.研究內容
-
機器翻譯 (Machine translation, MT):實現(xiàn)一種語言到另一種語言的自動翻譯。
- ?應用:文獻翻譯、網(wǎng)頁輔助瀏覽等。
-
信息檢索
- 信息檢索也稱情報檢索,就是利用計算機系統(tǒng)從大量文檔中找到符合用戶需要的相關信息。
-
自動文摘
- 將原文檔的主要內容或某方面的信息自動提取出來,并形成原文檔的摘要或縮寫
- 觀點挖掘
-
問答系統(tǒng) (Question-answering system)
- 通過計算機系統(tǒng)對人提出的問題的理解,利用自動推理等手段,在有關知識資源中自動求解答案并做出相應的回答。問答技術有時與語音技術和多模態(tài)輸入/輸出技術,以及人機交互技術等相結合,構成人機對話系統(tǒng) (man-computer dialogue system)
- 通過計算機系統(tǒng)對人提出的問題的理解,利用自動推理等手段,在有關知識資源中自動求解答案并做出相應的回答。問答技術有時與語音技術和多模態(tài)輸入/輸出技術,以及人機交互技術等相結合,構成人機對話系統(tǒng) (man-computer dialogue system)
-
信息過濾 (Information filtering)
- 通過計算機系統(tǒng)自動識別和過濾那些滿足特定條件的文檔信息。
-
信息抽取 (Information extraction)
- 從指定文檔中或者海量文本中抽取出用戶感興趣的信息。
- 實體關系抽取 (entity relation extraction)。
- 社會網(wǎng)絡 (social network)
-
文檔分類 (Document categorization)
- 文檔分類也叫文本自動分類 (Text categorization / classification) 或信息分類(Information categorization / classification),其目的就是利用計算機系統(tǒng)對大量的文檔按照一定的分類標準(例如,根據(jù)主題或內容劃分等)實現(xiàn)自動歸類。
- 情感分類(Sentimental classification)
- ? 應用:圖書管理、情報獲取、網(wǎng)絡內容監(jiān)控等
-
語音識別 (automatic speech recognition, ASR)
- 將輸入語音信號自動轉換成書面文字。
- ? 應用:文字錄入、人機通訊、語音翻譯等等。
- ? 困難:大量存在的同音詞、近音詞、集外詞、口音等等。
-
文語轉換/ 語音合成 (text-to-speech synthesis)
- 將書面文本自動轉換成對應的語音表征。
- ? 應用:朗讀系統(tǒng)、人機語音接口等等。
-
? 說話人識別/認同/驗證 (speaker recognition/ identification/ verification)
- 對一言語樣品做聲學分析,依此推斷(確定或驗證)說話人的身份。
- ? 應用:信息安全、防偽等等
-
一般將語音識別、語音合成和說話人識別等以語音信號為主要研究對象的語音技術獨立出來,
-
而其他以文本(詞匯/句子/篇章等)為主要處理對象的研究內容作為自然語言處理的主體
基本問題
- 形態(tài)學 (Morphology) 問題
- 研究詞(word) 由有意義的基本單位-詞素(morphemes)的構成問題。
- 單詞的識別/ 漢語的分詞問題。
- 詞素:詞根、前綴、后綴、詞尾
- 句法 (Syntax) 問題
- 研究句子結構成分之間的相互關系和組成句子序列的規(guī)則
- 研究句子結構成分之間的相互關系和組成句子序列的規(guī)則
- 語義 (Semantics) 問題
- 研究如何從一個語句中詞的意義,以及這些詞在該語句中句法結構中的作用來推導出該語句的意義;
- 研究如何從一個語句中詞的意義,以及這些詞在該語句中句法結構中的作用來推導出該語句的意義;
- 語用學(Pragmatics) 問題
- 研究在不同上下文中語句的應用,以及上下文對語句理解所產生的影響。
- 從狹隘的語言學觀點看,語用學處理的是語言結構中有形式體現(xiàn)的那些語境。
- 相反,語用學最寬泛的定義是研究語義學未能涵蓋的那些意義。
- 語音學(Phonetics) 問題
- 研究語音特性、語音描述、分類及轉寫方法等
- 研究語音特性、語音描述、分類及轉寫方法等
主要困難
-
大量歧義(ambiguity)現(xiàn)象
- ? 詞法歧義
- 自動化/研究所/取得/的/成就
- 自動化/研究/所/取得/的/成就
- 詞性歧義
- 結構歧義
- 喜歡鄉(xiāng)下的孩子。
- 關于魯迅的文章。
- 語義歧義
- 一詞多義
- 比喻
- eg
- 他說:“她這個人真有意思(funny)”。她說:“他這個人怪有意思的(funny)”。于是人們以為他們有了意思(wish),并讓他向她
意思意思(express)。他火了:“我根本沒有那個意思(thought)”!她也生氣了:“你們這么說是什么意思(intention)”?事后有人說:“真有意思(funny)”。也有人說:“真沒意思(nonsense)”。 - 要把權力裝進制度的籠子;老虎蒼蠅一起打。破四舊,除四害;消滅一切牛鬼蛇神。
- 他說:“她這個人真有意思(funny)”。她說:“他這個人怪有意思的(funny)”。于是人們以為他們有了意思(wish),并讓他向她
- 語音歧義:大量同音現(xiàn)象
- 多音字及韻律等歧義(語音合成的困難)
- 一字多音
- 韻律、聲調、語氣、重音
- 大量未知語言現(xiàn)象
- 新詞、人名、地名、術語等
- 新含義(蘋果)
- 新用法和新句型等,
- ? 詞法歧義
-
歸結其挑戰(zhàn)有:
- 普遍存在的不確定性:詞法、句法、語義、語用和語音各個層面
- 未知語言現(xiàn)象的不可預測性:新的詞匯、新的術語、新的語義和語法無處不在
- 始終面臨的數(shù)據(jù)不充分性:有限的語言集合永遠無法涵蓋開放的語言現(xiàn)象
- 語言知識表達的復雜性:語義知識的模糊性和錯綜復雜的關聯(lián)性難以用常規(guī)方法有效地描述,為語義計算帶來了極大的困難
-
機器翻譯中映射單元的不對等性:詞法表達不相同、句法結構不一致、語義概念不對等
基本研究方法
- 理性主義:通常通過一些特殊的語句或語言現(xiàn)象的研究來得到對人的語言能力的認識,而這些語句和語言現(xiàn)象在實際的應用中并不常見
- 問題求解的基本思路:基于規(guī)則的分析方法建立符號處理系統(tǒng)
- 規(guī)則庫開發(fā):N + N --> NP
- 詞典標注: #工作,N(uc);V;
- 推導算法設計:歸約、推導、歧義消解方法
- 知識庫 + 推理系統(tǒng) -->NLP 系統(tǒng)
- 理論基礎:Chomsky 的文法理論
- 經(jīng)驗主義:偏重于對大規(guī)模語言數(shù)據(jù)中人們所實際使用的普通語句的統(tǒng)計。
- 求解問題的思路:基于大規(guī)模真實語料(語言數(shù)據(jù))建立計算方法
- 大規(guī)模真實數(shù)據(jù)的收集、標注:真實性、代表性、標注信息 ……
- 統(tǒng)計模型建立:模型的復雜性、有效性、參數(shù)訓練方法 ……
- 理論基礎:統(tǒng)計學、信息論、機器學習
- 語料庫 + 統(tǒng)計模型 --> NLP 系統(tǒng)
兩種方法的實例
- 例子
- 以機器翻譯為例
- 給定英語句子:
- There is a book on the desk.
- 將其翻譯成漢語
基于規(guī)則的方法
- 基于規(guī)則的方法
- 對英語句子進行詞法分析
- There/Ad is/Vbe a/Det book/N on/P the/Det desk/N ./Puc
- 對英語句子進行句法結構分析
- 利用轉換規(guī)則將英語句子結構轉換成漢語句子結構
- 利用轉換規(guī)則將英語句子結構轉換成漢語句子結構
- 對英語句子進行詞法分析
- 根據(jù)轉換后的句子結構,利用詞典和生成規(guī)則生成翻譯的結果句子
數(shù)據(jù)驅動的方法(SMT和NMT
基于統(tǒng)計的方法
- 貝葉斯判別
- ?三個關鍵問題:
- ?估計語言模型概率 p?;
- ?估計翻譯模型概率 p(E|C);
- ?快速有效地搜索候選譯文C,使p?×p(E|C)最大。
- 主要任務
- 收集大規(guī)模雙語句子對、目標語言句子
- ?參數(shù)訓練與模型優(yōu)化
研究現(xiàn)狀
- 基本現(xiàn)狀
- ? 部分問題得到了解決,可以為人們提供輔助性幫助,如:專業(yè)領域文檔翻譯,電子詞典,搜索引擎,文字錄入等;
- ? 基礎問題研究仍任重而道遠,如:語義表示和計算、高質量的自動翻譯等;
- ? 社會需求日益迫切:信息服務、通訊、網(wǎng)絡內容管理、情報處理、國家安全等;
- ? 許多技術離真正實用的目標還有相當?shù)木嚯x,尚未建立起有效、完善的理論體系
總結
- 上一篇: 论文学习20-End-to-end Se
- 下一篇: 工业和信息化部办公厅关于公布2021年产