人工智能 | 自然语言处理研究报告(概念篇)
博主github:https://github.com/MichaelBeechan
博主CSDN:https://blog.csdn.net/u011344545
============================================
概念篇:https://blog.csdn.net/u011344545/article/details/89525801
技術篇:https://blog.csdn.net/u011344545/article/details/89526149
人才篇:https://blog.csdn.net/u011344545/article/details/89556941
應用篇:https://blog.csdn.net/u011344545/article/details/89574915
下載鏈接:https://download.csdn.net/download/u011344545/11147085
============================================
清華AMiner團隊 AMiner.org
摘要:
自然語言處理是人工智能的一個重要應用領域,也是新一代計算機必須研究的課題。它的主要目的是克服人機對話中的各種限制,使用戶能用自己的語言與計算機對話。
1、自然語言處理概念
自然語言是指漢語、英語、法語等人們日常使用的語言,是自然而然的隨著人類社會發展演變而來的語言,而不是人造的語言,它是人類學習生活的重要工具。概括說來,自然語言是指人類社會約定俗成的,區別于如程序設計的語言的人工語言。在整個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的 80%以上。就計算機應用而言,據統計,用于數學計算的僅占 10%,用于過程控制的不到 5%,其余 85%左右都是用于語言文字的信息處理。
處理包含理解、轉化、生成等過程。自然語言處理,是指用計算機對自然語言的形、音、義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。實現人機間的信息交流,是人工智能界、計算機科學和語言學界所共同關注的重要問題。自然語言處理的具體表現形式包括機器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等。可以說,自然語言處理就是要計算機理解自然語言,自然語言處理機制涉及兩個流程,包括自然語言理解和自然語言生成。自然語言理解是指計算機能夠理解自然語言文本的意義,自然語言生成則是指能以自然語言文本來表達給定的意圖。
自然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分為五個層次,可以更好地體現語言本身的構成,五個層次分別是語音分析、詞法分析、句法分析、語義分析和語用分析。
在人工智能領域或者是語音信息處理領域中,學者們普遍認為采用圖靈試驗可以判斷計算機是否理解了某種自然語言,具體的判別標準有以下幾條:
第一, 問答,機器人能正確回答輸入文本中的有關問題;
第二, 文摘生成,機器有能力生成輸入文本的摘要;
第三, 釋義,機器能用不同的詞語和句型來復述其輸入的文本;
第四, 翻譯,機器具有把一種語言翻譯成另一種語言的能力。
2、自然語言處理發展歷程
自然語言處理是包括了計算機科學、語言學心理認知學等一系列學科的一門交叉學科,這些學科性質不同但又彼此相互交叉。因此,梳理自然語言處理的發展歷程對于我們更好地了解自然語言處理這一學科有著重要的意義。
1950 年圖靈提出了著名的“圖靈測試”,這一般被認為是自然語言處理思想的開端,20 世紀 50 年代到 70 年代自然語言處理主要采用基于規則的方法,研究人員們認為自然語言處理的過程和人類學習認知一門語言的過程是類似的,所以大量的研究員基于這個觀點來進行研究,這時的自然語言處理停留在理性主義思潮階段,以基于規則的方法為代表。但是基于規則的方法具有不可避免的缺點,首先規則不可能覆蓋所有語句,其次這種方法對開發
者的要求極高,開發者不僅要精通計算機還要精通語言學,因此,這一階段雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。
70 年代以后隨著互聯網的高速發展,豐富的語料庫成為現實以及硬件不斷更新完善,自然語言處理思潮由理性主義向經驗主義過渡,基于統計的方法逐漸代替了基于規則的方法。賈里尼克和他領導的 IBM 華生實驗室是推動這一轉變的關鍵,他們采用基于統計的方法,將當時的語音識別率從 70%提升到 90%。在這一階段,自然語言處理基于數學模型和統計的方法取得了實質性的突破,從實驗室走向實際應用。
從 2008 年到現在,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究,由最初的詞向量到 2013 年的 word2vec,將深度學習與自然語言處理的結合推向了高潮,并在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。深度學習是一個多層的神經網絡,從輸入層開始經過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓練。把輸入到輸出對的數據準備好,設計并訓練一個神經網絡,即可執行預想的任務。RNN 已經是自然語言護理最常用的方法之一,GRU、LSTM 等模型相繼引發了一輪又一輪的熱潮。
3、我國自然語言處理現狀
20 世紀 90 年代以來,中國自然語言處理研究進入了高速發展期,一系列系統開始了大規模的商品化進程,自然語言處理在研究內容和應用領域上不斷創新。
目前自然語言處理的研究可以分為基礎性研究和應用性研究兩部分,語音和文本是兩類研究的重點。基礎性研究主要涉及語言學、數學、計算機學科等領域,相對應的技術有消除歧義、語法形式化等。應用性研究則主要集中在一些應用自然語言處理的領域,例如信息檢索、文本分類、機器翻譯等。由于我國基礎理論即機器翻譯的研究起步較早,且基礎理論研究是任何應用的理論基礎,所以語法、句法、語義分析等基礎性研究歷來是研究的重點,而且隨著互聯網網絡技術的發展,智能檢索類研究近年來也逐漸升溫。
從研究周期來看,除語言資源庫建設以外,自然語言處理技術的開發周期普遍較短,基本為 1-3 年,由于涉及到自然語言文本的采集、存儲、檢索、統計等,語言資源庫的建設較為困難,搭建周期較長,一般在 10 年左右,例如北京大學計算語言所完成的《現代漢語語法信息詞典》以及《人民日報》的標注語料庫,都經歷了 10 年左右的時間才研制成功。
自然語言處理的快速發展離不開國家的支持,這些支持包括各種扶持政策和資金資助。國家的資金資助包括國家自然科學基金、社會科學基金、863 項目、973 項目等,其中國家自然科學基金是國家投入資金最多、資助項目最多的一項。國家自然科學基金在基礎理論研究方面的投入較大,對中文的詞匯、句子、篇章分析方面的研究都給予了資助,同時在技術方面也給予了大力支持,例如機器翻譯、信息檢索、自動文摘等。除了國家的資金資助外,一些企業也進行了資助,但是企業資助項目一般集中在應用領域,針對性強,往往這些項目開發周期較短,更容易推向市場,實現由理論成果向產品的轉化。
4、自然語言處理業界發展
微軟亞洲研究院
Google
Facebook
百度
阿里巴巴
騰訊
京東
科大訊飛
總結
以上是生活随笔為你收集整理的人工智能 | 自然语言处理研究报告(概念篇)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机视觉 | 计算机界国际学术会议和期
- 下一篇: 人工智能 | 自然语言处理研究报告(技术