人工智能 | 自然语言处理研究报告(技术篇)
博主github:https://github.com/MichaelBeechan
博主CSDN:https://blog.csdn.net/u011344545
============================================
概念篇:https://blog.csdn.net/u011344545/article/details/89525801
技術篇:https://blog.csdn.net/u011344545/article/details/89526149
人才篇:https://blog.csdn.net/u011344545/article/details/89556941
應用篇:https://blog.csdn.net/u011344545/article/details/89574915
下載鏈接:https://download.csdn.net/download/u011344545/11147085
============================================
清華AMiner團隊 AMiner.org
自然語言處理的研究領域極為廣泛,各種分類方式層出不窮,各有其合理性,我們按照中國中文信息學會 2016 年發(fā)布的《中文信息處理發(fā)展報告》,將自然語言處理的研究領域和技術進行以下分類,并選取其中部分進行介紹。
1、自然語言處理基礎技術
詞法、句法及語義分析
詞法分析的主要任務是詞性標注和詞義標注。詞性是詞匯的基本屬性,詞性標注就是在給定句子中判斷每個詞的語法范疇,確定其詞性并進行標注。解決兼類詞和確定未登錄詞的詞性問題是標注的重點。進行詞性標注通常有基于規(guī)則和基于統(tǒng)計的兩種方法。一個多義詞往往可以表達多個意義,但其意義在具體的語境中又是確定的,詞義標注的重點就是解決如何確定多義詞在具體語境中的義項問題。標注過程中,通常是先確定語境,再明確詞義,方法和詞性標注類似,有基于規(guī)則和基于統(tǒng)計的做法。
判斷句子的句法結構和組成句子的各成分,明確它們之間的相互關系是句法分析的主要任務。句法分析通常有完全句法分析和淺層句法分析兩種,完全句法分析是通過一系列的句法分析過程最終得到一個句子的完整的句法樹。句法分析方法也分為基于規(guī)則和基于統(tǒng)計的方法,基于統(tǒng)計的方法是目前的主流方法,概率上下文無關文法用的較多。完全句法分析存在兩個難點,一是詞性歧義;二是搜索空間太大,通常是句子中詞的個數(shù) n 的指數(shù)級。淺層句法分析又叫部分句法分析或語塊分析,它只要求識別出句子中某些結構相對簡單的成分如動詞短語、非遞歸的名詞短語等,這些結構被稱為語塊。一般來說,淺層語法分析會完成語塊的識別和分析、語塊之間依存關系的分析兩個任務,其中語塊的識別和分析是淺層語法分析的主要任務。
語義分析是指根據(jù)句子的句法結構和句子中每個實詞的詞義推導出來能夠反映這個句子意義的某種形式化表示,將人類能夠理解的自然語言轉化為計算機能夠理解的形式語言。句子的分析與處理過程,有的采用“先句法后語義”的方法,但“句法語義一體化”的策略還是占據(jù)主流位置。語義分析技術目前還不是十分成熟,運用統(tǒng)計方法獲取語義信息的研究頗受關注,常見的有詞義消歧和淺層語義分析。
自然語言處理的基礎研究還包括語用語境和篇章分析。語用是指人對語言的具體運用,研究和分析語言使用者的真正用意,它與語境、語言使用者的知識涵養(yǎng)、言語行為、想法和意圖是分不開的,是對自然語言的深層理解。情景語境和文化語境是語境分析主要涉及的方面,篇章分析則是將研究擴展到句子的界限之外,對段落和整篇文章進行理解和分析。
除此之外,自然語言的基礎研究還涉及詞義消歧、指代消解、命名實體識別等方面的研究。
知識圖譜
2012 年 5 月,Google 推出 Google 知識圖譜,并將其應用在搜索引擎中增強搜索能力,改善用戶搜索質量和搜索體驗,這是“知識圖譜”名稱的由來,也標志著大規(guī)模知識圖譜在互聯(lián)網(wǎng)語義搜索中的成功應用。搜索關鍵詞,google 會在右側給出與關鍵詞相關的搜索結果。
知識圖譜,是為了表示知識,描述客觀世界的概念、實體、事件等之間關系的一種表示形式。這一概念的起源可以追溯至語義網(wǎng)絡——提出于 20 世紀五六十年代的一種知識表示形式。語義網(wǎng)絡由許多個“節(jié)點”和“邊”組成,這些“節(jié)點”和“邊”相互連接,“節(jié)點”表示的是概念或對象,“邊”表示各個節(jié)點之間的關系,如下圖。
知識圖譜在表現(xiàn)形式上與語義網(wǎng)絡比較類似,不同的是,語義網(wǎng)絡側重于表示概念與概念之間的關系,而知識圖譜更側重于表述實體之間的關系。現(xiàn)在的知識網(wǎng)絡被用來泛指大規(guī)模的知識庫,知識圖譜中包含的節(jié)點有以下幾種:
實體:指獨立存在且具有某種區(qū)別性的事物。如一個人、一種動物、一個國家、一種植物等。具體的事物就是實體所代表的內容,實體是知識圖譜中的最基本元素,不同的實體間
有不同的關系。
語義類:具有同種特性的實體構成的集合,如人類、動物、國家、植物等。概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等。內容:通常是實體和語義類的名字、描述、解釋等,變現(xiàn)形式一般有文本、圖像、音視頻等。
屬性(值):主要指對象指定屬性的值,不同的屬性類型對應于不同類型屬性的邊。關系:在知識圖譜上,表現(xiàn)形式是一個將節(jié)點(實體、語義類、屬性值)映射到布爾值的函數(shù)。
除語義網(wǎng)絡之外,70 年代的專家系統(tǒng)以及 Tim Berners Lee 提出的語義網(wǎng)和關聯(lián)數(shù)據(jù)都可以說是知識圖譜的前身。
知識圖譜表示、構建和應用涉及很多學科,是一項綜合的復雜技術。知識圖譜技術既涉及自然語言處理中的各項技術,從淺層的文本向量表示、到句法和語義結構表示被適用于資源內容的表示中,分詞和詞性標注、命名實體識別、句法語義結構分析、指代分析等技術被應用于自然語言處理中。同時,知識圖譜的研究也促進了自然語言處理技術的研究,基于知識圖譜的詞義排岐和語義依存關系分析等知識驅動的自然語言處理技術得以建立。
2、自然語言處理應用技術
機器翻譯
機器翻譯(Machine Translation)是指運用機器,通過特定的計算機程序將一種書寫形式或聲音形式的自然語言,翻譯成另一種書寫形式或聲音形式的自然語言。機器翻譯是一門交叉學科(邊緣學科),組成它的三門子學科分別是計算機語言學、人工智能和數(shù)理邏輯,各自建立在語言學、計算機科學和數(shù)學的基礎之上。
機器翻譯的方法總體上可以分為基于理性的研究方法和基于經(jīng)驗的研究方法兩種。
所謂“理性主義”的翻譯方法,是指由人類專家通過編撰規(guī)則的方式,將不同自然語言之間的轉換規(guī)律生成算法,計算機通過這種規(guī)則進行翻譯。這種方法理論上能夠把握語言間深層次的轉換規(guī)律,然而理性主義方法對專家的要求極高,不僅要求其了解源語言和目標語言,還要具備一定的語言學知識和翻譯知識,更要熟練掌握計算機的相關操作技能。這些因素都使得研制系統(tǒng)的成本高、周期長,面向小語種的翻譯更是人才匱乏非常困難。因此,翻譯知識和語言學知識的獲取成為基于理性的機器翻譯方法所面臨的主要問題。
所謂“經(jīng)驗主義”的翻譯方法,指的是以數(shù)據(jù)驅動為基礎,主張計算機自動從大規(guī)模數(shù)據(jù)中學習自然語言之間的轉換規(guī)律。由于互聯(lián)網(wǎng)文本數(shù)據(jù)不斷增長,計算機運算能力也不斷加強,以數(shù)據(jù)驅動為基礎的統(tǒng)計翻譯方法逐漸成為機器翻譯的主流技術。但是同時統(tǒng)計機器翻譯也面臨諸如數(shù)據(jù)稀疏、難以設計特征等問題,而深度學習能夠較好的緩解統(tǒng)計機器翻譯所面臨的挑戰(zhàn),基于深度學習的機器翻譯現(xiàn)在正獲得迅速發(fā)展,成為當前機器翻譯領域的熱點。
機器翻譯技術較早的被廣泛應用在計算機輔助翻譯軟件上,更好地輔助專業(yè)翻譯人員提升翻譯效率,近幾年機器翻譯研究發(fā)展更為迅速,尤其是隨著大數(shù)據(jù)和云計算技術的快速發(fā)展,機器翻譯已經(jīng)走進人們的日常生活,在很多特定領域為滿足各種社會需求發(fā)揮了重要作用。按照媒介可以將機器翻譯分為文本翻譯、語音翻譯、圖像翻譯以及視頻和 VR 翻譯等。
目前,文本翻譯最為主流的工作方式依然是以傳統(tǒng)的統(tǒng)計機器翻譯和神經(jīng)網(wǎng)絡翻譯為主。Google、Microsoft 與國內的百度、有道等公司都為用戶提供了免費的在線多語言翻譯系統(tǒng)。將源語言文字輸入其軟件中,便可迅速翻譯出目標語言文字。Google 主要關注以英語為中心的多語言翻譯,百度則關注以英語和漢語為中心的多語言翻譯。另外,即時通訊工具如Googletalk、Facebook 等也都提供了即時翻譯服務。速度快、成本低是文本翻譯的主要特點,而且應用廣泛,不同行業(yè)都可以采用相應的專業(yè)翻譯。但是,這一翻譯過程是機械的和僵硬的,在翻譯過程中會出現(xiàn)很多語義語境上的問題,仍然需要人工翻譯來進行補充。
語音翻譯可能是目前機器翻譯中比較富有創(chuàng)新意思的領域,吸引了眾多資金和公眾的注意力。亞馬遜的 Alexa、蘋果的 Siri、微軟的 Cortana 等,我們越來越多的通過語音與計算機進行交互。應用比較好的如語音同傳技術。同聲傳譯廣泛應用于國際會議等多語言交流的場景,但是人工同傳受限于記憶、聽說速度、費用偏高等因素門檻較高,搜狗推出的機器同傳技術主要在會議場景出現(xiàn),演講者的語音實時轉換成文本,并且進行同步翻譯,低延遲顯示翻譯結果,希望能夠取代人工同傳,實現(xiàn)不同語言人們低成本的有效交流。科大訊飛、百度等公司在語音翻譯方面也有很多探索。如科大訊飛推出的“訊飛語音翻譯”系列產(chǎn)品,以及與新疆大學聯(lián)合研發(fā)的世界上首款維漢機器翻譯軟件,可以準確識別維吾爾語和漢語,實現(xiàn)雙語即時互譯等功能。
圖像翻譯也有不小的進展。谷歌、微軟、Facebook 和百度均擁有能夠讓用戶搜索或者自動整理沒有識別標簽照片的技術。圖像翻譯技術的進步遠不局限于社交類應用。醫(yī)療創(chuàng)業(yè)公司可以利用計算機閱覽 X 光照片、MRI(核磁共振成像)和 CT(電腦斷層掃描)照片,閱覽的速度和準確度都將超過放射科醫(yī)師。而且更圖像翻譯技術對于機器人、無人機以及無人駕駛汽車的改進至關重要,福特、特斯拉、Uber、百度和谷歌均已在上路測試無人駕駛汽車的原型。
除此之外還有視頻翻譯和 VR 翻譯也在逐漸應用中,但是目前的應用還不太成熟。機器翻譯這一話題 AMnier 研究報告系列第五期《人工智能之機器翻譯研究報告》中有詳細闡述,具體內容可查看:https://static.aminer.cn/misc/article/translation.pdf。
信息檢索
信息檢索是從相關文檔集合中查找用戶所需信息的過程。先將信息按一定的方式組織和存儲起來,然后根據(jù)用戶的需求從已經(jīng)存儲的文檔集合當中找出相關的信息,這是廣義的信息檢索。信息檢索最早提出于 20 世紀 50 年代,90 年代互聯(lián)網(wǎng)出現(xiàn)以后,其導航工具——搜索引擎可以看成是一種特殊的信息檢索系統(tǒng),二者的區(qū)別主要在于語料庫集合和用戶群體的不同,搜索引擎面臨的語料庫是規(guī)模浩大、內容繁雜、動態(tài)變化的互聯(lián)網(wǎng),用戶群體不再是具有一定知識水平的科技工作者,而是興趣愛好、知識背景、年齡結構差異很大的網(wǎng)民群體。
信息檢索包括“存”與“取”兩個方面,對信息進行收集、標引、描述、組織,進行有序的存放是“存”。按照某種查詢機制從有序存放的信息集合(數(shù)據(jù)庫)中找出用戶所需信息或獲取其線索的過程是“取”。信息檢索的基本原理是將用戶輸入的檢索關鍵詞與數(shù)據(jù)庫中的標引詞進行對比,當二者匹配成功時,檢索成功。檢索標識是為溝通文獻標引和檢索關鍵詞而編制的人工語言,通過檢索標識可以實現(xiàn)“存”“取”的聯(lián)系一致。檢索結果按照與提問詞的關聯(lián)度輸出,供用戶選擇,用戶則采用“關鍵詞查詢+選擇性瀏覽”的交互方式獲
取信息。
以谷歌為代表的“關鍵詞查詢+選擇性瀏覽”交互方式,用戶用簡單的關鍵詞作為查詢提交給搜索引擎,搜索引擎并非直接把檢索目標頁面反饋給用戶,而是提供給用戶一個可能的檢索目標頁面列表,用戶瀏覽該列表并從中選擇出能夠滿足其信息需求的頁面加以瀏覽。這種交互方式對于用戶來說查詢輸入是簡單的事,但機器卻難以通過簡單的關鍵詞準確的理解用戶的真正查詢意圖,因此只能將有可能滿足用戶需求的結果集合以列表的形式提供給用戶。
目前互聯(lián)網(wǎng)是人們獲取信息的主要來源,網(wǎng)絡上存放著取之不盡、用之不竭的信息,網(wǎng)絡信息有著海量、分布、無序、動態(tài)、多樣、異構、冗余、質雜、需求各異等特點。人們不再滿足于當前的搜索引擎帶來的查詢結果,下一代搜索引擎的發(fā)展方向是個性化(精確化)、智能化、商務化、移動化、社區(qū)化、垂直化、多媒體化、實時化等。
情感分析
情感分析又稱意見挖掘,是指通過計算技術對文本的主客觀性、觀點、情緒、極性的挖掘和分析,對文本的情感傾向做出分類判斷。情感分析是自然語言理解領域的重要分支,涉及統(tǒng)計學、語言學、心理學、人工智能等領域的理論與方法。情感分析在一些評論機制的 App中應用較為廣泛,比如某酒店網(wǎng)站,會有居住過的客人的評價,通過情感分析可以分析用戶評論是積極還是消極的,根據(jù)一定的排序規(guī)則和顯示比例,在評論區(qū)顯示。這個場景同時也適用于亞馬遜、阿里巴巴等電商網(wǎng)站的商品評價。
除此之外,在互聯(lián)網(wǎng)輿情分析中情感分析起著舉足輕重的作用,話語權的下降和網(wǎng)民的大量涌入,使得互聯(lián)網(wǎng)的聲音紛繁復雜,利用情感分析技術獲取民眾對于某一事件的觀點和意見,準確把握輿論發(fā)展趨勢,并加以合理引導顯得極為重要。
同時,在一些選舉預測、股票預測等領域情感分析也體現(xiàn)著越來越重要的作用。
自動問答
自動問答是指利用計算機自動回答用戶所提出的問題以滿足用戶知識需求的任務。問答系統(tǒng)是信息服務的一種高級形式,系統(tǒng)反饋給用戶的不再是基于關鍵詞匹配排序的文檔列表,而是精準的自然語言答案,這和搜索引擎提供給用戶模糊的反饋是不同的。在自然語言理解領域,自動問答和機器翻譯、復述和文本摘要一起被認為是驗證機器是否具備自然理解能力的四個任務。
自動問答系統(tǒng)在回答用戶問題時,首先要正確理解用戶所提出的問題,抽取其中關鍵的信息,在已有的語料庫或者知識庫中進行檢索、匹配,將獲取的答案反饋給用戶。這一過程涉及了包括詞法句法語義分析的基礎技術,以及信息檢索、知識工程、文本生成等多項技術。傳統(tǒng)的自動問答基本集中在某些限定專業(yè)領域,但是伴隨著互聯(lián)網(wǎng)的發(fā)展和大規(guī)模知識庫語料庫的建立,面向開放領域和開放性類型問題的自動問答越來越受到關注。
根據(jù)目標數(shù)據(jù)源的不同,問答技術大致可以分為檢索式問答、社區(qū)問答以及知識庫問答三種。檢索式問答和搜索引擎的發(fā)展緊密聯(lián)系,通過檢索和匹配回答問題,推理能力較弱。社區(qū)問答是 web2.0 的產(chǎn)物,用戶生成內容是其基礎,Yahoo!、Answer、百度知道等是典型代表,這些社區(qū)問答數(shù)據(jù)覆蓋了大量的用戶知識和用戶需求。檢索式問答和社區(qū)問答的核心是淺層語義分析和關鍵詞匹配,而知識庫問答則正在逐步實現(xiàn)知識的深層邏輯推理。
縱觀自動問答發(fā)展歷程,基于深度學習的端到端的自動問答將是未來的重點關注,同時,多領域、多語言的自動問答,面向問答的深度推理,篇章閱讀理解以及對話也會在未來得到更廣闊的發(fā)展。
自動文摘
自動文摘是運用計算機技術,依據(jù)用戶需求從源文本中提取最重要的信息內容,進行精簡、提煉和總結,最后生成一個精簡版本的過程。生成的文摘具有壓縮性、內容完整性和可讀性。
從 1955 年 IBM 公司 Luhn 首次進行自動文摘的實驗至今的幾十年中,自動文摘經(jīng)歷了基于統(tǒng)計的機械式文摘和基于意義的理解式文摘兩種。機械式方法簡單容易實現(xiàn),是目前主要被采用的方法,但是結果不盡如人意。理解式文摘是建立在對自然語言的理解的基礎之上的,接近于人提取摘要的方法,難度較大。但是隨著自然語言處理技術的發(fā)展,理解式文摘有著長遠的前景,應用于自動文摘的方法也會越來越多。
作為解決當前信息過載的一項輔助手段,自動文摘技術的應用已經(jīng)不僅僅限于自動文摘系統(tǒng)軟件,在信息檢索、信息管理等各領域都得到了廣泛應用。同時隨著深度學習等技術的發(fā)展,自動文摘也出現(xiàn)了許多新的研究和領域,例如多文本摘要、多語言摘要、多媒體摘要等。
社會計算
社會計算也稱計算社會學,是指在互聯(lián)網(wǎng)的環(huán)境下,以現(xiàn)代信息技術為手段,以社會科學理論為指導,幫助人們分析社會關系,挖掘社會知識,協(xié)助社會溝通,研究社會規(guī)律,破解社會難題的學科。社會計算是社會行為與計算系統(tǒng)交互融合,是計算機科學、社會科學、管理科學等多學科交叉所形成的研究領域。它用社會的方法計算社會,既是基于社會的計算,也是面向社會的計算。
社會媒體是社會計算的主要工具和手段,它是一種在線交互媒體,有著廣泛的用戶參與性,允許用戶在線交流、協(xié)作、發(fā)布、分享、傳遞信息、組成虛擬的網(wǎng)絡社區(qū)等等。近年來,社會媒體呈現(xiàn)多樣化的發(fā)展趨勢,從早期的論壇、博客、維基到風頭正勁的社交網(wǎng)站、微博和微信等,正在成為網(wǎng)絡技術發(fā)展的熱點和趨勢。社會媒體文本屬性特點是其具有草根性,字數(shù)少、噪聲大、書寫隨意、實時性強;社會屬性特點是其具有社交性,在線、交互。它賦予了每個用戶創(chuàng)造并傳播內容的能力,實施個性化發(fā)布,社會化傳播,將用戶群體組織成社會化網(wǎng)絡,目前典型的社會媒體是 Twitter 和 Facebook,在我國則是微博和微信。社會媒體是一種允許用戶廣泛參與的新型在線媒體,通過社會媒體用戶之間可以在線交流,形成虛擬的網(wǎng)絡社區(qū),構成了社會網(wǎng)絡。社會網(wǎng)絡是一種關系網(wǎng)絡,通過個人與群體及其相互之間的關系和交互,發(fā)現(xiàn)它們的組織特點、行為方式等特征,進而研究人群的社會結構,以利于他們之間的進一步共享、交流與協(xié)作。
社會計算應用廣泛,近年來圍繞社會安全、經(jīng)濟、工程和軍事領域得到了長足發(fā)展。金融市場采用社會計算方法探索金融風險和危機的動態(tài)規(guī)律,例如美國圣塔菲研究所建立了首個人工股票市場的社會計算模型。許多發(fā)達國家都在政府資助下開展了研究項目,例如美國的 ASPEN,歐盟的 EURACE 等,并且在國家相應的經(jīng)濟政策制定中發(fā)揮著越來越重要的作用。通過社交媒體來把握輿情、引導輿論也是社會計算在社會安全方面發(fā)揮的一個重要作用。軍事方面,許多國家更是加大投入力度扶持軍事信息化的發(fā)展。
信息抽取
信息抽取技術可以追溯到 20 世紀 60 年代,以美國紐約大學開展的 Linguish String 項目和耶魯大學 Roger Schank 及其同時開展的有關故事理解的研究為代表。信息抽取主要是指從文本中抽取出特定的事實信息,例如從經(jīng)濟新聞中抽取新發(fā)布產(chǎn)品情況,如公司新產(chǎn)品名、發(fā)布時間、發(fā)布地點、產(chǎn)品情況等,這些被抽取出來的信息通常以結構化的形式直接存入數(shù)據(jù)庫,可以供用戶查詢及進一步分析使用,為之后構建知識庫、智能問答等提供數(shù)據(jù)支撐。
信息抽取和上文提到的信息檢索關系密切,但是二者之間仍存在著很大的不同。首先是二者要實現(xiàn)的功能不同,信息檢索是要從大量的文檔中找到用戶所需要的文檔,信息抽取則是用在文本中獲取用戶感興趣或所需要的事實信息。其次是二者背后的處理技術也不同,信息檢索依靠的主要是以關鍵字詞匹配以及統(tǒng)計等技術,不需要對文本進行理解和分析,而信息則需要利用自然語言處理的技術,包括命名實體識別、句法分析、篇章分析與推理以及知識庫等,對文本進行深入理解和分析后才能完成信息抽取工作。除了以上的不同之外,信息檢索和信息抽取又可以相互補充,信息檢索的結果可以作為信息抽取的范圍,提高效率,信息抽取用于信息檢索可以提高檢索質量,更好地滿足用戶的需求。
信息抽取技術對于構建大規(guī)模的知識庫有著重要的意義,但是目前由于自然語言本身的復雜性、歧義性等特征,而且信息抽取目標知識規(guī)模巨大、復雜多樣等問題,使得信息抽取技術還不是很完善。但我們相信,在信息抽取技術經(jīng)歷了基于規(guī)則的方法、基于統(tǒng)計的方法、以及基于文本挖掘的方法等一系列技術演變之后,隨著 web、知識圖譜、深度學習的發(fā)展,可以為信息抽取提供海量數(shù)據(jù)源、大規(guī)模知識資源,更好地機器學習技術,信息抽取技術的問題會得到進一步解決并有長足的發(fā)展。
總結
以上是生活随笔為你收集整理的人工智能 | 自然语言处理研究报告(技术篇)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能 | 自然语言处理研究报告(概念
- 下一篇: 人工智能 | 自然语言处理(NLP)(国