一个问题就可以辨别真假NLP(自然语言处理)研究者
╮(╯▽╰)╭哎,自從人工智能火了以后,最近自稱(chēng)NLP研究者的人越來(lái)越多了,然而這其中的大忽悠有多少小夕就不想多說(shuō)了。如果連自己在哪個(gè)領(lǐng)域、哪個(gè)學(xué)科搞研究都不懂的話,你相信他真的是這個(gè)領(lǐng)域的研究者喵?反正小夕不信╮(╯▽╰)╭
所以,這個(gè)問(wèn)題就是:“自然語(yǔ)言處理跟自然語(yǔ)言理解和計(jì)算語(yǔ)言學(xué)是不是一個(gè)東西呢?”
在有的科普文,甚至?xí)?#xff0c;將自然語(yǔ)言處理、自然語(yǔ)言理解、計(jì)算語(yǔ)言學(xué)看作是一個(gè)東西,其實(shí)是很不準(zhǔn)確的吶!小夕今天就講一講被大眾媒體和諸多自稱(chēng)NLP領(lǐng)域的學(xué)者混為一談的幾個(gè)概念。
自然語(yǔ)言理解(NLU)
在60年前人工智能誕生之初,就提出了自然語(yǔ)言理解,并且將其作為人工智能最重要的研究方向。自然語(yǔ)言理解是為了探索人類(lèi)語(yǔ)言能力和語(yǔ)言思維活動(dòng)的本質(zhì),并模仿人類(lèi)語(yǔ)言的認(rèn)知過(guò)程來(lái)讓計(jì)算機(jī)對(duì)人類(lèi)語(yǔ)言進(jìn)行理解和處理。其是語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、信息論和數(shù)學(xué)等多學(xué)科基礎(chǔ)上形成的交叉學(xué)科。而其目標(biāo)是讓計(jì)算機(jī)真正的理解人類(lèi)語(yǔ)言,進(jìn)而進(jìn)行處理與表達(dá)等。而判斷計(jì)算機(jī)是否理解自然語(yǔ)言的標(biāo)準(zhǔn)就是“圖靈測(cè)試”。
圖靈測(cè)試在自然語(yǔ)言理解領(lǐng)域來(lái)說(shuō)即:讓一個(gè)人類(lèi)提出問(wèn)題,回答他的可能是人也可能是計(jì)算機(jī)。在計(jì)算機(jī)給出回答后,如果提問(wèn)者分不清楚這是人還是計(jì)算機(jī)的回答,則認(rèn)為計(jì)算機(jī)理解了人類(lèi)語(yǔ)言,廣義的說(shuō)計(jì)算機(jī)具備了智能。
計(jì)算語(yǔ)言學(xué)(CL)
而計(jì)算語(yǔ)言學(xué)的側(cè)重點(diǎn)是數(shù)學(xué)建模。將人類(lèi)語(yǔ)言建模為計(jì)算機(jī)可以有效計(jì)算的算法。也就是說(shuō),出發(fā)點(diǎn)是語(yǔ)言學(xué),而做的是將語(yǔ)言學(xué)中的嚴(yán)謹(jǐn)理論借鑒并轉(zhuǎn)為計(jì)算機(jī)算法,是一門(mén)非常理性的學(xué)科,即一門(mén)純理論的學(xué)科。同時(shí),這也是基于規(guī)則的自然語(yǔ)言處理方法的理論核心。
自然語(yǔ)言處理(NLP)
自然語(yǔ)言處理則是面向具體的應(yīng)用場(chǎng)景,從系統(tǒng)實(shí)現(xiàn)與工程的角度出發(fā)來(lái)對(duì)語(yǔ)言文本進(jìn)行加工與處理。它不一定用數(shù)學(xué)方法,但是總歸是要用某種方法來(lái)解決某個(gè)特定的工程問(wèn)題。其實(shí)該學(xué)科誕生的需求便是互聯(lián)網(wǎng)上文本信息的爆炸式增長(zhǎng),因此只要能將互聯(lián)網(wǎng)上的文本信息處理成我們想要達(dá)到的效果就可以啦,不一定非要讓計(jì)算機(jī)去理解自然語(yǔ)言呀,也不一定非要有嚴(yán)謹(jǐn)?shù)恼Z(yǔ)言學(xué)規(guī)則或者數(shù)學(xué)公式呀。
三者之間
這樣看來(lái)應(yīng)該有三門(mén)獨(dú)立的學(xué)科才對(duì),然而實(shí)際上我們發(fā)現(xiàn)國(guó)際上、國(guó)內(nèi)的各大頂尖高校幾乎只有“自然語(yǔ)言處理”這一個(gè)學(xué)科,偶爾會(huì)有個(gè)研究“計(jì)算語(yǔ)言學(xué)”的高校,而幾乎沒(méi)有研究“自然語(yǔ)言理解”的高校,為什么呢?
?
其實(shí)很好理解啦,雖然自然語(yǔ)言理解誕生的最早,但是遺憾的說(shuō),這門(mén)學(xué)科的有效進(jìn)展幾乎為0,也就是說(shuō)現(xiàn)在遠(yuǎn)遠(yuǎn)談不上讓計(jì)算機(jī)去理解自然語(yǔ)言,依然停留在對(duì)自然語(yǔ)言進(jìn)行處理的層次上。而隨著基于規(guī)則的自然語(yǔ)言處理方法的衰落,計(jì)算語(yǔ)言學(xué)的研究熱潮也大幅度冷卻了。
?
插播一句,總有比較機(jī)智的做法,比如美國(guó)的CMU(不知道CMU的同學(xué)千萬(wàn)不要說(shuō)自己是學(xué)計(jì)算機(jī)的!)就沒(méi)有自然語(yǔ)言處理,人家起了個(gè)新名字叫“人類(lèi)語(yǔ)言技術(shù)”,hhhhh,是不是感覺(jué)超機(jī)智呀~這樣將來(lái)有一天計(jì)算機(jī)真的可以理解人類(lèi)語(yǔ)言的時(shí)候,其他高校要將專(zhuān)業(yè)改名字啦,而CMU就不用改了╮(╯▽╰)╭
?
所以呀,從互相包含的關(guān)系上來(lái)說(shuō),自然語(yǔ)言處理(NLP)、自然語(yǔ)言理解(NLU)、計(jì)算語(yǔ)言學(xué)(CL)、人類(lèi)語(yǔ)言技術(shù)(HLT)之間的關(guān)系是這樣的:
2333,是不是感覺(jué)CMU特別心機(jī)婊╮(╯▽╰)╭
?
而從研究深度,或者說(shuō)研究難度上說(shuō)呢,NLU、CL、NLP這三個(gè)具備大量交集的領(lǐng)域是這樣的:
所以呀,現(xiàn)在NLP領(lǐng)域正在蓬勃發(fā)展,帶來(lái)了機(jī)器翻譯(不解釋)、搜索引擎(不解釋)、人機(jī)對(duì)話(微軟小冰、Siri等)、輿情檢索(比如微博熱搜)、文本情感分析(自動(dòng)識(shí)別好評(píng)差評(píng),參見(jiàn)天貓的評(píng)價(jià)標(biāo)簽)、信息抽取(如自動(dòng)生成一篇文章的標(biāo)題、文摘等,參見(jiàn)今日頭條)、信息過(guò)濾(比如過(guò)濾小黃文或者反動(dòng)言論,參加被請(qǐng)去喝茶的童鞋們)、文檔分類(lèi)(比如你寫(xiě)一篇足球賽事,計(jì)算機(jī)可以自動(dòng)歸類(lèi)到體育主題,參加各大型新聞網(wǎng)站)、文本自動(dòng)校正(參見(jiàn)word、搜狗拼音等,不解釋啦)、語(yǔ)音識(shí)別、說(shuō)話人識(shí)別、語(yǔ)音轉(zhuǎn)文本、文本轉(zhuǎn)語(yǔ)音等一系列技術(shù)~
?
所以呀,NLU的大量研究沒(méi)有做到人工智能,但NLP卻飛速發(fā)展中,通過(guò)各種方法實(shí)現(xiàn)計(jì)算機(jī)對(duì)自然語(yǔ)言的處理(甚至有時(shí)在老百姓看來(lái),計(jì)算機(jī)好像真的理解了文本一樣)。
?
那么深度學(xué)習(xí)會(huì)不會(huì)真正揭開(kāi)NLU的篇章呢?小夕說(shuō)啦,不可能哦。想象一下,一個(gè)小孩子學(xué)會(huì)一句話、并成功的將這句話轉(zhuǎn)換成各種表達(dá)方式表達(dá)出來(lái),只需要一兩次的重復(fù)即可完成。而如今先進(jìn)的深度學(xué)習(xí)模型則是消耗海量樣本(意思即對(duì)一句話要重復(fù)上千上萬(wàn)次,甚至更多)才能完成勉強(qiáng)可以接受的“智能”水平,但是!一旦測(cè)試集稍加改變(比如改變一下問(wèn)法、換一種表達(dá)方式),那么好不容易訓(xùn)練好的機(jī)器學(xué)習(xí)模型將近乎崩潰!所以也不難理解,哪怕是如今最先進(jìn)的機(jī)器翻譯系統(tǒng),Google翻譯,有時(shí)候在一句話的后面加一個(gè)毫無(wú)意義的“了”字,卻會(huì)產(chǎn)生完全不同的兩種翻譯結(jié)果。究其根本原因就是計(jì)算機(jī)絲毫沒(méi)有理解文本。雖然對(duì)大眾來(lái)說(shuō)這很難讓人接受,但這是事實(shí)。
?
那么計(jì)算機(jī)何時(shí)可以真正去理解文本呢?期待新的機(jī)器學(xué)習(xí)模型吧!
總結(jié)
以上是生活随笔為你收集整理的一个问题就可以辨别真假NLP(自然语言处理)研究者的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 闲鱼账号被封怎么办?解封看这里!
- 下一篇: 美团广告实时索引的设计与实现