数学之美 系列十五 繁与简 自然语言处理的几位精英
數(shù)學(xué)之美 系列十五 繁與簡(jiǎn) 自然語言處理的幾位精英
我在數(shù)學(xué)之美系列中一直強(qiáng)調(diào)的一個(gè)好方法就是簡(jiǎn)單。但是,事實(shí)上,自然語言處理中也有一些特例,比如有些學(xué)者將一個(gè)問題研究到極致,執(zhí)著追求完善甚至可以說完美的程度。他們的工作對(duì)同行有很大的參考價(jià)值,因此我們?cè)诳蒲兄泻苄枰@樣的學(xué)者。在自然語言處理方面新一代的頂級(jí)人物麥克爾·柯林斯 (Michael Collins) 就是這樣的人。
柯林斯:追求完美
柯林斯從師于自然語言處理大師馬庫斯 (Mitch Marcus)(我們以后還會(huì)多次提到馬庫斯),從賓夕法利亞大學(xué)獲得博士學(xué)位,現(xiàn)任麻省理工學(xué)院 (MIT) 副教授(別看他是副教授,他的水平在當(dāng)今自然語言處理領(lǐng)域是數(shù)一數(shù)二的),在作博士期間,柯林斯寫了一個(gè)后來以他名字命名的自然語言文法分析器 (sentence parser),可以將書面語的每一句話準(zhǔn)確地進(jìn)行文法分析。文法分析是很多自然語言應(yīng)用的基礎(chǔ)。雖然柯林斯的師兄布萊爾 (Eric Brill) 和 Ratnaparkhi 以及師弟 Eisnar 都完成了相當(dāng)不錯(cuò)的語言文法分析器,但是柯林斯卻將它做到了極致,使它在相當(dāng)長(zhǎng)一段時(shí)間內(nèi)成為世界上最好的文法分析器。柯林斯成功的關(guān)鍵在于將文法分析的每一個(gè)細(xì)節(jié)都研究得很仔細(xì)。柯林斯用的數(shù)學(xué)模型也很漂亮,整個(gè)工作可以用完美來形容。我曾因?yàn)檠芯康男枰?#xff0c;找柯林斯要過他文法分析器的源程序,他很爽快地給了我。我試圖將他的程序修改一下來滿足我特定應(yīng)用的要求,但后來發(fā)現(xiàn),他的程序細(xì)節(jié)太多以至于很難進(jìn)一步優(yōu)化。柯林斯的博士論文堪稱是自然語言處理領(lǐng)域的范文。它像一本優(yōu)秀的小說,把所有事情的來龍去脈介紹的清清楚楚,對(duì)于任何有一點(diǎn)計(jì)算機(jī)和自然語言處理知識(shí)的人,都可以輕而易舉地讀懂他復(fù)雜的方法。
柯林斯畢業(yè)后,在 AT&T 實(shí)驗(yàn)室度過了三年快樂的時(shí)光。在那里柯林斯完成了許多世界一流的研究工作諸如隱含馬爾科夫模型的區(qū)別性訓(xùn)練方法,卷積核在自然語言處理中的應(yīng)用等等。三年后,AT&T 停止了自然語言處理方面的研究,柯林斯幸運(yùn)地在 MIT 找到了教職。在 MIT 的短短幾年間,柯林斯多次在國(guó)際會(huì)議上獲得最佳論文獎(jiǎng)。相比其他同行,這種成就是獨(dú)一無二的。柯林斯的特點(diǎn)就是把事情做到極致。如果說有人喜歡“繁瑣哲學(xué)”,柯林斯就是一個(gè)。
布萊爾:簡(jiǎn)單才美
在研究方法上,站在柯林斯對(duì)立面的典型是他的師兄艾里克 · 布萊爾 (Eric Brill) 和雅讓斯基,后者我們已經(jīng)介紹過了,這里就不再重復(fù)。與柯林斯從工業(yè)界到學(xué)術(shù)界相反,布萊爾職業(yè)路徑是從學(xué)術(shù)界走到工業(yè)界。與柯里斯的研究方法相反,布萊爾總是試圖尋找簡(jiǎn)單得不能再簡(jiǎn)單的方法。布萊爾的成名作是基于變換規(guī)則的機(jī)器學(xué)習(xí)方法 (transformation rule based machine learning)。這個(gè)方法名稱雖然很復(fù)雜,其實(shí)非常簡(jiǎn)單。我們以拼音轉(zhuǎn)換字為例來說明它:
第一步,我們把每個(gè)拼音對(duì)應(yīng)的漢字中最常見的找出來作為第一遍變換的結(jié)果,當(dāng)然結(jié)果有不少錯(cuò)誤。比如,“常識(shí)”可能被轉(zhuǎn)換成“長(zhǎng)識(shí)”;
第二步,可以說是“去偽存真”,我們用計(jì)算機(jī)根據(jù)上下文,列舉所有的同音字替換的規(guī)則,比如,如果 chang 被標(biāo)識(shí)成“長(zhǎng)”,但是后面的漢字是“識(shí)”,則將“長(zhǎng)”改成“常”;
第三步,應(yīng)該就是“去粗取精”,將所有的規(guī)則用到事先標(biāo)識(shí)好的語料中,挑出有用的,刪掉無用的。然后重復(fù)二三步,直到找不到有用的為止。
布萊爾就靠這么簡(jiǎn)單的方法,在很多自然語言研究領(lǐng)域,得到了幾乎最好的結(jié)果。由于他的方法再簡(jiǎn)單不過了,許許多多的人都跟著學(xué)。布萊爾可以算是我在美國(guó)的第一個(gè)業(yè)師,我們倆就用這么簡(jiǎn)單的方法作詞性標(biāo)注 (part of speech tagging),也就是把句子中的詞標(biāo)成名詞動(dòng)詞,很多年內(nèi)無人能超越。(最后超越我們的是后來加入 Google 的一名荷蘭工程師,用的是同樣的方法,但是做得細(xì)致很多)布萊爾離開學(xué)術(shù)界后去了微軟研究院。在那里的第一年,他一人一年完成的工作比組里其他所有人許多年做的工作的總和還多。后來,布萊爾又加入了一個(gè)新的組,依然是高產(chǎn)科學(xué)家。據(jù)說,他的工作真正被微軟重視要感謝 Google,因?yàn)橛辛?Google,微軟才對(duì)他從人力物力上給于了巨大的支持,使得布萊爾成為微軟搜索研究的領(lǐng)軍人物之一。在研究方面,布萊爾有時(shí)不一定能馬上找到應(yīng)該怎么做,但是能馬上否定掉一種不可能的方案。這和他追求簡(jiǎn)單的研究方法有關(guān),他能在短時(shí)間內(nèi)大致摸清每種方法的好壞。
由于布萊爾總是找簡(jiǎn)單有效的方法,而又從不隱瞞自己的方法,所以他總是很容易被包括作者我自己在內(nèi)的很多人趕上和超過。好在布萊爾很喜歡別人追趕他,因?yàn)?#xff0c;當(dāng)人們?cè)谝粋€(gè)研究方向超過他時(shí),他已經(jīng)調(diào)轉(zhuǎn)船頭駛向它方了。一次,艾里克對(duì)我說,有一件事我永遠(yuǎn)追不上他,那就是他比我先有了第二個(gè)孩子 :)
在接下來了系列里,我們還會(huì)介紹一個(gè)繁與簡(jiǎn)結(jié)合的例子。
轉(zhuǎn)自:http://googlechinablog.com/2006/08/blog-post_115634657041368311.html
總結(jié)
以上是生活随笔為你收集整理的数学之美 系列十五 繁与简 自然语言处理的几位精英的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数学之美 十四 谈谈数学模型的重要性
- 下一篇: 数学之美 系列十六(上) 不要把所有的鸡