自然语言处理领域的两种创新观念
????????????????????/*版權聲明:可以任意轉載,轉載時請務必標明文章原始出處和作者信息 .*/????????????????????????
?
??????????????????? 自然語言處理領域的兩種創新觀念
???????????????????????????? 張俊林
????????????????????? timestamp:2006年11月26日
?????? 自然語言處理作為一個研究領域,曾經是一個頗為冷門的方向,但是現在隨著互聯網搜索概念股的瘋狂被投資人追捧,搜索和自然語言處理逐漸成為學術領域的顯學。借著感恩節的當口,讓我們這些靠自然語言處理技術混飯吃的兄弟們也表達一下感激之情:感謝CCTV,感謝CHANNEL V....不對,排錯馬屁了。應該是:國際主義陣營感謝GOOGLE,民族主義陣營感謝百度,是你們在納斯達克上市給了我們這些人混口飯吃的機會,使得我們從吃不飽飯的非洲難民陣營進化到勉強能吃飽的社會主義初級階段那群人的陣營,順便還帶給我們跨入吃得更好的資本主義陣營的夢想。
?? 其實,真正應該感謝的是互聯網,現在互聯網的數據實在是太多了,所以現在大家上網面臨的問題不是沒有信息的問題,而是信息太多找不到自己所需要的信息,這個時候搜索和語言處理就體現出用武之地了。我們需要采取技術手段把過多的嘈雜的信息整理的頭頭是道,這樣網民才能便捷地找到自己想要的東西。所以我個人樂觀的認為,隨著互聯網的發展,搜索和自然語言處理會成為越來越重要的工具。
??? 自然語言處理作為一個研究領域,其成長歷程應該說是比較坎坷的。很早的時候,也曾風光過,通俗的說就是:咱也闊過。那時候研究人員都采用規則的方法,就是大家想一些處理規則,然后計算機按照人想的規則去處理文本。開始大家都還是很樂觀的,期望自然語言處理能夠大師拳腳,很快應用到各行各業。但是現實的殘酷很快打碎了人們的美夢,發現現實世界的復雜不是人想出一些規則就能搞定,而且規則多了還會出現規則之間打架的問題。總而言之,自然語言處理(NLP)成為了一個雞肋方向,食指無味,氣質可惜。直到統計方法破石而出,NLP才見到了一絲曙光,并且有漸漸光大門楣,光宗耀祖的趨勢。現在統計方法基本上占了所有NLP子領域的山頭,
漫山遍插統計大王旗,統計方法應用效果也確實不錯。基本上可以進入實用階段了。
?? 但是,目前NLP學術研究基本上處于發展平臺期,就是說大局已定,能做的就是在一些細枝末節的方向上做些修修補補的工作,你去看ACL/COLING這些最高級別的國際會議的論文就知道所言非虛,一個研究領域進入平臺期
的標志是:假設你幾年不看論文,等想起來去看最新的論文,發現大家還是在一個圈子里面繞來繞去的。現在的研究圈子模式已經變成了:
各種數學模型是一個萬能工具箱,研究人員從這個工具箱里面取出不同的工具,然后用這些工具來進行修修補補的工作。場景基本上如下:?? A博士說了:你用隱馬爾科夫分詞?那我用隱馬爾科夫標注詞性;此時又跳出來一位B博士:你們太落后了,居然還在玩隱馬爾科夫?我都玩到最大熵了。話音未落,C博士飛起一腳把B博士踢下臺去:瞧你那熊樣,還最大熵呢?你以為現在才是二十一世紀初啊(B博士敬佩而又無辜的眼光望著臺上的C博士,撓著頭想:難道現在不是二十一世紀初么),聽說過CRF么?我不僅CRF了,我都CRF好幾年了。
??? 總而言之,現在NLP研究基本上和補鞋匠的工作有的一拼。就好像用不同型號的膠水來補不同牌子的鞋子一樣,看著挺熱鬧,其實沒啥意思在補也不能把一雙布鞋補成一雙運動鞋,頂多是把一雙破布鞋補成看上去不那么破的布鞋而已。有時候,補完一個小洞后又露出一個大洞,只是布鞋匠不說而已。
??? 說說我理解的NLP的兩種創新。其實,其他領域估計也差不多,而且,我的看法看起來相當象廢話,其實基本上就是廢話,世上廢話本來就很多,
在多兩句也無妨。
??? 一種創新是研究模式的顛覆,這需要大智慧,是所謂的大創新。就像剛開始的規則方法的出現,后來統計方法的一枝獨秀,再到最近的大家都嚷嚷要把統計和規則結合起來搞。當然,我個人對兩者結合的效果持懷疑態度,因為以我愚鈍的智力看不出兩者到底有多大的互補性,至于是否真有效那就走著瞧吧。現在需要的是一種完全不同的處理思路,至于是什么,估計誰也不知道,NLP呼喚愛因斯坦。
?? 另外一種創新是應用創新,就是說大家采用的核心技術其實差不多,都那么點貨,其實你也不用藏著掖著,你怎么做的外人不知道,內人 還不知道么?這個時候最好的方法是用同樣的核心技術做不一樣的應用。應用創新可能是目前更加值得關注的創新方法。
???????? 至于搜索研究領域,跟NLP處境差不多,基本上是難兄難弟的關系。從最初的內容匹配到后一階段的鏈接分析,在之后基本上停留在鏈接分析上沒怎么動過窩,大家一樣在從事補鞋的工作。
??????? 說道搜索,就順便談談國內的搜索公司,其實百度也好,雅虎也好,包括后起之秀搜狗,奇虎也好。大家用的什么技術估計自己心理都有數,哪個敢跳出來說我有獨門秘笈?如果真跳出來了,只能問候一聲:騙子你好。除此之外,無話可談。大家技術上其實都差不多,可能聞道有先后,但是道就是那些道。
????? ?
總結
以上是生活随笔為你收集整理的自然语言处理领域的两种创新观念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谁动了我的思想
- 下一篇: MAP/REDUCE:Google和Nu