未来数据领域的珠穆朗玛峰之中文自然语言处理
人工智能或許是人類最美好的夢想之一。追溯到公元前仰望星空的古希臘人,當亞里士多德為了解釋人類大腦的運行規律而提出了聯想主義心理學的時候,他恐怕不會想到,兩千多年后的今天,人們正在利用聯想主義心理學衍化而來的人工神經網絡,構建的超級人工智能成為最能接近夢想的圣境,并一次又一次地挑戰人類大腦認知的極限。
?
在以大數據、云計算為背景的技術框架支撐下,互聯網發展極為迅速,過去一個技術或者行業熱點從誕生到消亡需要幾年乃至更長的時間,但是最近幾年,其生命周期在不斷縮短,大多數的熱點從產生到消亡只需要1-2年,有些僅僅是半年甚至幾個月的時間。互聯網行業越來越凸顯出快魚吃慢魚的特點。從技術本身也有體現,比如2012-2014年是移動互聯網的熱潮,安卓和ios APP開發工程師當時非常流行。隨后,2015大數據、云計算之年,2016年后大數據時代,2017年被稱為人工智能元年,2018年炒得最火的是區塊鏈和幣圈。在互聯網以這種迅雷不及掩耳之勢的發展速度下,作為初學者就很容易被各種技術概念迷惑,找不到自己想要的突破口和深入的領域,即便是計算機從業者有時候也分不清到底如何定位自己未來的技術方向。
下面,我們先從中國互聯網的發展歷程說起。
從1994誕生(加入國際互聯網)到現在才短短的24年,就在這24年里,我們經歷了4次非同凡響、一次比一次更徹底的發展大高潮。
第一次互聯網大浪潮(1994年—2000年),以四大門戶和搜索為代表,能做網站的工程師就可以被稱為技術牛人;第二次互聯網大浪潮(2001年—2008年),從搜索到PC端社交化網絡的發展,我們的社交形態發生了根本的變化,從線下交流正轉變為線上交流,大量的數據開始生成;第三次互聯網大浪潮(2009年—2014年)PC端互聯網到移動互聯網,此時各種APP如雨后春筍般的冒出來,盡管后來有很多APP都死了,但是移動互聯網幾乎顛覆了整個中國老百姓個人生活和商業形態,改變著我們每一個人的生活、消費、社交、出行方式等。
那第四次是什么呢?沒錯,第四次互聯網大浪潮(2015—至今),是在前3次發展基礎上,以大數據、云計算為背景發展起來的人工智能技術革命,分布式計算讓大數據處理提速,而昔日隕落的巨星深度學習此刻再次被喚醒,并很快在圖像和語音方面取得重大突破,但在自然語言方面卻顯得有些暗淡,突破并不是很大。盡管有很多人都去從事計算機視覺、語音等方面的工作,但隨著AI的繼續發展,在NLP方向顯得越來越重要。
接著,我們總結一下數據領域成就和挑戰
有一個不可否認的事實,當前從事互聯網的人們已經制造出了海量的數據,未來還將繼續持續,其中包括結構化數據、半結構化和非結構化數據。筆者發現,對于結構化數據而言,在大數據、云計算技術“上下齊心”的大力整合下,其技術基本趨向成熟和穩定,比如關系型數據庫以及基于Hadoop的HDFS分布式文件系統、Hive數據倉庫和非關系型數據庫Hbase,以及Elasticsearch集群等數據存儲的關系數據庫或者NoSql,可以用來管理和存儲數據;基于MapReduce、Spark和Storm、Flink等大數據處理框架可以分別處理離線和實時數據等。而半結構化、非結構化的數據,除了以ELK為代表的日志處理流程,過去在其它限定領域基于規則和知識庫也取得了一定的成果,因其自身的復雜性,未來更多領域應用都具有很大的困難和挑戰。
最后,我們看看國內外人工智能領域的工業現狀
今年5月19日有幸在北京國家會議中心參加了2018全球人工智能技術大會(GAITC)。在大會上,從中國科學院院士姚期智提出人工智能的新思維開始,其重點講述了人工神經網絡為代表的深度學習以及量子計算機將是未來發展的新思維;緊接著中國工程院院士李德毅分享了路測的學問-無人駕駛的后圖靈測試,提出未來無人駕駛挑戰應該是讓無人駕駛具有司機的認知、思維和情感,而不是當前以GPS定位和動力學方面解決無人駕駛的問題;接下來微軟全球資深副總裁王永東向我們展示的微軟小冰,大家一起見證了微軟小冰在社交互動、唱歌、作詩、節目主持和情感方面不凡的表現,而本人也真實測試了一下,小冰現在的表現已經非常優秀了,可以作詩、唱歌、聊天、節目主持等。然而要達到一個成年自然人的水平,在某些方面還不能完全表現出人的特性。下面這幅圖是微軟小冰的個人介紹,有興趣可以在微信公眾號關注小冰,進行體驗。
人工智能產業的快速發展,資本市場大量資金涌入,促使中國人工智能領域投融資熱度快速升溫。充分表明資本市場對于人工智能發展前景的認可。《2018年人工智能行業創新企業Top100》發布,據榜單顯示:進入2018年人工智能行業創新企業前十名的企業分別是:百度、阿里云、美圖秀秀、華大基因、科大訊飛、微鯨科技、華云數據、愛馳億維、青云、七牛云。作為人工智能的一個重要組成部分,自然語言處理(NLP)的研究對象是計算機和人類語言的交互,其任務是理解人類語言并將其轉換為機器語言。在目前的商業場中,NLP技術用于分析源自郵件、音頻、文件、網頁、論壇、社交媒體中的大量半結構化和非結構化數據,市場前景巨大。
為什么說未來數據領域的珠穆朗瑪峰是中文自然語言處理?
正是基于上面對中國互聯網發展的總結,對當前數據領域所面臨的挑戰以及資本市場對人工智能的認可分析,未來數據領域的重點是自然語言處理技術及其在智能問答、情感分析、語義理解、知識圖譜等應用方面的突破。對于我們國內中文來說,如何更好的把前面所說的應用在中文處理上,顯得更為重要和急迫,所以筆者認為未來數據領域的珠穆朗瑪峰是中文自然語言處理 。
作為初學者,我們目前面又臨這樣的尷尬,網上大部分自然語言處理內容都是英文為基礎,大多數人先是學好了英語的處理,回頭來再處理中文,卻發現有很大的不同,這樣不僅讓中文自然語言處理學習者走了彎路,也浪費了大量時間和精力。中文的處理比英文復雜的多,網上中文相關資料少之又少,國內純中文自然語言處理書籍只有理論方面的,卻在實戰方面比較空缺,這讓中文自然語言處理的研究開發工作感到舉步維艱,很難下筆。
總結
以上是生活随笔為你收集整理的未来数据领域的珠穆朗玛峰之中文自然语言处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql如果带有换行的处理方式
- 下一篇: R 缺失值处理