终于有人把自然语言处理、机器学习、深度学习和AI讲明白了
導讀:本文將帶你了解自然語言處理的概念、應用,以及與機器學習、深度學習和人工智能之間的關系。
作者:卡蒂克·雷迪·博卡(Karthiek Reddy Bokka)、舒班吉·霍拉(Shubhangi Hora)、塔努吉·賈因(Tanuj Jain)、莫尼卡·瓦姆布吉(Monicah Wambugu)
來源:大數據DT(ID:hzdashuju)
01 自然語言處理的基礎知識
為了便于理解,我們將這個術語分為兩部分:
自然語言是一種有機且自然發展而來的書面和口頭交流形式。?
處理意味著使用計算機分析和理解輸入數據。
如圖1-1所示,自然語言處理是人類語言的機器處理,旨在教授機器如何處理和理解人類的語言,從而在人與機器之間建立一個簡單的溝通渠道。
▲圖1-1 自然語言處理
自然語言處理的應用很廣泛,例如,在我們的手機和智能音箱中的個人語音助手,如Alexa和Siri。它們不僅能夠理解我們的說話內容,而且能夠根據我們說的話采取行動,并做出反饋。自然語言處理算法促進了這種與人類溝通的技術。
在上述自然語言處理定義中要考慮的關鍵是:溝通需要以人類的自然語言進行。幾十年來,我們一直在與機器溝通:創建程序來執行某些任務并執行。
然而,這些程序是用非自然語言編寫的,因為它們不是口頭交流的形式,也不是自然或有機發展而來的。這些語言,例如Java、Python、C和C ++,都是在主要考慮機器的情況下創建的,并且始終考慮的是“機器能夠輕松理解和處理的是什么?”?
雖然Python是一種對用戶更加友好的語言,且易于學習和編碼,但與機器溝通,人類必須學習機器能夠理解的語言。自然語言處理、機器學習、深度學習的關系如圖1-2所示。
▲圖1-2 自然語言處理的維恩圖
自然語言處理的目的與此相反。自然語言處理不是以人類順應機器的方式學習如何有效地與它們溝通,而是使機器能夠與人類保持一致,并學習人類的交流方式。其意義更為重大,因為技術的目的本來就是讓我們的生活更為輕松。
我們用一個例子來澄清這一點,你的第一個程序是一段讓機器打印“hello world”代碼。這是你順應機器并要求它用其理解的語言執行任務。
通過向其發出這個命令來要求你的語音助手說“hello world”,并做出“hello world”的反饋,就是自然語言處理應用的一個例子,因為你用自然語言與機器通信。機器符合你的溝通形式,理解你所說的內容,處理你要求它執行的操作,然后執行任務。
02 自然語言處理的重要性
圖1-3說明了人工智能領域的各個部分。
▲圖1-3 人工智能及其一些子領域
與機器學習和深度學習一樣,自然語言處理是人工智能的一個分支,因為其處理自然語言,所以它實際上是人工智能和語言學的交叉。
如上所述,自然語言處理使機器能夠理解人類的語言,從而在兩者之間建立有效的溝通渠道。然而,自然語言處理的必要性還有另一個原因。那就是,像機器一樣,機器學習模型和深度學習模型對數值數據最有效。數值數據對人類來說很難自然產生。很難想象我們用數字而不是語言交談。
因此,自然語言處理與文本數據一起工作,并將其轉換成數值數據,從而使機器學習模型和深度學習模型能夠適用于文本數據。因此,它的存在是為了通過從人類那里獲取語言的口頭和書面形式,并將它們轉換成機器能夠理解的數據,來彌合人類和機器之間的交流差距。
得益于自然語言處理,機器能夠理解并回答基于自然語言的問題、解決使用自然語言的問題以及用自然語言交流等。
03 自然語言處理的能力
自然語言處理有許多有益于人類生活的現實應用。這些應用程序屬于自然語言處理的三大功能:
1. 語音識別
機器能夠識別自然語言的口語形式,并將其翻譯成文本形式。比如智能手機上的聽寫,你可以啟用聽寫功能并對著手機說話,它會將你所說的一切轉換成文本。
2. 自然語言理解
機器能夠理解自然語言的口語和書面語。如果給機器一個命令,它就能理解并執行。例如,在你的手機上對Siri說“嘿,Siri,打電話回家”,Siri就會自動為你打電話回家。
3. 自然語言生成
機器能夠自己生成自然語言。例如,在手機上對Siri說“Siri,現在幾點了?”Siri回復說:“現在是下午2:08”。
這三種能力用于完成和自動化許多任務。讓我們來看看自然語言處理的一些應用。
注意:文本數據被稱為語料庫(corpora)或一個語料(corpus)。
04 自然語言處理中的應用
圖1-4描述了自然語言處理的一般應用領域。
▲圖1-4 自然語言處理的應用領域
1. 自動文摘
包括對語料庫生成摘要。
2. 翻譯
要求有翻譯工具,以從不同的語言翻譯文本,例如,谷歌翻譯。
3. 情感分析
這也被稱為情感的人工智能或意見挖掘,它是從書面和口頭語料庫中識別、提取和量化情感和情感狀態的過程。情感分析工具用于處理諸如客戶評論和社交媒體帖子之類的事情,以理解對特定事物的情緒反應和意見,比如新餐廳的菜品質量。
4. 信息提取
這是從語料庫中識別并提取重要術語的過程,稱為實體。命名實體識別屬于這一類,將在下一章中解釋。
5. 關系提取
關系提取包括從語料庫中提取語義關系。語義關系發生在兩個或多個實體(如人、組織和事物)之間屬于許多語義類別之一。
例如,如果一個關系提取工具被賦予了關于Sundar Pichai的內容,以及他是谷歌的CEO,該工具將能夠生成“Sundar Pichai就職于谷歌”作為輸出,Sundar Pichai和谷歌是兩個實體,“就職于”是定義它們之間關系的語義類別。
6. 聊天機器人
聊天機器人是人工智能的一種形式,被設計成通過語音和文本與人類交流。它們中的大多數模仿人,使你覺得在和另一個人說話。聊天機器人在健康產業被用于幫助患有抑郁癥和焦慮癥的人。
7. 社交媒體分析
社交媒體的應用,如Twitter和Facebook,都有標簽和趨勢,并使用自然語言處理來跟蹤和監控這些標簽和趨勢,以了解世界各地正在交談的話題。此外,自然語言通過過濾負面的、攻擊性的和不恰當的評論和帖子來幫助優化過程。
8. 個人語音助理
Siri、Alexa、谷歌助手以及Cortana都是個人語音助理,充分利用自然語言處理技術來理解和回應我們。
9. 語法檢查
語法檢查軟件會自動檢查和糾正你的語法、標點和拼寫錯誤。
關于作者:卡蒂克·雷迪·博卡(Karthiek Reddy Bokka),語音和音頻機器學習工程師,畢業于南加州大學,目前在波特蘭的 Bi-amp Systems公司工作。他的興趣包括深度學習、數字信號和音頻處理、自然語言處理以及計算機視覺。
舒班吉·霍拉(Shubhangi Hora),Python開發者、人工智能愛好者和作家。她有計算機科學和心理學背景,對與心理健康相關的人工智能特別感興趣。
塔努吉·賈因(Tanuj Jain),在德國公司工作的數據科學家。他一直在開發深度學習模型,并將其投入生產以商用。他對自然語言處理特別感興趣,并將自己的專業知識應用于分類和情感評級任務。
莫尼卡·瓦姆布吉(Monicah Wambugu),金融技術公司的首席數據科學家,該公司通過利用數據、機器學習和分析來提供小額貸款,以執行替代信用評分。她是加州大學伯克利分校信息管理與系統碩士研究生。
本文摘編自《基于深度學習的自然語言處理》,經出版方授權發布。
延伸閱讀《基于深度學習的自然語言處理》
點擊上圖了解及購買
轉載請聯系微信:DoctorData
推薦語:關于基于深度學習的自然語言處理的基礎知識大全,內容全面且新穎,講解專業且規范,是走上精通深度學習與自然語言處理之路的優秀范本。
劃重點????
干貨直達????
OpenCV入門及應用案例:手把手教你做DNN圖像分類
大數據、人工智能帶來的危機:科技巨頭會毀掉我們的生活嗎?
56秒看完131年英格蘭頂級聯賽冠軍排行:利物浦時隔30年再奪冠
一文看懂Python的控制結構:for、while、if…都有了
更多精彩????
在公眾號對話框輸入以下關鍵詞
查看更多優質內容!
PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白
大數據?|?云計算?|?數據庫?|?Python?|?可視化?|?神操作
AI?|?人工智能?|?機器學習?|?深度學習?|?NLP
5G?|?中臺?|?用戶畫像?|?1024?|?大神?|?數學?|?揭秘
據統計,99%的大咖都完成了這個神操作
????
總結
以上是生活随笔為你收集整理的终于有人把自然语言处理、机器学习、深度学习和AI讲明白了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国离婚大数据:离婚/结婚比东北三省和四
- 下一篇: 玩数据必备Python库:Numpy使用