为什么Siri总是像个智障?智能助手背后的技术到底有多难?
導讀:本文帶你簡單了解一下智能助手背后的會話式人工智能技術。
作者:木羊同學
來源:大數據DT(ID:hzdashuju)
01 大話智能助理
智能助理應該是當前人工智能技術最為成功的落地方向之一。我還記得,當初iPhone4S率先推出著名的人工智能助理Siri,馬上就有不少評論家預測,Siri也將像iPhone一樣,為人類開創一個全新的時代,而調戲Siri也成了當時最流行的游戲之一。當時我們在看視頻演示的時候,心中都對Siri充滿的期待。
我們一直說,智能手機智能手機,但以前總感覺所謂智能手機,也就是傳統的手機+迷你版的電腦,“智能”體現在什么地方呢?現在有了Siri,手機真的能像個老友一樣和你聊天打屁,感覺要名副其實得多了。
我們都聽過智能助理,可是你是否認真想過一個問題:智能助理對于用戶,到底意味著什么?也許不同人能給出很多不同的看法,不過,業界最常見的答案是,提供了全新的交互界面。
我們說Windows是桌面霸主,它的成功,就成功在提供了在當時來說相當友好的交互界面,相比黑乎乎的命令輸入,Windows的桌面簡單、直觀,一下降低了PC的使用門檻。
而智能助理則是在這個已經不太高的門檻上再打一個“骨折”,幾乎不需要額外的學習曲線,不用學習使用鍵盤鼠標,也不用熟悉系統界面,只需要用對話這種最自然的交互方式就能操控機器。相信在今年疫情期間,很多人說話最對的對象,就是家里各式各樣的智能助理,譬如智能音箱。
02 新的交互界面
采用對話作為交互方式有很多優點,我覺得有兩樣最為重要。一樣就是自然,人類從一出生就開始學習的技術也就兩樣,除了蹣跚學步,就只有牙牙學語,說話應該是我們日常中最常見也是最習慣的交互方式。
另一樣是便捷,回想一下,手機也好、電腦也好,雖然給我們帶來了種種便利,但也禁錮了我們最為重要的雙手,而現在回歸了用說話的方式操控機器,雙手就被解放出來可能干別的事情。
正因為這兩樣有點,現在智能助理的應用場景很多,所以產品也很多,智能手機、智能音箱,甚至不少汽車也將智能助理作為重要賣點,現在我家電梯里經常播的一個汽車廣告就是這樣,里面的車載智能助理細心得就像親媽一樣,車主一回到車里就各種噓寒問暖,就差非要加上一條秋褲。
不過,從今天往回看,智能助理的優勢很大,推出自然是理所當然,但是,智能助理背后運用了一整套互相配合的智能技術,發展也是一波三折充滿坎坷。
就拿Siri來說吧,別看今天Siri好像是一位高冷的知識女性,在它波折的成長路途中,說傷痕累累都是輕的,感覺好幾次都差點在一片唾沫星子當中遭到滅頂之災。
Siri的槽點很多,第一個就是語種。沒錯,雖然Siri可以算是iPhone 4S最大的賣點,很多人干脆就是沖著Siri去果斷賣了腎。可是到手一看,發現自己吃了沒文化的虧,人家Siri只聽得懂英文,說完Hello以后,95%的用戶都猛然發現自己像是頭一次相親一樣,接下去就不知道該說什么好,詞窮了。好不容易找到點句子吧,結果口音還必須純正。
在大多數時候,Siri需要識別半天不說,最后返回結果經常是牛頭不搭馬嘴。語音識別時間長、識別結果不準在后來很長一段時間都是Siri的重要槽點,給人一種蠢笨難忍的感覺。哪怕后來iOS 6以后,Siri終于學會了中文,仍然距離那種與用戶談笑生風的形象相去甚遠。
03 智能助理的耳朵和嘴巴
當時大家對智能助手還很新奇的時候,最想知道的問題之一,就是這個小葫蘆里面究竟裝了一副怎樣的藥,是不是真的把人縮小了然后塞進里面去。
我當時就十分好奇Siri的原理,究竟要做到以自然語言的形式,做到自然對話來控制機器,背后是怎樣的一套機制在運行呢?但是查了好多資料,感覺大家也都還不甚清楚,只是模模糊糊說很高大上。
大家都容易高估不了解的東西的難度。其實,智能助理還真不太“復雜”,說起來,結構和我們熟悉的電腦還十分類似。
先說外設,智能助理要開口說話,同樣需要一套輸入輸出設備,具體來說,我們不妨將智能助理的大腦當作電腦的CPU,CPU是需要得到數據輸入,然后經過計算,在將結果輸出,而所謂外設,就是能夠能夠將外部的語音轉化為機器能懂的輸入,以及將機器經過運算得到的結果轉化成語音輸出。
這是兩項獨立的任務,當然也都是采用人工智能技術來完成,分別為負責將語音轉化為機器輸入的自動語音識別技術(ASR),以及將結果轉化為語音輸出的語音生成技術(TTS)。這兩項技術雖然聽著復雜,背后的技術原理也確實足以寫一本書,不過已經發展得較為成熟,人工智能方面有較為豐富的技術積累。
簡單來說,ASR負責將聲音轉成文本,而TTS則負責將文本轉成聲音。具體就不介紹了,市面上已經有太多類似的技術,譬如微信就有聲音轉文本,這就是典型的ASR,而許多讀書工具都有AI朗讀功能,雖然吧效果一言難盡,從感情到靈魂一路都缺,不過用來理解ASR應該沒有問題。
04 智能助理的大腦
最難也是最復雜的部分,就是實現智能語音助手的大腦,通常可以切分為三項獨立的任務,分別為自然語言理解(NLU)、對話管理(DM)和自然語言生成(NLG)。這里出現了很多縮寫,其實核心就是自然語言處理(NLP)。
自然語言處理,被譽為人工智能皇冠上的寶石,也是現在人工智能研究的重點方向,不斷有模型推陳出新,很有一點一代版本一代神的意思。現在NLP的扛把子叫Bert,各大頂會只要和NLP沾邊,都會現在肯定都會有一個占比頗重的環節,叫花式玩弄Bert。
說遠了說回來。在智能助手的大腦中,NLU、DM和NLG就是NLP的兩項重要任務。
NLU很好理解,人的語言和機器指令有個很大的不同點,就是前者屬于非結構化數據,而后者屬于結構化數據。非結構化數據機器是聽不懂的,必須轉化成結構化數據,機器才好理解和執行。那誰來扮演中介商呢?就是NLU。道理很好懂,但是實現很復雜,還有無數的坑在前面等著大家去填。
在智能助手中,NLU的角色是這樣的,首先ASR將聲音轉成文本,當然,是非結構化文本,然后將這些文本輸入給NLU,有NLU做一些閱讀理解,把理解以后的意思按固定格式填寫,也就是形成機器能懂得結構化文本,交給下游環節處理。
NLU的下游環節就是DM,對話管理,名字起得有點莫名其妙,其實就干兩件事,一件事是狀態追蹤,解釋起來很復雜,不過可以簡單理解為根據上下文理解當前輸入的意思,也就是做了個閱讀理解。另一件事就是動作生成,你得根據人說話的意思作出回答。
那NLG是什么呢?和NLU正好反過來,是文本生成。上游不是通過DM作了閱讀理解,輸入了結構化文本嗎?那根據這個輸入,咱得通過動作生成思考一下該回答啥,一般的機器知道回答個Yes和No就了不起了,頂多再多給一點選項,不過光這樣一點也不像自然對話,還得擴展擴展,也就是根據某個意思,“生成”一點文本內容,這就是NLG的工作。到了這一步,整條鏈子就串起來了。
現在這種智能助理應用已經非常多了,而還有一種類似但應用更廣的技術,叫對話機器人技術,譬如雙十一肯定能遇到的淘寶機器人客服,這種客服不需要聽說能力,直接用文字對文字的形式進行溝通,相信看完了上文,大家應該也清楚對話機器人技術的基本原理。
不過,上面只是很淺顯地介紹了會話式人工智能技術,還有很多細節的問題,譬如中文分詞問題,需要在實際實踐是加以解決。我推薦一本書,叫《會話式AI:自然語言處理與人機交互》,里面系統地介紹了會話式人工智能的相關內容,想要更深入了解該技術的同學可以仔細閱讀。
關于作者:莫凡,網名木羊同學。娛樂向機器學習解說選手,《機器學習算法的數學解析與Python實現》作者,前沿技術發展觀潮者,擅長高冷技術的“白菜化”解說,微信公眾號“睡前機器學習”,個人知乎號“木羊”。
延伸閱讀《會話式AI:自然語言處理與人機交互》
點擊上圖了解及購買
轉載請聯系微信:DoctorData
推薦語:騰訊、阿里、國家標準委&AIIA人工智能專家多年大型項目經驗總結,詳解NLP和人機交互核心技術,從技術、算法、實戰3維度講解聊天機器人原理、實現與工程實踐。
劃重點????
干貨直達????
華為內部資料流出!揭秘華為數據湖:3大特點、6個標準、入湖流程
中臺的本質及中臺建設的4點思考
什么是YARN?跟HBase和Spark比優勢在哪?終于有人講明白了
終于有人把大數據講明白了
更多精彩????
在公眾號對話框輸入以下關鍵詞
查看更多優質內容!
PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作
大數據?|?云計算?|?數據庫?|?Python?|?可視化
AI?|?人工智能?|?機器學習?|?深度學習?|?NLP
5G?|?中臺?|?用戶畫像?|?1024?|?數學?|?算法?|?數字孿生
據統計,99%的大咖都完成了這個神操作
????
總結
以上是生活随笔為你收集整理的为什么Siri总是像个智障?智能助手背后的技术到底有多难?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: “左手5G右手AI”,任正非推崇的王喜文
- 下一篇: 以朋友圈为例,腾讯资深架构师揭秘鹅厂大数