北大 AI 公开课 2019 | 颜水成:人工智能行业观察与实践
人工智能領域存在著工業界與學術界的分別,近年來,隨著 AI 高速發展,在這兩個不同的世界里,分別發生了哪些大事件?作為一家以安全為主要業務的企業,360 又是如何在人工智能時代發揮作用?本期北大公開課請到了 360 副總裁,首席科學家,人工智能研究院院長顏水成教授,他將從 AI 觀察者和實踐者兩個角度談談他對人工智能領域的洞察。
北京大學最受歡迎的 AI 公開課“人工智能前沿與產業趨勢”于 2019 年 2 月 20 日正式開課。本學期的課程邀請到了商湯科技副總裁沈徽、馭勢科技 CEO 吳甘沙、微軟亞洲研究院副院長周明、360 人工智能研究院院長顏水成、YC 中國創始人及 CEO、百度集團副董事長陸奇等 14 位來自產業界的大咖進行授課,AI 前線作為 獨家合作媒體 將全程跟進并對北大這 14 場公開課進行整理,敬請關注!
課程導師:雷鳴,?天使投資人,百度創始七劍客之一,酷我音樂創始人,北大信科人工智能創新中心主任,2000 年獲得北京大學計算機碩士學位,2005 年獲得斯坦福商學院 MBA 學位。
特邀講師:顏水成,360 集團副總裁,360 人工智能研究院院長,IEEE Fellow、IAPR Fellow 及 ACM 杰出科學家。他的主要研究領域是計算機視覺、機器學習與多媒體分析,發表 600+ 篇高質量學術論文,論文引用過 4 萬次,H-index 94。2014、2015、 2016 、2018 四次入選全球高引用學者 (TR Highly-cited researchers )。
以下為 AI 前線獨家整理的顏水成老師課程內容(略有刪減)
對 AI 領域的觀察
今天的分享主要分為兩部分。
首先,作為一個 AI 領域的觀察者,我想談談在學術界、工業界和創業的團隊里,發生了一些什么事情,以及我個人對這些事情的一些看法;另外,作為一個 AI 實踐者,我想為大家分享一下 360 在大安全概念的指引下,AI 發展的走勢和進展。
在過去的將近一年多的時間里面,我覺得有兩件事情對 AI 的影響是非常大的。
第一件事情是,在去年年初的時候,區塊鏈和比特幣爆發的時間點,很多 VC(風投)突然一下,好像對人工智能喪失了興趣,把精力和投資的欲望完全轉向了區塊鏈,就像上面左側這張圖描述的那樣。當然,這件事情也不完全是壞事,有一個好處是:大家對區塊鏈和比特幣有了更清楚的認識。
另一件事情發生之后,AI 又漸漸地開始回暖。今年,深度學習的三架馬車:Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun,拿到圖靈獎之后,又為 AI 注入了一個強心針,大家有更強烈的熱情去推動 AI 往前發展。
在學術界,我第一個觀察到的是什么呢?大家可以看到,AI 的論文的數目已經完全超越了所有學者能夠閱讀的極限。今年恰好我是 ICCV、CVPR、AAAI 和 IJCAL 四個會議的 area chair。其中,AAAI 已經結束了,收到投稿量是 7095 篇,接收了 1150 篇;CVPR 是在 2 月底開的這個 area chair Meeting,收到了 5100 多篇論文,接收了 1300 篇,ICCV 和 IJCAL 還在審稿當中,分別至少有四千多篇的投稿。
過去我們參加一個會議,基本上利用四天左右的時間掃一遍會上感興趣的文章,是完全沒有問題的。但是現在每天發表的論文的速度,讓學者完全沒有時間去把它進行通讀,這對于學者來說是一個非常大的挑戰。很多人也希望利用 AI 來進行輔助,篩選自己感興趣的 AI 論文,以利于我們能夠更好學習 AI。
有一個人利用業余時間寫了一個叫 Arxiv Sanity Preserver,希望用人工智能的方法,把讀者感興趣的論文給篩選出來,同時可以相應的去推薦一些用戶可能會感興趣論文,非常像信息流的推薦系統。我覺得如果 AI 能夠幫助我們更好的讀 AI 論文,也是一個非常有趣的事情。
第二個觀察是,門派已經逐漸消失了。以計算機視覺為例,我在讀書的時候,有 Adaboost 派、有 Deformable Model 派、有特征設計派,也有理論功底比較深的 And-Or Graph 派,但現在已經完全改變了,全民都想只用一招,就是 Hinton 的深度學習。
第三個觀察到的現象是,現在論文的影響力出現了資源 Biased 的現象。什么意思呢?像 Google、Facebook、微軟這樣的大公司,也包括國內 BAT 這樣的公司,要寫一篇好的論文,可以調用的 GPU 的數量可能是成百的,甚至更多,但是在高校里面,一般一個學生只能分到一塊到兩塊 GPU,情況好點的話,也許有八塊 GPU 可以去做一篇論文。
可以看到,最近發表的這些原創的有影響力的論文,它使用的 GPU 的資源是非常令人驚訝的,比如谷歌這篇 NASNet 的論文,它花了 83 個 GPU-Days;另外一篇 Facebook 的論文,用了 7382 個 GPU-Days,這在學校里面是基本上不可能做到的事情;前不久發布的 BERT,用了 256 個 TPU-Days。
大家可以看到,這些工作確確實實都開創了一個新的時代,或者說一個新的方向,都非常有價值,但這些工作從某種意義上來說,已經是學術界沒有辦法去做的了。這個情況對于學校的研究者,以及 AI 研究公平性方面要引起反思,當然我們不能說它好或不好,但是事情都已經發生了,我們大家還是需要注意的。
第四個觀察是,在近一年時間里出現的重要的進展,它們的落地性還不是特別的好,所以我們用了一個詞叫:讓子彈再飛一會。比如今年的 BigGAN 和 StarGAN,它的效果是確實非常好,但是我們也沒有想清楚這個東西到底可用來干什么,到底有什么樣的商業場景。
這可能是在接下來的一年或者更長的時間里面大家所需要思考的,比如今天的 BERT 效果非常的好,但是它的功耗實在太大了,還暫時沒有辦法直接在產品中使用,怎么樣去降低功耗,讓 BERT 模型仍然能夠達到比較好的效果,是需要進一步往前推進的事情。
另外一個就是強化學習。Big GAN 花了很多的人力在做這個方向的研究,但其實,GAN 在其他場景的價值,還沒有得到充分的彰顯。我們也曾經嘗試,讓它去解決比如像廣告推薦、金融風控等方面的問題,但是后來跟其他的公司進行探討的時候,我們發現強化學習在其中發揮的價值還是非常的小。這些東西都非常有價值,但是在實際的商業場景中,可能還需要讓子彈再飛一會,或許還需要更長的時間,才能讓它發揮出價值來。
另外一個觀察是,在端上的高效的模型已經成為熱點,而且是剛需。也就是說,現在深度學習已經從“可以用”時代逐步進入到“用的起”時代了。所以在過去這一年里,大家可以看到有非常多的相關工作和研究在進行,比如:怎么把硬件的特性考慮進去,可以讓模型在端上能夠有實時性?
學術研究 VS 工業研發
從學術界的角度來看,我們基本的目標是希望能有一些優質的論文發表,能在比賽上獲得更好的成績。我認為在學術界的研究更像是一種個人的沖鋒戰,但是到了工業界之后,特別是成熟的公司,他們的目標不只是做算法研究,或者說純粹的發表論文,而是需要把技術放在一個閉環里面。
現在工業研發中,有兩個維度非常重要,一個是價值閉環,一個是數據閉環。
“價值閉環”我第一次看到是在《創新者的窘境》這本書里面,它在里面講了四個緯度:技術、產品、客戶和體驗。為什么有一些好的技術,在傳統的大企業里面,反而落地非常困難?一個主要的原因是:技術雖然能夠帶來價值的增加,但是對于消費者、銷售商、客戶或者企業,如果有一方的利益沒有增加,那他就沒有動力去利用這項新技術。所以一定要把技術放在一個閉環里,讓閉環里每個維度的人都感受到價值的增加,這樣的話,才有可能讓一項技術在傳統的企業里被大量的采用。但這是非常困難的。
而據我們的觀察,最近很多的互聯網的產品,除了這四個緯度之外,還有一個維度也變得非常重要,就是社會價值觀。當有一個產品的社會價值觀沒有起到正向的推動作用,往往這個產品也很可能會走向失敗。
在閉環中,企業、技術、產品、客戶、價值觀,他們之間是相互依存的。我舉一個例子來說明。
首先我們肯定是通過技術創新來孵化新的產品,但是我們會在真實產品中,去收集有效的數據,用這些數據來迭代和優化我們的技術,最終技術又進一步的提升產品的體驗。
我們來看看用戶的 feedback 會對我們的產品產生什么樣的有意義的價值。
我們 360 做了一個掃地機器人,掃地機器人純粹依靠傳感器來轉向有時候不是那么精確,有時候需要依靠碰撞的方式來確定是不是到邊界了。我們其實一開始并沒有在機器人外面做緩沖裝置,而是有個用戶,他自己在掃地機器人上面加裝了這個東西,這樣的話,當機器人碰到一些比較脆弱的,或者比較珍貴的家具的時候,就起到了一個很好的保護作用。
這些東西在公司里面,可能很少有人會這么去想,但是我們有這么多的用戶,用戶會根據他真實碰到的問題,有些時候會產生一些非常創新的想法,這個想法返回到我們企業里,有可能會給我們的產品帶來進一步的改良和優化。
第二,數據閉環。這其實是非常重要的,特別是對算法來說,我們一定要建立起數據閉環。我們一般會專注在算法模型的部分。算法模型和產品本身產生的這個數據,以及用戶在使用過程中產生的各種交互的數據,要把它形成一個閉環。
比如:算法模型為智能產品提供一個功能,同時智能產品又為用戶提供服務,用戶在使用過程中,又會有很多反饋信息,它們合在一起,形成一個閉環,這個閉環是我們發現問題、解決問題和不斷的去迭代產品的一個過程。
以 360 的一款門鈴產品為例,這款產品有人臉識別,或者人形檢測等等功能,這項功能部署在云端或者本地端,產品就會進行實時的分析,而這些分析的結果,就會發送到用戶的手機上,用戶在使用手機的時候,可能一開始并不知道是哪些人,但是收集到的數據比較多之后,系統就會把人聚堆,用戶也可以對某個人進行標注,系統也可能會幫用戶把標注內容分成幾個小的聚堆。這些信息反饋回來之后,我們可以用這些數據去進一步提升人臉識別,或者人形識別的精確度。
那么為什么要建立一個閉環呢?我覺得一個核心是:因為 AI 沒有完美的算法,比如設計一個人臉識別的算法,并不一定在所有場景都能取得很好的效果。至于為什么人臉識別的一些公司能存活下來?我認為主要原因是:每家公司都在特定的一些場景下,有自己的數據優勢,可能在某個場景下,A 公司能一統天下,別的公司就沒有辦法能夠進來。
另外,特定場景的數據,還可以不斷的優化算法。最關鍵一點:產品算法模型的優劣并不是產品成敗的直接決定因素,產品的設計、用戶交互的友好性等等都要不斷的考慮進去。這些因素可以在用戶的反饋和數據的生成過程當中逐步得到,最后能形成一個非常有競爭力的產品出來。
對于學術界研究和工業界研發的差別我有一個小的總結:我認為學術界更像是兩個人在談戀愛,工業界更像是結婚后的男女。
如何理解呢?學術界的研究,每天一點點的進步都會讓你非常的開心,比如你有一個 idea,發表了一篇論文,同時還希望達到新的境界,希望發一堆論文出來,看到的全是好的一面,而且你可以自由的憧憬,為什么?因為暫時沒有人催你生孩子(產品),你可以夢想如果我用這些技術打造出一個產品會多么的美好,而且你會認為這個產品一定會是世界上最好的產品,因為反正你不用真的把這個孩子給生出來。這就是學術界的情況。
但是到了工業界,更像是結婚后的男女,你發現生孩子(產品)成了你最首要的任務,因為你的老板天天會催著你生孩子。你以為生出來的孩子很乖巧,特別是剛從學術界出來的時候,會認為我做出來的產品肯定是世界上最好的,但是來到工業界之后,你會發現一堆的問題,一堆的毛病,有很多問題你之前根本沒有想過,比如供應鏈、銷售等等,有各種各樣的問題,都是你沒有想到的。以前你不關心的因素,后來成為了最關鍵的因素。
用戶不喜歡產品,你就要不停的根據經驗和用戶反饋來調整,最后這個產品越來越好了,你的頭發也白了,身體也壞了,但是看著自己的孩子還是一臉的幸福。這確實是學術界和工業界的差別。
成熟企業 VS 創業公司
我覺得創業公司,其實有些相似性,特別在技術的維度。所以我把關于初創企業的一些觀察,和成熟企業的觀察就放在一起了。
首先對于初創公司來說,AI 不是一個最終的產品,它必須要跟具體的場景和業務相結合才有價值。我們總是要明白,AI 只是在一個閉環里面的一個子鏈條或者一個加速器,它并不能算是一個產品。
比如做一個智能硬件,除了算法之外還有產品的工程化、設計、市場銷售、服務器,還要考慮 AI 的硬件化,讓它能夠更加的高效。但是我們往往更沒有想到的是供應鏈和售后到底會發生什么事情。這些是我們剛開始不會想事情。
第二點,我們要承認 AI 技術已經不是孤品了,它已經不存在什么真正意義上的必殺技。我在觀察的時候,突然想起我看過的《馬達加斯加》,感覺非常形象:在紐約時代,這匹斑馬就是一個孤品,因為沒有別的同類,它所會的一切技能就是必殺技;但是當他回到草原的時候發現不是這樣了,其他的同類也都會同樣的技能。這段視頻非常好的描述了當前的 AI 的狀況,AI 技術已經不再是孤品,那么大家也不必幻想 AI 存在必殺技。我們現在更多的需要考慮,AI 怎么樣能跟商業閉環融合在一起,逐步形成它的壁壘。
另外,AI 是沒有完美的算法的,但是我們又希望有毫無瑕疵的用戶體驗。去年我也分享過,想做一款好的產品,純粹的算法科學家是不夠的,你需要有產品的工程師來幫助你去用不完美的算法,產生無瑕疵的用戶體驗。
舉個例子,比如說你有人臉方面的各種技術,如果你只是想用它換臉肯定效果不行,但是如果你想用它來,在人臉上加上一些裝飾,就能做得非常好,而且效果也會非常的不錯。
另外一方面,如果 AI 沒有完美的算法,那么人機協同,或者人在閉環,往往也有一些商業模式能夠建立起來。一般的做法是:先人在閉環,再逐漸的 AI 化。
舉個例子,我原來在新加坡的時候去評測過的一家叫 TRAX 的公司,這是一家以色列的公司,它所做的工作是識別貨架上的商品,而且要識別到子類,同樣是洗發水,它要知道洗發水的尺寸等等。
它的動機是什么呢?商場里面每年有大量的商品,由于樣式太多,人工沒有辦法去實時監督商品數量,導致每年損失高達五百多億美金;另外,貨架上的商品怎么樣擺放,也是有嚴格要求的,如何擺放才能讓客戶去購買的可能性最大。
這家公司通過攝像頭,去自對識別貨架上商品的量有多少,以及它的位置是什么樣的。有一些供應商,為了能夠得到這個數據是愿意付費的,因為他們會經常派人,去不同的超市商店里檢查自家產品的擺放等等,這個工作人工的成本非常高,如果能把它自動化,一些公司肯定是非常愿意的。
但是目前物體識別的精度只有 96%,怎么辦?這家公司就在印度和馬來西亞,召集了一批實時調度人員,先用自動算法做分析,再用人工來進行修正,通過人機協同的方式,運行起來了這樣的商業模式。隨著數據收集越來越多,它的精度可以逐步的提升,人工校對的人數也會隨之減少。
所以,人機協同也是解決人工智能算法不完美的一種很好的方法。
另外,現在大家都在想,還有沒有新的元素,能夠去推進 AI 技術往前走?我個人覺得,5G 和 AI 芯片應該是 AI 兩個巨大的推動力。
首先,5G 的下載速度快,據說能達到一秒鐘下載 1.7G 的數據;第二個特點是高接入量,5G 的設備的數量,可能是現在的幾十倍,或者更多;另外很重要的一點是低時延。
有了這些特性之后,比如在 VR 領域,如果帶寬提升了,那么用戶的體驗就會變得更好;此外,高接入量對 IOT 有非常大的幫助;至于低時延,對于 AI 和自動駕駛是非常有價值的,因為自動駕駛車輛的設備,以及車和車之間的連接都需要具備低時延的特點。5G 對于這些場景的落地有非常好的推動作用。
而 AI 芯片最大的好處是什么呢?如果 IOT 設備的計算全部靠云端的話,那么在時延和隱私性方面可能會不那么好,如果端上智能設備的算力足夠,比如家里的攝像頭,那么就可以把圖像通過本地進行處理,不需要上傳到云端。
如果把對于學術界、成熟的企業和初創企業的這些觀察總結起來的話,大家可以看到,對 AI 不只是去討論它的三要素,也不只是說 AI 要落地,而是說現在大家已經開始要關心 return or investment(投資與回報),AI 也真的開始回歸商業的本質,跟之前的互聯網、移動互聯網時代一樣,商業回報是大家最關心的問題。
以上是我過去大概一年多的時間里面的一些觀察。
大安全下的人工智能
接下來,我跟大家分享一下,360 在過去一年里面,AI 的布局和進展是什么樣的。
大安全與安全大腦
360 去年明確提出來一個“大安全”的概念。其核心思想是:安全已經不只是局限在網絡空間里面的信息安全,攻擊也不只發生在網絡空間,由于智能的控制的發展,原本存在于網絡空間的攻擊已經對物理世界產生了危害。
所以,安全公司希望的是,給大家提供一種安全感,包括安全、安心、安康等多個維度。
在此基礎之上,360 人工智能的布局主要分成兩個部分。
現在 360 的業務布局叫“一體兩翼”。“一體”是核心安全,就是傳統的安全業務;“兩翼”一個是 IOT 業務,一個是互聯網業務,比如 360 的搜索引擎、瀏覽器、信息流等業務。
一方面,360 去年提出了 360 的安全大腦,希望用人工智能和大數據的技術,去打造分布式的智能安全器,其主要目的是防御網絡的攻擊;另外一方面,是基于 360 的人工智能的平臺打造四個引擎,分別是運動引擎、交互引擎、視覺引擎和決策引擎。這四個引擎一個方面是支撐 IOT 業務所需要的智能分析能力,同時還可以支持互聯網的業務,因為這里有一些比較難的問題,或者可以進一步提升的問題,希望能夠通過決策引擎去支持。
安全大腦的提出,是因為攻防的嚴重的不對等。防御方面,我們對網絡所有的可能性,所有的地方都要防范;但是進攻的話,只要找到一點漏洞,就能攻進去。那么在這個時候,就會產生攻防的嚴重的不對等。
比如說在安全領域,每年都會有一個事故數據泄露調查報告,他們發現:黑客要進行攻擊的話,如果初步得手,則需要跟蹤,開始有泄露,也需要跟蹤,但是網絡安全人員要發現這個數據泄露了,他需要有足夠的時間去啟動跟蹤環節措施,這是一個非常漫長的過程。
從這里可以看得到:攻擊很快,防守很慢,防守環節也很慢。與此同時,網絡攻擊也越來越自動化和智能化,防守能用 AI,攻擊當然也能用 AI。這時候就意味著我們需要對安全的響應速度比以前更快,也就需要大量技術嫻熟的網絡安全人員。
但是事實上,中國的網絡安全人員是嚴重的缺乏,所以 360 希望是把多年積累的網絡安全能力,形成感知學習推理決策和預測的能力,希望能為有安全需求的場景提供一站式的服務。
首先這是一個人機協同的系統,為什么?因為 AI 再怎么強,很多的場景還是需要白帽子,而且很多時候,AI 的價值是協助白帽子發現其中的問題。同時,它也是一個開放的生態,360 的網絡安全人員目前不能解決所有問題,我們希望接入第三方的能力和速度,讓安全大腦變成一個分布式的協同作戰的武器。
此外,要把這些能力開放給第三方,讓它有能力去沉積一些和安全相關的國家和企業的項目。在 2018 年的上半年,360 的安全大腦,攔截的惡意的程序就有 396 億次,攔截釣魚攻擊 200 多億次,攔截垃圾短信 48 億條,攔截騷擾電話接近 200 億次。
半年的時間,可以看到它所涉及到的面和量都是非常巨大的。
四個 AI 引擎
下面主要來給大家分享四個 AI 的引擎。
第一個引擎叫交互引擎。以 360 兒童手表為例,小孩需要跟手表利用語音交互通話,后臺就需要有一個用于交互的引擎,同時 360 今年剛發布的 AI 音箱也是通過這個交互引擎來提供人機交互的能力,這個引擎叫做 NXOS。
第二個引擎叫運動引擎。這個引擎主要是希望智能硬件能夠自主和安全的運行,現在主要是在支持 360 的掃地機器人。
第三個視覺引擎算是 360 的強項,主要是希望對家庭還有小區的安防提供統一的解決方案。
第四個引擎叫決策引擎,依靠的是 data intelligence(數據智能),希望用 360 積累的大數據對未來的趨勢進行智能的判斷,用來做大數據的風控和廣告,還有信息流、短視頻的智能的推薦。
總結
最后做一個小的總結。
我覺得從學術界、成熟企業以及初創企業的觀察來看,大家不再只是考慮 AI 長遠的落地,更加關注 AI 的 ROI,也就是說,AI 正在回歸它的商業本質了,這個是遲早的事情。
那么在實踐的維度,360 在大安全的指導下,用 360 的安全大腦來支撐 360 的網絡安全,用四大人工智能引擎去支撐 360 的 IOT 業務,和互聯網業務。
同時我覺得因為三架馬車獲得了圖靈獎,在接下來的兩年,甚至更長的時間里面,跟 AI 相關的行業應該會繼續具有強大的生命力,謝謝大家。
問答環節
雷鳴:對于 GAN、強化學習和 BERT,你覺得未來會有一些什么樣的突破,以及這個突破會帶來什么樣的一些商業機會呢?
顏水成:我覺得 GAN,應該對于圖像和視頻的生成,肯定會有很多的回應的點。打個比方,你在社交媒體里面想用一個頭像,現在網上直接下載的圖像很多都有版權的問題;或者你在進行文字創作的時候,肯定會希望有一些配圖,如果你到網上去買,不一定買的到,同樣如果直接下載,那么版權問題的風險是非常的大的。用自動生成的方式,可以讓創作產生更大的價值,而且現在有個趨勢,不只是圖像,連視頻也能生成,這樣發展的空間就更大了。當然這是指好的一面。
不好的一面就是,通過自動生成可以生成任何人,所以可能將來在網絡上看到的新聞圖片有些是自動生成的,這樣反而會帶來一些混亂。從安全的角度來說,利用 AI 判斷到底哪些圖片是真實的,哪些是虛假的,由此引發的相關研究也是很有前景的。
至于 BERT,我個人是非常看好它的前景,但是它的訓練代價太大,最近有很多團隊在用 BERT 刷榜,但如果你仔細去看會發現,刷榜的人都沒有對 BERT 重新訓練,都是用之前訓練好的模型;當然也有一些團隊在探索,有什么辦法能夠在真正的業務里面用上這個模型,還需要一些時間,但前景我非常的看好。
而強化學習可能前景就更不清晰了,我們看到了它確實是解決很多的問題,比如用來做模型的生成,像 GAN 這樣的模型也在廣泛的使用。如果公司是用它來瞄準長期的收益,這個東西可能會是很好的,但我覺得有如果公司比較愿意保障當前的收益,可能就沒有辦法立刻看到它的價值。
雷鳴:有一個觀點認為,深度學習的發展跟算力是捆綁的,隨著算力的提升,很多問題都解決了,如果沒有算力大幅度的提升,很多問題僅靠調整模型可能是解決不了的,對于這個觀點你是怎么看的?AI 的未來真的就是暴力求解嗎?
顏水成:我的個人感覺當前確實是比較依靠算力和有效的數據,比如說,圖像和語音的問題都解決的不錯了,但為什么 NLP 問題沒能解決的特別好?我們當時有一些探討:
可以把這些問題看成不同的數據空間,比如語音更多的是一維的空間,很容易就能夠全覆蓋到;而圖像的數據空間相對語音來說會更大一些,隨著社交媒體的豐富,像 ImageNet 這樣的數據集也越來越多,圖像的數據空間也開始逐漸變得更加充分了;但是 NLP 領域,就好比要把所有的詞匯全部考慮進去,包括排列組合等等,它所擁有的空間比圖像空間更大,因此可能需要的樣本更多,如果再把多輪對話、人機交互等等問題考慮到的話,數據空間就更大了。
現當前的狀況,幾乎沒有這么大的數據能把整個 NLP 空間的話有效的覆蓋,這也是為什么現在人機交互的過程中,機器仍然很笨的一個主要原因。假設將來收到越來越多的日常高頻的人機交互數據,你或許會發現機器人變得越來越智能。也許到將來的某個時間點,平常我們能見到的一些交互,就都不成問題了。
那么要處理這些東西,首先算力要足夠。大家也知道之前 OpenAI 最新開源的模型 GPT 2.0 已經可以自己生成文章,這也是靠海量的數據和大量的計算資源堆出來的結果。
也許隨著數據的增加,和計算能力的增強,解決 NLP 問題會比以前解決的更好。但是我是覺得,可能還會有差別,至少現在與智能音箱對話的人機交互方式,跟兩個人類交流的方式還是差別很遠的,所以至少在這個維度,應該是暫時沒有辦法讓這個機器達到一個與人類接近的地步。
雷鳴:現在也出現一種叫多模態融合的方向,要理解視頻內容,還要跟自然語言有關,前段時間微軟也推出一個在圖片上,通過語言去尋找某個東西的模型,對于這個方向你是怎么看的?
顏水成:我是比較悲觀的。大家都在講通用智能,我也有朋友是做這個方向的,比如按照某個方式去讓智能體去接觸外部環境進行學習,雖然能夠從理論上證明,最后會具備強人工智能的能力,但是我覺得還是有些弱。這類實驗也非常簡單,有點像一個非常原始的游戲,去模擬這個過程,所以我個人覺得達到強人工智能的時間還是有些漫長。
而多模態融合現在也沒有看到特別的好的方法,之前也有一些研究想要弄明白,人類大腦的視覺和聽覺到底是如何協同工作的,但是到 2017 年也基本上沒有任何實時性的進展。
當時在多媒體領域,有一個很好的夢想是希望能把圖像、語音和文字,三個模態的信息能融合在一起去做一些事情,但是,如果去看這些論文,會發現其實它的融合機制還是比較簡單的,而中間是怎樣交錯,并影響到最后的結果,我覺得還缺少一層比較好的機制,現在的多模態,做得還是很簡單。至少從我自己有限的研究里看,多模態發展需要時間還特別長。
雷鳴:你覺得在視覺上,未來有哪些產業還會落地或者發展?
顏水成:第一,我覺得教育還是一個比較重要的方向。現在的教育資源確實不夠,要么把老師叫到你這邊來,要么把孩子送到補習的地方去,可是有個現實問題,路上交通的時間成本太高了。我是覺得從視覺角度來說,通過基于視覺的交互,可以完成比如作業的批改,或者是在學習過程中,利用視覺技術分析孩子當前學習的狀態等等。
另外由于 5G 的出現,一定會有新的內容產生出來,用視覺的方法去幫助用戶產生適合在 5G 形態上的內容,肯定會催生很多新的公司。當然不僅僅是我們現在見到的短視頻產品,可能會是別的視頻產品,這塊是視覺比較強的地方。
雷鳴:你對自動駕駛是怎么看待的,是偏樂觀一點的觀點,還是偏悲觀的?
顏水:我有一個觀點是,希望做任何事情,經常有階段性產品出來。但是自動駕駛的話感覺,在我看來是比較難有階段性產品出現。因為我是從學術界來到工業界,所以我內心還是希望比較快速能看到一些有效的項目出現。另外,自動駕駛的周期比我們想象的要長,今年很明顯,大家開始比較少的去談一些 L4 或者 L5 的產品,開始想要在一些受限場景下嘗試產品的落地了。但是我個人還是覺得這個方向是非常這個值得投入,也是未來應該關注的一個方向,也許需要更多的年輕人做這個事情。
總結
以上是生活随笔為你收集整理的北大 AI 公开课 2019 | 颜水成:人工智能行业观察与实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CIO:2019年 IT 创造业务价值的
- 下一篇: Serverless五大优势,成本和规模