专访格灵深瞳CTO赵勇:为 计算机视觉 赋予智慧的光芒
專訪格靈深瞳CTO趙勇:為" 計(jì)算機(jī)視覺" 賦予智慧的光芒
發(fā)表于2015-04-02 07:25| 15131次閱讀| 來源CSDN| 13 條評論| 作者長生果
CTO俱樂部CTO趙勇計(jì)算機(jī)視覺管理實(shí)踐格靈深瞳 width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-04-01%2F2824390-CTO&type=3&count=&appkey=&title=%E6%8D%AE%E8%AF%B4%E5%8A%A0%E5%85%A5%E4%BB%8E%E4%BA%8B%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E8%AF%86%E5%88%AB%E7%9A%84%E6%A0%BC%E7%81%B5%E6%B7%B1%E7%9E%B3%E5%9B%A2%E9%98%9F%E6%AF%94%E8%BF%9B%E5%93%88%E4%BD%9B%E5%A4%A7%E5%AD%A6%E8%BF%98%E9%9A%BE%EF%BC%9B%E6%8A%95%E8%B5%84%E4%BA%BA%E5%AF%B9%E5%85%B6%E6%9C%AA%E6%9D%A5%E5%B8%82%E5%9C%BA%E4%BC%B0%E5%80%BC%E8%BE%BE%E5%87%A0%E5%8D%83%E4%BA%BF%E2%80%A6%E2%80%A6%E8%BF%91%E6%9C%9FCTO%E4%BF%B1%E4%B9%90%E9%83%A8%E4%B8%93%E8%AE%BF%E4%BA%86%E6%A0%BC%E7%81%B5%E6%B7%B1%E7%9E%B3CTO%E8%B5%B5%E5%8B%87%EF%BC%8C%E4%BB%96%E6%9B%BE%E4%BE%9B%E8%81%8C%E4%BA%8EGoogle%E6%80%BB%E9%83%A8%E7%A0%94%E7%A9%B6%E9%99%A2%EF%BC%8C%E4%B9%9F%E6%98%AFGoogle%20Glass%E6%9C%80%E6%97%A9%E6%9C%9F%E7%9A%84%E6%A0%B8%E5%BF%83%E7%A0%94%E5%8F%91%E6%88%90%E5%91%98%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1458373766114" frameborder="0" scrolling="no" allowtransparency="true">摘要:據(jù)說加入從事計(jì)算機(jī)視覺識別的格靈深瞳團(tuán)隊(duì)比進(jìn)哈佛大學(xué)還難;投資人對其未來市場估值達(dá)幾千億……近期CTO俱樂部專訪了格靈深瞳CTO趙勇,他曾供職于Google總部研究院,也是Google Glass最早期的核心研發(fā)成員。在國內(nèi)新興的諸多技術(shù)型創(chuàng)業(yè)公司中,從事計(jì)算機(jī)視覺識別的格靈深瞳團(tuán)隊(duì)給人一種很神秘的色彩。據(jù)說他們的成員都在來自海內(nèi)外一級名校的學(xué)霸,要加入他們比進(jìn)哈佛大學(xué)還要困難;據(jù)說格靈深瞳的投資人,給這個(gè)團(tuán)隊(duì)的未來市場估值達(dá)幾千億……那么,格靈深瞳如何看待自己的事業(yè)和團(tuán)隊(duì)文化?不久前,來到格靈深瞳的辦公場所,頤和園北面一座臨河的古色古香的四合院內(nèi),CTO俱樂部采訪了格靈深瞳CTO趙勇。趙勇是美國布朗大學(xué)計(jì)算機(jī)工程系的博士,畢業(yè)后供職于Google總部研究院任資深研究員,他也是Google Glass最早期的核心研發(fā)成員,2013年4月作為聯(lián)合創(chuàng)始人創(chuàng)立格靈深瞳。
格靈深瞳聯(lián)合創(chuàng)始人兼CTO ?趙勇
格靈深瞳的內(nèi)涵
CTO俱樂部:你們公司的名字“格靈深瞳”很特別,能講講它的由來嗎?
趙勇:格靈深瞳最先有一個(gè)英文名字,叫Deep Glint,對于Deep(深度)它主要有兩方面的寓意:第一,我們做的是三維深度視覺;第二,我們采用了深度學(xué)習(xí)的方法。我覺得這兩個(gè)概念是計(jì)算機(jī)領(lǐng)域過去10年間最偉大的概念,所以我希望我們公司的命名一定要和“深度”有關(guān)。那Glint是什么意思呢?它的原意是反光、閃耀,比如常用的應(yīng)用場景是人的眼眸啪地閃爍一下,好比日本漫畫里那種又大又有閃光的眼睛。一雙閃爍著光的眼睛意味著是有靈性的、智慧的眼睛。我們原來打算把中文商標(biāo)注冊成“深瞳”,但沒有成功(有一部同名電影把相關(guān)商標(biāo)申請了),便換成“格靈深瞳”。
CTO俱樂部:如果用清晰、簡潔的話語來描述,格靈深瞳正在從事什么事業(yè)?
趙勇:Visual Understanding和Artificial Intelligence。Visual Understanding指“去理解視覺信號”,比如對于一張拍攝下來的照片,去解讀它里面發(fā)生了什么事情。 Artificial Intelligence是基于你對這個(gè)世界的觀察,產(chǎn)生一些判斷的、思維的結(jié)果,能夠形成一個(gè)感知系統(tǒng)。它的范圍可小可大,比如我的朋友李志飛做的“出門問問”App,你說一句話“我想買一碗炒面”,它就能幫你尋找附近的飯館;比如我另一個(gè)朋友余凱在百度做的工作,可以通過照片來識別出具體某個(gè)人;還有我的老東家Google做的無人駕駛汽車,它可以自動把乘客從A點(diǎn)運(yùn)動到B點(diǎn)。以上例子都屬于Artificial Intelligence。格靈深瞳的事業(yè)就是基于Visual Understanding做一些Artificial Intelligence方面的應(yīng)用。
人工智能PK人類智能:是否具備創(chuàng)新和情感
CTO俱樂部:據(jù)我所知,現(xiàn)在語義識別、圖像識別的技術(shù)都不是特別成熟,而關(guān)于你們的Visual Understanding層面,舉例說在具體社會風(fēng)俗環(huán)境下,可能人的手勢或者特征的意義不同,對上述問題你們有沒有從技術(shù)上提煉出一些框架性的原則?
趙勇:沒有,所以你必須很好地界定你的問題范圍。如果有人問我說,機(jī)器人、人工智能會不會把人殺了?如果把殺人(或者繡花)當(dāng)作一個(gè)高級的行為,那么現(xiàn)在人工智能還處在一個(gè)飲毛茹血、刀耕火種的年代。所以我們基本上是先做一些簡單的事情,把肚子先填飽。但這些簡單的事情只要能交給機(jī)器人去做,它也會變成一件偉大的事情。我們經(jīng)常對外宣稱,我們的使命是讓計(jì)算機(jī)看懂這個(gè)世界。但世界很大,所以我們先一步一步地看。我們現(xiàn)在的目標(biāo)是先看懂兩件事,第一件事情是人,第二件事情是車。我們看人包含哪些內(nèi)容呢?它有四個(gè)層次,第一個(gè)層次是微觀層次,比如你的臉和手、你是誰、你的手在做什么;第二個(gè)層次是肢體動作,你是不是在跳舞、跳的是什么舞、你有沒有在打架等,坦率地說,我們現(xiàn)在不能識別你跳什么舞,但可以識別你是不是在打架、你有沒有在求救等;第三個(gè)層面是在一個(gè)攝像機(jī)里面,你是怎么運(yùn)動的、你旁邊的人是怎么運(yùn)動,以及你們倆之間有沒有什么關(guān)系;第四個(gè)層面是最高的層面,叫Visual Sensor Network,就是把前面三層都聯(lián)網(wǎng),這樣你就有了更多的數(shù)據(jù),比如一個(gè)人既在攝像機(jī)A又在攝像機(jī)B中出現(xiàn),如果我們能夠識別出他是同一個(gè)人,就有可能為這個(gè)人建立一個(gè)更長的軌跡,從更大的范圍內(nèi)去分析他的行為。
2015年起,我們將投入很多精力去研究車,因?yàn)檐囀侨祟愋袨榈囊环N識別。現(xiàn)在中國每年有很多人死在交通事故中,因此如果我們能夠利用人工智能解決安全問題,也將是一件功德無量的事情。此外,對于車輛行為大數(shù)據(jù)的挖掘,對城市管理和節(jié)能環(huán)保也會有重要作用。
CTO俱樂部:說到人工智能,電影《黑鏡子》里面塑造了一個(gè)完全和真人一樣的虛擬男友。人工智能將來是否有可能在技術(shù)上完美到能取代人類?
趙勇:我發(fā)現(xiàn)對于人工智能保持樂觀的人都不是專業(yè)人士,專業(yè)人士一般都是保持悲觀的。小說家可以寫出非常美妙的東西,甚至一些游戲廠商,把游戲人物的行為也叫AI,但他們只是制定了一些行為模式,然后根據(jù)一些判斷條件,生成不同的結(jié)果,所以這些表現(xiàn)都是預(yù)演好的,并不是真正的AI。我們現(xiàn)在真正能在科學(xué)上實(shí)現(xiàn)的AI是在感知層次,這兩年無論是“深度學(xué)習(xí)”還是“機(jī)器學(xué)習(xí)”,都是范例教育,就是說我們把計(jì)算機(jī)當(dāng)成一名學(xué)生,給他很多Sample,告訴他意義是什么。如果你的訓(xùn)練方法足夠好,計(jì)算機(jī)系統(tǒng)便慢慢學(xué)會了它們,比如圖像識別。可能現(xiàn)在貓狗識別不能很精確,但人臉已經(jīng)很精確了,甚至超越了人識別的能力。但所有這些,本質(zhì)是我們?nèi)祟愒诮虝?jì)算機(jī)學(xué)習(xí)并重復(fù)一些人類會做的事情。如果讓AI超越這個(gè)層次,讓它去創(chuàng)造一個(gè)新東西,哪怕很微小,機(jī)器都沒有辦法做到。比如我某次去天津,發(fā)現(xiàn)路上的紅綠燈是兩個(gè)燈,不像北京那樣是三個(gè)燈在跳躍,我們自己一般瞬間就能理解它,但卻沒有辦法教會計(jì)算機(jī)去理解這樣一個(gè)新型信號燈是什么意思。
另外,人類智能其實(shí)還有一個(gè)重要的組成部分叫“情感”,它是人類超越動物的重要標(biāo)志。僅從結(jié)果來看,你會發(fā)現(xiàn)越高級的動物情感越豐富。盡管情感會使你在一個(gè)很困難的情況下做一些在短期內(nèi)看并不理智的事情,但從長期來看,它對物種生存的幫助很大。比如所有的有情感的哺乳動物都會撫養(yǎng)子女。情感和邏輯思維之間到底是什么樣的關(guān)系?目前我們還沒有研究清楚,但當(dāng)我們到這個(gè)層面來討論時(shí),其實(shí)已經(jīng)超越了人工智能研究的范疇。在我看來,人工智能自身是沒有意圖的,它就是一個(gè)工具。
CTO俱樂部:能否暢想一下在計(jì)算機(jī)識別領(lǐng)域,未來有哪些發(fā)展趨勢?
趙勇:我覺得從技術(shù)層面,大概分成兩種思路去發(fā)展。第一種像百度那樣只做識別,用戶把數(shù)據(jù)給你,然后你提供一個(gè)答案。比如回答某張照片里面有沒有海灘、落日等。也許你會問,難道我自己不懂這些嗎?但當(dāng)一名用戶有1萬張照片,因?yàn)橐鯬PT急需一張海灘落日的照片時(shí),這樣的識別技術(shù)就產(chǎn)生效率了。第二種是機(jī)器人型的,就是不管你問或者不問,它都在那里工作。比如我們的監(jiān)控?cái)z像頭,無論是在安全領(lǐng)域、娛樂領(lǐng)域或者是商業(yè)分析領(lǐng)域,它都可以自動工作、搜集數(shù)據(jù)并且自動執(zhí)行分析程序,給人一定的指導(dǎo)建議。比如一些商圈廣場,如果裝了我們的設(shè)備系統(tǒng),它就能通過數(shù)據(jù)分析,建議商圈運(yùn)營方“將店A換成另一家店B吧,因?yàn)樵谀敲粗匾奈恢?#xff0c;店A卻吸引不了顧客流”等。格靈深瞳做的就是機(jī)器人,做監(jiān)控系統(tǒng)時(shí)是監(jiān)控機(jī)器人,做視頻開車時(shí)則是安全駕駛機(jī)器人。
人才標(biāo)準(zhǔn):每一個(gè)新人都是最強(qiáng)的
CTO俱樂部:聽說你在很多大公司的實(shí)驗(yàn)室工作過,比如三菱電器研究所、Nvidia實(shí)驗(yàn)室、惠普實(shí)驗(yàn)室和Google實(shí)驗(yàn)室等,它們的研究文化有哪些不同?格靈深瞳和哪一家實(shí)驗(yàn)室的風(fēng)格比較像?
趙勇:這幾家實(shí)驗(yàn)室都在美國,其中有兩家是日本公司(三菱電器、愛普生),比較有意思的是,這兩家日本實(shí)驗(yàn)室中的研究員基本都是美國人。總體來說,三菱電器、愛普生和惠普實(shí)驗(yàn)室風(fēng)格比較古板、嚴(yán)謹(jǐn),Nvidia實(shí)驗(yàn)室稍微好一些。我在Nvidia實(shí)驗(yàn)室工作時(shí),那里總共只有18名研究員,只有4、5個(gè)人在總部,其他的人都在家里工作;而且我跟我的導(dǎo)師,整個(gè)夏天就見過一面,因?yàn)樗莻€(gè)夏天正在騎自行車橫游美國,只是偶爾打個(gè)電話給我——大家就是在那樣的狀態(tài)下工作。記得分配任務(wù)的時(shí)候,我問導(dǎo)師我的任務(wù)是什么呢?結(jié)果導(dǎo)師說,“這樣吧,你先花兩天時(shí)間想一下你的任務(wù)是什么,然后你接著去做就是了”。Google是最不一樣的,我到Google去時(shí),問了領(lǐng)導(dǎo)同樣一個(gè)問題,我的任務(wù)是什么?他回答說是Making Friends。他認(rèn)為公司這么大,我應(yīng)該先去各個(gè)部門玩一玩,交些朋友,看看能不能幫助他們解決一些問題,因?yàn)椤拔覀冏罱K解決的問題是來自于現(xiàn)實(shí)的”。就是在這個(gè)過程中,我通過和幾個(gè)同事的交流,一期啟動了Google Glass項(xiàng)目。后來我在Google工作了一年多后,成為了PI(Principal Investigator),開始擁有了自己的Funding,可以根據(jù)自己的項(xiàng)目經(jīng)費(fèi)來決定自己做什么項(xiàng)目,申請多少工程師來自己的項(xiàng)目小組。因此Google實(shí)驗(yàn)室的文化氛圍是我見過的所有美國公司當(dāng)中最自由的,是我個(gè)人最喜歡這種方式,所以格靈深瞳的研究文化也最接近Google模式。現(xiàn)在和大多數(shù)互聯(lián)網(wǎng)公司一樣,我們對于技術(shù)研發(fā)人員不做考勤,我自己也盡量削減在技術(shù)團(tuán)隊(duì)中的權(quán)威形象,把組織結(jié)構(gòu)扁平化,使得大家有更充分的時(shí)間和精力去考慮如何做出更多的貢獻(xiàn)。
CTO俱樂部:曾經(jīng)看過你們的招聘廣告,聽說要加入你們團(tuán)隊(duì)比進(jìn)入哈佛大學(xué)還難,你心目中的人才標(biāo)準(zhǔn)是什么?
趙勇:從某個(gè)角度來說,美國普通大學(xué)生進(jìn)入哈佛大學(xué)的錄取率是6%~8%,這比我們高多了。對于人才的標(biāo)準(zhǔn),我們技術(shù)部門其實(shí)很簡單,我先講個(gè)故事。當(dāng)我從Google辭職時(shí),去找一位曾經(jīng)的領(lǐng)導(dǎo),希望他給我一些建議。他叫Peter Norvig,曾是NASA(美國宇航局)的Research Director,曾經(jīng)管理過2000多名研究員。他加入Google時(shí),當(dāng)時(shí)Google只有19名員工,他成為第20名員工,負(fù)責(zé)Google的研發(fā)和技術(shù)招聘。他給我提供了這樣的建議:在任何時(shí)候,你都要確保你們招的這個(gè)人在某一個(gè)你關(guān)心的方面比你們每個(gè)人都強(qiáng)。他說如果你持續(xù)這么去做,你的團(tuán)隊(duì)會越來越強(qiáng)。所以我剛開始創(chuàng)建技術(shù)團(tuán)隊(duì)時(shí),就是這么做的(實(shí)習(xí)生例外)。當(dāng)然現(xiàn)在我們團(tuán)隊(duì)規(guī)模擴(kuò)大了,策略就調(diào)整成:每次招聘的人,所有參與面試的同事都要給他投票,從0分到5分,3分是平均分,這是什么概念?3分就是我們團(tuán)隊(duì)哥們幾個(gè)目前的水準(zhǔn),如果來面試的新人低于3.5分,我們就不會考慮。
總結(jié)
以上是生活随笔為你收集整理的专访格灵深瞳CTO赵勇:为 计算机视觉 赋予智慧的光芒的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李开复:我在硅谷看到的最前沿科技趋势
- 下一篇: 海外投行抢滩大数据 人工智能等领域趋热