专访格灵深瞳CTO赵勇:为 计算机视觉 赋予智慧的光芒
專訪格靈深瞳CTO趙勇:為" 計算機視覺" 賦予智慧的光芒
發表于2015-04-02 07:25| 15131次閱讀| 來源CSDN| 13 條評論| 作者長生果
CTO俱樂部CTO趙勇計算機視覺管理實踐格靈深瞳
width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-04-01%2F2824390-CTO&type=3&count=&appkey=&title=%E6%8D%AE%E8%AF%B4%E5%8A%A0%E5%85%A5%E4%BB%8E%E4%BA%8B%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E8%AF%86%E5%88%AB%E7%9A%84%E6%A0%BC%E7%81%B5%E6%B7%B1%E7%9E%B3%E5%9B%A2%E9%98%9F%E6%AF%94%E8%BF%9B%E5%93%88%E4%BD%9B%E5%A4%A7%E5%AD%A6%E8%BF%98%E9%9A%BE%EF%BC%9B%E6%8A%95%E8%B5%84%E4%BA%BA%E5%AF%B9%E5%85%B6%E6%9C%AA%E6%9D%A5%E5%B8%82%E5%9C%BA%E4%BC%B0%E5%80%BC%E8%BE%BE%E5%87%A0%E5%8D%83%E4%BA%BF%E2%80%A6%E2%80%A6%E8%BF%91%E6%9C%9FCTO%E4%BF%B1%E4%B9%90%E9%83%A8%E4%B8%93%E8%AE%BF%E4%BA%86%E6%A0%BC%E7%81%B5%E6%B7%B1%E7%9E%B3CTO%E8%B5%B5%E5%8B%87%EF%BC%8C%E4%BB%96%E6%9B%BE%E4%BE%9B%E8%81%8C%E4%BA%8EGoogle%E6%80%BB%E9%83%A8%E7%A0%94%E7%A9%B6%E9%99%A2%EF%BC%8C%E4%B9%9F%E6%98%AFGoogle%20Glass%E6%9C%80%E6%97%A9%E6%9C%9F%E7%9A%84%E6%A0%B8%E5%BF%83%E7%A0%94%E5%8F%91%E6%88%90%E5%91%98%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1458373766114" frameborder="0" scrolling="no" allowtransparency="true">摘要:據說加入從事計算機視覺識別的格靈深瞳團隊比進哈佛大學還難;投資人對其未來市場估值達幾千億……近期CTO俱樂部專訪了格靈深瞳CTO趙勇,他曾供職于Google總部研究院,也是Google Glass最早期的核心研發成員。
在國內新興的諸多技術型創業公司中,從事計算機視覺識別的格靈深瞳團隊給人一種很神秘的色彩。據說他們的成員都在來自海內外一級名校的學霸,要加入他們比進哈佛大學還要困難;據說格靈深瞳的投資人,給這個團隊的未來市場估值達幾千億……那么,格靈深瞳如何看待自己的事業和團隊文化?不久前,來到格靈深瞳的辦公場所,頤和園北面一座臨河的古色古香的四合院內,CTO俱樂部采訪了格靈深瞳CTO趙勇。趙勇是美國布朗大學計算機工程系的博士,畢業后供職于Google總部研究院任資深研究員,他也是Google Glass最早期的核心研發成員,2013年4月作為聯合創始人創立格靈深瞳。
格靈深瞳聯合創始人兼CTO ?趙勇
格靈深瞳的內涵
CTO俱樂部:你們公司的名字“格靈深瞳”很特別,能講講它的由來嗎?
趙勇:格靈深瞳最先有一個英文名字,叫Deep Glint,對于Deep(深度)它主要有兩方面的寓意:第一,我們做的是三維深度視覺;第二,我們采用了深度學習的方法。我覺得這兩個概念是計算機領域過去10年間最偉大的概念,所以我希望我們公司的命名一定要和“深度”有關。那Glint是什么意思呢?它的原意是反光、閃耀,比如常用的應用場景是人的眼眸啪地閃爍一下,好比日本漫畫里那種又大又有閃光的眼睛。一雙閃爍著光的眼睛意味著是有靈性的、智慧的眼睛。我們原來打算把中文商標注冊成“深瞳”,但沒有成功(有一部同名電影把相關商標申請了),便換成“格靈深瞳”。
CTO俱樂部:如果用清晰、簡潔的話語來描述,格靈深瞳正在從事什么事業?
趙勇:Visual Understanding和Artificial Intelligence。Visual Understanding指“去理解視覺信號”,比如對于一張拍攝下來的照片,去解讀它里面發生了什么事情。 Artificial Intelligence是基于你對這個世界的觀察,產生一些判斷的、思維的結果,能夠形成一個感知系統。它的范圍可小可大,比如我的朋友李志飛做的“出門問問”App,你說一句話“我想買一碗炒面”,它就能幫你尋找附近的飯館;比如我另一個朋友余凱在百度做的工作,可以通過照片來識別出具體某個人;還有我的老東家Google做的無人駕駛汽車,它可以自動把乘客從A點運動到B點。以上例子都屬于Artificial Intelligence。格靈深瞳的事業就是基于Visual Understanding做一些Artificial Intelligence方面的應用。
人工智能PK人類智能:是否具備創新和情感
CTO俱樂部:據我所知,現在語義識別、圖像識別的技術都不是特別成熟,而關于你們的Visual Understanding層面,舉例說在具體社會風俗環境下,可能人的手勢或者特征的意義不同,對上述問題你們有沒有從技術上提煉出一些框架性的原則?
趙勇:沒有,所以你必須很好地界定你的問題范圍。如果有人問我說,機器人、人工智能會不會把人殺了?如果把殺人(或者繡花)當作一個高級的行為,那么現在人工智能還處在一個飲毛茹血、刀耕火種的年代。所以我們基本上是先做一些簡單的事情,把肚子先填飽。但這些簡單的事情只要能交給機器人去做,它也會變成一件偉大的事情。我們經常對外宣稱,我們的使命是讓計算機看懂這個世界。但世界很大,所以我們先一步一步地看。我們現在的目標是先看懂兩件事,第一件事情是人,第二件事情是車。我們看人包含哪些內容呢?它有四個層次,第一個層次是微觀層次,比如你的臉和手、你是誰、你的手在做什么;第二個層次是肢體動作,你是不是在跳舞、跳的是什么舞、你有沒有在打架等,坦率地說,我們現在不能識別你跳什么舞,但可以識別你是不是在打架、你有沒有在求救等;第三個層面是在一個攝像機里面,你是怎么運動的、你旁邊的人是怎么運動,以及你們倆之間有沒有什么關系;第四個層面是最高的層面,叫Visual Sensor Network,就是把前面三層都聯網,這樣你就有了更多的數據,比如一個人既在攝像機A又在攝像機B中出現,如果我們能夠識別出他是同一個人,就有可能為這個人建立一個更長的軌跡,從更大的范圍內去分析他的行為。
2015年起,我們將投入很多精力去研究車,因為車是人類行為的一種識別。現在中國每年有很多人死在交通事故中,因此如果我們能夠利用人工智能解決安全問題,也將是一件功德無量的事情。此外,對于車輛行為大數據的挖掘,對城市管理和節能環保也會有重要作用。
CTO俱樂部:說到人工智能,電影《黑鏡子》里面塑造了一個完全和真人一樣的虛擬男友。人工智能將來是否有可能在技術上完美到能取代人類?
趙勇:我發現對于人工智能保持樂觀的人都不是專業人士,專業人士一般都是保持悲觀的。小說家可以寫出非常美妙的東西,甚至一些游戲廠商,把游戲人物的行為也叫AI,但他們只是制定了一些行為模式,然后根據一些判斷條件,生成不同的結果,所以這些表現都是預演好的,并不是真正的AI。我們現在真正能在科學上實現的AI是在感知層次,這兩年無論是“深度學習”還是“機器學習”,都是范例教育,就是說我們把計算機當成一名學生,給他很多Sample,告訴他意義是什么。如果你的訓練方法足夠好,計算機系統便慢慢學會了它們,比如圖像識別。可能現在貓狗識別不能很精確,但人臉已經很精確了,甚至超越了人識別的能力。但所有這些,本質是我們人類在教會計算機學習并重復一些人類會做的事情。如果讓AI超越這個層次,讓它去創造一個新東西,哪怕很微小,機器都沒有辦法做到。比如我某次去天津,發現路上的紅綠燈是兩個燈,不像北京那樣是三個燈在跳躍,我們自己一般瞬間就能理解它,但卻沒有辦法教會計算機去理解這樣一個新型信號燈是什么意思。
另外,人類智能其實還有一個重要的組成部分叫“情感”,它是人類超越動物的重要標志。僅從結果來看,你會發現越高級的動物情感越豐富。盡管情感會使你在一個很困難的情況下做一些在短期內看并不理智的事情,但從長期來看,它對物種生存的幫助很大。比如所有的有情感的哺乳動物都會撫養子女。情感和邏輯思維之間到底是什么樣的關系?目前我們還沒有研究清楚,但當我們到這個層面來討論時,其實已經超越了人工智能研究的范疇。在我看來,人工智能自身是沒有意圖的,它就是一個工具。
CTO俱樂部:能否暢想一下在計算機識別領域,未來有哪些發展趨勢?
趙勇:我覺得從技術層面,大概分成兩種思路去發展。第一種像百度那樣只做識別,用戶把數據給你,然后你提供一個答案。比如回答某張照片里面有沒有海灘、落日等。也許你會問,難道我自己不懂這些嗎?但當一名用戶有1萬張照片,因為要做PPT急需一張海灘落日的照片時,這樣的識別技術就產生效率了。第二種是機器人型的,就是不管你問或者不問,它都在那里工作。比如我們的監控攝像頭,無論是在安全領域、娛樂領域或者是商業分析領域,它都可以自動工作、搜集數據并且自動執行分析程序,給人一定的指導建議。比如一些商圈廣場,如果裝了我們的設備系統,它就能通過數據分析,建議商圈運營方“將店A換成另一家店B吧,因為在那么重要的位置,店A卻吸引不了顧客流”等。格靈深瞳做的就是機器人,做監控系統時是監控機器人,做視頻開車時則是安全駕駛機器人。
人才標準:每一個新人都是最強的
CTO俱樂部:聽說你在很多大公司的實驗室工作過,比如三菱電器研究所、Nvidia實驗室、惠普實驗室和Google實驗室等,它們的研究文化有哪些不同?格靈深瞳和哪一家實驗室的風格比較像?
趙勇:這幾家實驗室都在美國,其中有兩家是日本公司(三菱電器、愛普生),比較有意思的是,這兩家日本實驗室中的研究員基本都是美國人。總體來說,三菱電器、愛普生和惠普實驗室風格比較古板、嚴謹,Nvidia實驗室稍微好一些。我在Nvidia實驗室工作時,那里總共只有18名研究員,只有4、5個人在總部,其他的人都在家里工作;而且我跟我的導師,整個夏天就見過一面,因為他那個夏天正在騎自行車橫游美國,只是偶爾打個電話給我——大家就是在那樣的狀態下工作。記得分配任務的時候,我問導師我的任務是什么呢?結果導師說,“這樣吧,你先花兩天時間想一下你的任務是什么,然后你接著去做就是了”。Google是最不一樣的,我到Google去時,問了領導同樣一個問題,我的任務是什么?他回答說是Making Friends。他認為公司這么大,我應該先去各個部門玩一玩,交些朋友,看看能不能幫助他們解決一些問題,因為“我們最終解決的問題是來自于現實的”。就是在這個過程中,我通過和幾個同事的交流,一期啟動了Google Glass項目。后來我在Google工作了一年多后,成為了PI(Principal Investigator),開始擁有了自己的Funding,可以根據自己的項目經費來決定自己做什么項目,申請多少工程師來自己的項目小組。因此Google實驗室的文化氛圍是我見過的所有美國公司當中最自由的,是我個人最喜歡這種方式,所以格靈深瞳的研究文化也最接近Google模式。現在和大多數互聯網公司一樣,我們對于技術研發人員不做考勤,我自己也盡量削減在技術團隊中的權威形象,把組織結構扁平化,使得大家有更充分的時間和精力去考慮如何做出更多的貢獻。
CTO俱樂部:曾經看過你們的招聘廣告,聽說要加入你們團隊比進入哈佛大學還難,你心目中的人才標準是什么?
趙勇:從某個角度來說,美國普通大學生進入哈佛大學的錄取率是6%~8%,這比我們高多了。對于人才的標準,我們技術部門其實很簡單,我先講個故事。當我從Google辭職時,去找一位曾經的領導,希望他給我一些建議。他叫Peter Norvig,曾是NASA(美國宇航局)的Research Director,曾經管理過2000多名研究員。他加入Google時,當時Google只有19名員工,他成為第20名員工,負責Google的研發和技術招聘。他給我提供了這樣的建議:在任何時候,你都要確保你們招的這個人在某一個你關心的方面比你們每個人都強。他說如果你持續這么去做,你的團隊會越來越強。所以我剛開始創建技術團隊時,就是這么做的(實習生例外)。當然現在我們團隊規模擴大了,策略就調整成:每次招聘的人,所有參與面試的同事都要給他投票,從0分到5分,3分是平均分,這是什么概念?3分就是我們團隊哥們幾個目前的水準,如果來面試的新人低于3.5分,我們就不會考慮。
總結
以上是生活随笔為你收集整理的专访格灵深瞳CTO赵勇:为 计算机视觉 赋予智慧的光芒的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2017年第八届蓝桥杯国赛B组试题A-3
- 下一篇: 诚信迎考 计算机考试主题班会策划,201