专访 Swin Transformer 作者胡瀚:面向计算机视觉中的「开放问题」 原创
文 | 劉冰一、Echo
編輯 | 極市平臺
本文原創(chuàng)首發(fā)于極市平臺,轉(zhuǎn)載請獲得授權(quán)并標明出處。
胡瀚,湖北潛江人,本博均畢業(yè)于清華大學自動化系,曾就職于百度研究院深度學習實驗室,目前任職于微軟亞洲研究院視覺計算組。近期他和團隊的“ Swin Transformer:Hierarchical Vision Transformer Using Shifted Windows ” 摘得 ICCV 2021 馬爾獎(最佳論文獎)。
1 從看閑書談起
科研人員閑暇做什么?也許千人千面。胡瀚在微軟亞洲研究院工作,周末他偏好窩在家里看書作消遣。此外,他在工作日早晚也會擠出一段時間用來閱讀。最近在看先秦兩漢時代的書,翻著翻著他腦海里會閃現(xiàn)一些和工作中的互通之處。比如,那時諸子百家百花齊放,制度創(chuàng)新層出不窮,但這些思想和制度的創(chuàng)新大都是在前人的基礎上進行的改進,以此適應最新的社會經(jīng)濟變化。他感慨做研究最好要做到心中有基準線,了解歷史的演進過程以及目前支撐技術和生態(tài)的變化,這樣才能更好地指引研究前進的方向。
《送東陽馬生序》中有一句話:「幼時即嗜學,家貧,無從致書以觀」。胡瀚的情況跟這有些相似,他從小便喜歡讀書,興趣濃時廢寢忘食,索性村里小學的圖書館加一張床,每天泡在書海里。雖然后來學了理科,但他的閱文比較廣泛,古今中外兼容并包,他最愛在歷史書中索趣,他認為梳理歷史脈絡有助于樹立“大局觀”和“聯(lián)系思維”。
“全局意識”對他學業(yè)和科研助益頗深。在思考問題的時候,他常常能夠從眼前孤立的局部跳出來,探討在更大的圖景中對正確方向的把握。 比如博士期間做視覺分割問題,他打破常規(guī)的純工程角度,試圖從人的視覺機制中尋找靈感,以指導和啟發(fā)新算法的設計,這樣最終形成的博士論文不再是純工程模塊的羅列,而是形成了更體系性和前瞻性的思考。
胡瀚對歷史有許多自己的思考。說起喜歡的歷史人物,他欽佩對人類思想變革有貢獻的人,比如宣揚知行合一的王陽明;從底層做起、人格完整的的富蘭克林,他的價值觀智慧且實在;以及杰斐遜,時值美國建國思想大變革之際,他的政治理念和實踐對人類社會的貢獻功不可沒。開卷有益,博覽群書,無功利目的地海量閱讀,使他形成了寬厚的知識塔基和靈敏的心智結(jié)構(gòu),從而在科研輸出時盡量“知識自由”“引證自由”。
《卡薩布蘭卡》里寫到,「你如今的氣質(zhì)里,藏著你走過的路,讀過的書和熱愛的人。」踐行知行合一,胡瀚把書里學到的應用在日常中,他向思想先鋒們看齊,勇?lián)钚迈r、最坦率的青年之責。
2 勇于嘗試,向優(yōu)秀的人學習
胡瀚覺得自己屬于理解和適應能力比較好的一類人,運氣也比較好,憑借悟性和幸運考入清華。校園里厲害的人太多了,他也不擰巴,成長過程一切順其自然。
身邊的人優(yōu)秀,會刺激自己變得更優(yōu)秀,但不會對自己預期過高,我是個普通人,跟天才還是有差距的,并不會因為看到比自己厲害的人而心態(tài)失衡。
就像人工智能中的模仿學習,他認為這是最高效的一種學習方式,他不斷向身邊的人學習好的經(jīng)驗,也學習失敗教訓。這也是他自認為比較幸運的地方,求學生涯能在最好的學校里向最優(yōu)秀的同學們學習,工作以后則能在做人工智能研究和工程實踐最好的機構(gòu)向優(yōu)秀的同事和前輩學習, 自己進步很快。
另一方面,就像人工智能中的強化學習,他在試錯中成長,也逐漸發(fā)現(xiàn)自己擅長和喜歡的事業(yè)。清華園里本博十年光陰,就成了他試錯、充電的最佳時機。
大學期間,會有意識地積極參加班級活動,也擔任過學習委員、班長和團支書的職務,這雖然會占用自己的學習時間,但也通過為班里同學服務補足了自己一些能力方面的欠缺。事實上,剛上大學時,由于年齡偏小,又從比較封閉的農(nóng)村出來,內(nèi)心會有不自信并且有社交障礙,積極擔任這些職務,也使自己克服了這些短板。
大三,胡瀚跟著周杰老師實驗室的一位師兄做 SRT (Student Research Training)項目。正是因為這一次項目經(jīng)歷,他順利進入了周杰老師實驗室并隨其讀博。讀博第一年,他便中了實驗室五年以來第一篇 CVPR,這篇文章給了當時的他很大的鼓勵,也成為了他科研的一個起點。
我的人生路徑不是一開始就規(guī)劃好的,而是一步一步的往前走,慢慢地發(fā)現(xiàn)自己的熱愛和擅長之路,導師和師兄也在一直幫助我,我覺得是一件蠻幸運的事。
胡瀚喜歡做一些新的嘗試。因為自己從農(nóng)村里面考出來,想知道基層公務員是什么狀態(tài),也想了解國家和基層公務員在農(nóng)村建設方面更宏觀的想法和實踐。于是趁著博士階段的社會實踐,他去了往四川綿陽一個小縣城的發(fā)改局。在此之前,他做了充分地調(diào)研和準備,讀了三十多本關于中國新農(nóng)村建設、土地財政稅制相關的文科碩博士論文,并給當?shù)卣ぷ魅藛T分享了許多自己的理解。當?shù)毓ぷ魅藛T實踐經(jīng)驗豐富,但很少接觸相關理論和更廣泛范圍的實踐經(jīng)驗,不少工作人員反饋聽完分享后豁然開朗,而自己也很有成就感。
他在博士期間還前往了賓夕法尼亞大學交流。這次經(jīng)歷對他來說是一段新奇又很有幫助的體驗,讓他感受到了一些國內(nèi)外科研方式的不同。
我在國外的導師對每位學生項目的技術細節(jié)指導地很細致,更 hands-on(親力親為)一些,而在國內(nèi)的導師則會給我很多大方向上的指導和建議,并給與我充分的研究自由度。
這兩種不同的風格也影響了他今后在研究工作中和學生的合作和培養(yǎng)模式,他選擇去嘗試兼顧自由度和親力親為。當時他所在的中心主攻機器人方向,20 多位老師里只有 3 位做純粹的計算機視覺研究,但中心的老師都可以給自己建議和啟發(fā)。他們在方法論上的引導,一定程度上培養(yǎng)了他的一種問題意識:重要的是提出問題(挖坑),以及在填坑過程中尋找新的重要問題。
博士畢業(yè)以后他去了百度研究院的深度學習實驗室,該研究院由余凱(現(xiàn)地平線的創(chuàng)始人)掛帥,成為國內(nèi)最早開啟深度學習研究的先鋒軍之一。他第一個項目是在關于一種新的廣告展示樣式。以前的搜索引擎廣告僅是一個文本鏈接,不夠生動。為了吸引用戶點擊,團隊想到給每個鏈接配一個優(yōu)質(zhì)關聯(lián)圖,這是一個體量很大的工作,他在其中負責將圖片裁剪成展示所需比例這個技術模塊。從計算機視覺研究來說,這不是一個核心任務,但從商業(yè)來看, 這一技術卻最終帶來了令他感到驚訝的巨大價值:促使點擊率上升5個百分點,這也意味著百度年利潤能提升35億人民幣的規(guī)模。 這次經(jīng)歷徹底刷新了他的認知,也豐富了他看問題的維度。
在百度刷新認知的事情經(jīng)常上演,這里相比此前在學校里的研究工作更靠近商業(yè)和技術前沿,他也得以迅速提升了自己的工程能力、business sense(商業(yè)敏感)、問題研判能力、以及拓寬了思考維度。憑借出色能力他很快被安排去承擔 tech leader 的角色,但不久以后的他重新為自己的人生做了一次選擇:去微軟亞洲研究院視覺計算組,做回一名一線的研究員。
現(xiàn)在回頭來看這個選擇無疑是正確的。當時他在百度的工作更多地偏向業(yè)務落地,主要考量技術能否為企業(yè)的商業(yè)目標服務;而微軟亞研偏向做基礎研究,而且他所去的這個團隊剛做出來ResNet這一革命性的工作。對他而言這是一次機會,因為可以在最頂級的研究團隊里學習和成長,同時這也是一個挑戰(zhàn),主要在于從業(yè)務應用重回基礎研究的不確定感,不清楚自己能否做出一些真正具有長遠影響的基礎研究工作。 幸運的是,微軟亞洲研究院視覺計算組無愧被稱為計算機視覺界的“黃埔軍校”,不僅研究做的厲害,更重要的是這里很善于培養(yǎng)年輕的研究員,在這個組里的鍛煉讓他做研究的能力上了一個臺階。
在胡瀚看來,**MSRA 有兩點很特別,一個是自由的學術氛圍,二是很好的傳承。**MSRA 科研之樹長青,智慧代際傳承。正是因為有著孫劍、何愷明、華剛、梅濤、王井東、代季峰、危夷晨、Steve Lin 等在科研品味和科研素質(zhì)方面的培養(yǎng)和訓練,例如如何產(chǎn)生一個好想法并將它付諸實踐、對實驗的嚴謹苛刻、寫作邏輯與細節(jié)的把控要求等等,讓每一位加入MSRA 的視覺研究者都受益匪淺。而這些資深的研究員則是受更早的如沈向洋、張宏江、郭百寧、湯曉鷗、馬毅等前輩研究員的指導而取得的巨大成長。現(xiàn)如今,胡瀚也感受到了一種傳承的使命感,希望將這兩個特別的地方傳承下去,以期為公司和整個社會培養(yǎng)更多的人才。
3 一個好的科研想法的臺前與幕后
胡瀚所在的組里有幾位年輕的研究員,還有 10 位左右博士生,這些博士生主要是微軟和高校聯(lián)合培養(yǎng)項目的博士生。
很多工作看起來是靈感迸發(fā)、幸運之至,但背后可能是整個團隊多次郁塞地嘗試。
Swin Transformer 的提出就有一段這樣的經(jīng)歷。在兩三年前,胡瀚和團隊做過一個關于局部關系網(wǎng)絡(Local Relation Networks)的研究,這一工作被 ICCV 2019 所接收。在做這個工作時,他們就嘗試了第一個完全基于自注意力而無需卷積的骨干網(wǎng)絡,但基于滑動窗口的自注意單元對GPU顯存訪問不太友好,使得計算速度較慢不太實用。正是因為有這樣的經(jīng)驗,在設計Swin Transformer時,他們直接跳過了滑動窗口,選擇了不重疊窗口。而移位的思想則是受到了胡瀚四年前的另一個未發(fā)表的工作的啟發(fā)。
不重疊窗口以及移位的設計也是 Swin Transformer 能從眾多視覺 Transformer 中脫穎而出的亮點所在。 利用移動窗口對分層 Transformer 的表征進行計算,并通過將自注意力計算限制在不重疊的局部串口,同時在不同的層中允許跨窗口連接。這種分層結(jié)構(gòu)可以靈活地在不同尺度上建模,并使得計算復雜度和圖像大小線性相關。下圖為在 Swin Transformer 架構(gòu)中利用移位窗口計算自注意力的示意圖:
與開放問題對話一直是胡瀚在做研究上的一大追求。“以前的Transformer只能做圖像分類,但它能不能解決更多的視覺問題?”“當Transformer能用于更多視覺問題的時候,到底未來應該選CNN還是Transformer?”為了回答這些問題,團隊花了很大精力把Swin Transformer的性能調(diào)優(yōu),使得它在一些重要的評測集上面能夠超出CNN三個點。這時他們發(fā)現(xiàn),在嘗試尋找第一個開放問題的答案時,很自然地、順利地就找到了接下來需要解答的重要問題。
能回答一些重要問題的工作總是很難得,胡瀚覺得碰到默契的團隊是非常幸運的。在研究中,團隊每一個人都能發(fā)揮自己的特長。論文投稿前最后一個月,他們每個人都在想怎樣把方法和結(jié)果做到極致,調(diào)用自己 120% 的精力。
在大家共同的努力下,Swin Transformer 實現(xiàn)了頗具競爭力的性能表現(xiàn),在目標檢測、實例分割和語義分割等幾個重要的視覺任務中顯著超越了此前最好的基于卷積神經(jīng)網(wǎng)絡的方法。10月13日,兩年一度的計算機視覺頂會 ICCV 2021 優(yōu)秀論文評選結(jié)果揭曉,Swin Transformer 收獲了一個在計算機視覺領域非常有分量的認可——摘得馬爾獎(最佳論文獎)。
在獲得馬爾獎后,胡瀚和團隊瞄準了下一個重要的問題:視覺領域能如NLP領域一樣開啟大模型的時代嗎?如何才能有效地穩(wěn)定訓練視覺大模型? 不久前他們嘗試回答這些問題,并給出了肯定的答案,發(fā)現(xiàn)視覺大模型也能給各種視覺問題帶來廣泛且顯著的提升。
SwinT 證明 Transformer 在幾種典型的視覺任務均能顯著超越 CNN,胡瀚對 Transformer 的未來發(fā)展是非常的看好的,他認為不論是生態(tài)層面還是技術層面,Transformer都將很快全面取代CNN。
Transformer具有更強的建模能力、和卷積形成互補、對大模型和大數(shù)據(jù)有更好的擴展性、且能夠更好地連接視覺和語言。
他相信視覺 Transformer 將開啟計算機視覺建模的新時代。事實上,Transformer 自提出以來,在計算機視覺領域也一直存在不同的聲音,有很多人認為 CNN 在改進訓練方式后性能將可以和 Transformer 比肩,以及 CNN 在移動端性能上仍是更優(yōu)的選擇等等。對于學術觀點差異,胡瀚一直以一種擁抱和歡迎的態(tài)度面對。「這是個好事情,學術界沒有多樣性就很難有創(chuàng)新。」他很樂意聽到不同的思考,幫助發(fā)現(xiàn)自己觀點的好壞,在辯論和碰撞中才能得到更正確的認知。
在胡瀚看來,做研究的目標不僅僅是去發(fā)明新的更好的工程實踐,更重要的目標是探索一個領域更正確的認知,以及指引更正確的前進方向。他在自己的科研中踐行著這樣的目標,他認為這可能是他和團隊能幸運取得這些研究成果最重要的原因之一。當然他也坦承這并不容易,需要投入大量時間和經(jīng)歷,對此,胡瀚提到,做研究很多時候是一種自我驅(qū)動,是追求自己內(nèi)心深處的一種使命感,因此常常會將很多本應給家人的時間也投入到了研究中,想到這一點,他特別感謝家人的理解和支持。
“志之所趨,無遠弗屆,窮山距海,不能限也。”赤子之心至誠,希望趕路人乘風破浪至遠!
- END -
推薦大家關注極市平臺公眾號,每天都會更新最新的計算機視覺論文解讀、綜述盤點、調(diào)參攻略、面試經(jīng)驗等干貨~
總結(jié)
以上是生活随笔為你收集整理的专访 Swin Transformer 作者胡瀚:面向计算机视觉中的「开放问题」 原创的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021年中国计算机视觉人才调研开启啦,
- 下一篇: CUDA 编程上手指南:CUDA C 编