(转)20个令人惊叹的深度学习应用
寫文章
20個(gè)令人驚嘆的深度學(xué)習(xí)應(yīng)用(歡迎補(bǔ)充):Demo+Paper+Code
量子位
1 個(gè)月前
唐旭 發(fā)自 RUC
量子位 報(bào)道 | 公眾號(hào) QbitAI
從計(jì)算機(jī)視覺到自然語言處理,在過去的幾年里,深度學(xué)習(xí)技術(shù)被應(yīng)用到了數(shù)以百計(jì)的實(shí)際問題中。諸多案例也已經(jīng)證明,深度學(xué)習(xí)能讓工作比之前做得更好。
今天,量子位為大家收集了20個(gè)深度學(xué)習(xí)方面的優(yōu)秀應(yīng)用——當(dāng)然,這份榜單可能并不詳盡,但相信看過之后,你對(duì)這項(xiàng)技術(shù)在某些領(lǐng)域的潛力會(huì)有更清晰的認(rèn)識(shí)。
針對(duì)每個(gè)應(yīng)用,我們還盡量收集了相關(guān)的Demo、Paper和Code等信息。
1、Face2Face:扮演特朗普
斯坦福大學(xué)的一個(gè)小組做了一款名為Face2Face的應(yīng)用,這套系統(tǒng)能夠利用人臉捕捉,讓你在視頻里實(shí)時(shí)扮演另一個(gè)人,簡單來講,就是可以把你的面部表情實(shí)時(shí)移植到視頻里正在發(fā)表演講的美國總統(tǒng)身上。
同樣的原理也可以用于對(duì)視頻里場(chǎng)景的3D重建、電影特效也可以這么干。
這個(gè)應(yīng)用的實(shí)際效果是這樣的:
Paper:
http://www.graphics.stanford.edu/~niessner/papers/2016/1facetoface/thies2016face.pdf
2、Let there be color!:給黑白照片/視頻自動(dòng)上色
左圖是拍攝于1937年的一幅礦工的照片,右圖是用Let there be color!重新自動(dòng)上色后的效果。
上圖是拍攝于1909年的一張保齡球館的照片,下圖是用Let there be color!重新上色后的效果。
實(shí)際上,這是運(yùn)用深度學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)自然存在于照片中的某些模式——比如,天通常是藍(lán)的,云是白的或者灰的,草是綠的。通過這類規(guī)則,Let there be color!不需要人類的介入就能對(duì)照片進(jìn)行重新上色。雖然有時(shí)它也會(huì)犯錯(cuò),但這種錯(cuò)誤很難被發(fā)現(xiàn)。
同樣地,Let there be color!也可以把黑白視頻變成彩色的。
Demo:
Automatic Image Colorization?白黒畫像の自動(dòng)色付け
Paper:
http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf
Code:
satoshiiizuka/siggraph2016_colorization
3、Pixel Recursive Super Resolution:告別馬賽克
我為什么不看美劇CSI?原因很簡單:太假了。里面的主角動(dòng)不動(dòng)就把一段視頻拉近、放大——然后他們就得到了一幅分辨率遠(yuǎn)超真實(shí)情況的影像。這根本不現(xiàn)實(shí)……
直到深度學(xué)習(xí)出現(xiàn)。今年早些時(shí)候,谷歌大腦的研究者們訓(xùn)練了一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),他們讓后者根據(jù)一些分辨率極低的人臉圖像來預(yù)測(cè)這些面孔真實(shí)的樣子。如下圖:
最左邊是輸入的8×8像素的原始影像,最右一列是被拍攝的人臉在照片中的真實(shí)效果,中間則是電腦的猜測(cè)。
可以看到,雖然并不完美,但電腦預(yù)估出的結(jié)果已經(jīng)與實(shí)際情況十分接近。Google的研究者將這種方法命名為 Pixel Recursive Super Resolution(像素遞歸超分辨率),用這種方法能顯著提升圖像的質(zhì)量。
Paper:
[1702.00783] Pixel Recursive Super Resolution
4、實(shí)時(shí)多人動(dòng)作預(yù)估
深度學(xué)習(xí)網(wǎng)絡(luò)已經(jīng)能在預(yù)估動(dòng)作方面幫動(dòng)畫師很大的忙,如今,我們甚至能做到實(shí)時(shí)預(yù)估。康奈爾大學(xué)Zhe Cao等人教會(huì)了一個(gè)神經(jīng)網(wǎng)絡(luò)估算人類骨架位置的變化。
在如下的gif中,你可以看到一群人在街頭跳舞,而通過這種神經(jīng)網(wǎng)絡(luò),我們能知道他們?cè)谀摹⑷绾巫鰟?dòng)作。
深度學(xué)習(xí)實(shí)時(shí)預(yù)估多人動(dòng)作_騰訊視頻
視頻
Paper:
https://arxiv.org/abs/1611.08050
5、Neural Talk:描述照片
用電腦來對(duì)照片進(jìn)行自動(dòng)分類已經(jīng)很常見了。比如,F(xiàn)acebook能在分享的照片里標(biāo)記出你的好友,Google可以為你的照片打上標(biāo)簽以便更有效率地進(jìn)行搜索。
而如今,深度學(xué)習(xí)已經(jīng)可以對(duì)照片中的各種元素進(jìn)行描述。在Andrej Karpathy和李飛飛所做的一項(xiàng)工作中,他們訓(xùn)練了一個(gè)能對(duì)照片中不同區(qū)域內(nèi)元素進(jìn)行識(shí)別,并用一句話來描述照片的深度學(xué)習(xí)系統(tǒng)。
Demo:
Image Annotation Viewer
Paper:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.pdf
6、DeepWarp:你瞅啥?再瞅把你做成表情包!
這個(gè)應(yīng)用有點(diǎn)惡搞的意思。現(xiàn)在,不管你手里拿到了誰的照片,用Ganin等人開發(fā)的這個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)過一下,你就可以讓他的眼睛動(dòng)起來:你可以讓他上下看、左右看,甚至繞著圈看……好吧,除了生產(chǎn)表情包,其實(shí)也不知道它還能干什么用……
這是一些例子,里面有伊麗莎白女王、奧巴馬、莎拉波娃……等等:
DeepWarp Project Page
Demo:
DeepWarp Demo Page
Paper:
http://sites.skoltech.ru/compvision/projects/deepwarp/files/deepwarp_eccv2016.pdf
7、生成新照片
來自懷俄明州立大學(xué)的Anh Nguyen以及其他幾位研究者開發(fā)了一套能用迭代的方式從已有照片中合成全新照片的深度學(xué)習(xí)網(wǎng)絡(luò)。以下是一些電腦合成的樣片,結(jié)果令人驚艷:
Paper:
https://arxiv.org/pdf/1612.00005.pdf
8、用卷積神經(jīng)網(wǎng)絡(luò)來拯救鯨魚
眾所周知,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別分類領(lǐng)域有著非常好的前景。利用深度學(xué)習(xí),我們可以將抓拍到的珍稀動(dòng)物(比如鯨魚)照片進(jìn)行分類,從而更好地估算某種動(dòng)物的存活數(shù)量。
其他的例子包括浮游生物、植物等等。
分類浮游生物的介紹:
Classifying plankton with deep neural networks
Code:
benanne/kaggle-ndsb
9、Pix2Pix:靈魂畫師
這個(gè)點(diǎn)子與之前提到的Let there be color!有點(diǎn)類似,不過要更有創(chuàng)造力一點(diǎn)。你可以往電腦中輸入一幅簡筆畫,甚至一些色塊,然后讓電腦發(fā)揮自己的創(chuàng)造力輸出新的圖片。類似地,你也可以把衣服航拍照片變成一幅地圖,將白天的場(chǎng)景變成夜晚。
前段時(shí)間特別火的信手畫貓(傳送門:人工智能拯救渣畫手,我分分鐘畫只貓給你看),也是基于這個(gè)技術(shù)。
Paper:
https://arxiv.org/pdf/1611.07004v1.pdf
Code:
phillipi/pix2pix
10、Reading text in the Wild:用圖片找文字
牛津視覺幾何小組運(yùn)用深度學(xué)習(xí)技術(shù)開發(fā)了一項(xiàng)應(yīng)用,它可以讀出視頻中的文字,輸入文字,就可以直接搜出圖像中包含這些文字的BBC新聞視頻。比如,這是對(duì)“London”的一部分搜索結(jié)果:
Demo:
Visual Geometry Group Home Page
Paper:
[1412.1842] Reading Text in the Wild with Convolutional Neural Networks
11、Google Sunroof:看你家房頂能收到多少太陽能
Google Sunroof首先會(huì)根據(jù)Google地球的航拍地圖為你家的屋頂創(chuàng)建一個(gè)3D模型,然后再用深度學(xué)習(xí)將屋頂和周圍的數(shù)目區(qū)分開,接著根據(jù)太陽運(yùn)行軌跡以及天氣狀況,就可以估算出安裝了太陽能電池板的房頂能收集到多少太陽能。
項(xiàng)目首頁:
https://www.google.com/get/sunroof#p=0
12、AI制霸打磚塊
Google的Deepmind團(tuán)隊(duì)用深度強(qiáng)化技術(shù)教會(huì)了AI玩《打磚塊》(Breakout,基本大家都玩過,具體是什么請(qǐng)看下圖)。
測(cè)試過程中,電腦并沒有依據(jù)任何游戲規(guī)則被進(jìn)行特殊的編成,他們只是將鍵盤的控制權(quán)交給AI,然后對(duì)它進(jìn)行不斷地訓(xùn)練。起初,AI玩得十分糟糕;但經(jīng)過兩個(gè)小時(shí)的訓(xùn)練之后,畫風(fēng)就變成了這個(gè)樣子的:
Paper:
https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
Code:
https://sites.google.com/a/deepmind.com/dqn/
13、制霸全場(chǎng)~
打磚塊還不夠?深度學(xué)習(xí)技術(shù)還被用來在更多游戲領(lǐng)域訓(xùn)練AI,包括:《小蜜蜂》、《毀滅公爵》、《乒乓》等幾十種游戲。在大多數(shù)的游戲里,深度學(xué)習(xí)網(wǎng)絡(luò)已經(jīng)玩的比有經(jīng)驗(yàn)的玩家更好,同樣所有的玩法都是AI自己摸索的。
Paper:
http://www.davidqiu.com:8888/research/nature14236.pdf
14、LipNet:讓AI讀唇語
AI識(shí)別唇語_騰訊視頻
視頻
來自牛津大學(xué)和Deepmind的科學(xué)家共同完成了這一項(xiàng)目。LipNet在讀唇的準(zhǔn)確率方面達(dá)到了驚人93%,遠(yuǎn)超人類讀唇者52%的平均水平。
Paper:
https://arxiv.org/pdf/1611.01599.pdf
Code:
bshillingford/LipNet
15、真·靈魂畫師
如今,運(yùn)用深度學(xué)習(xí)技術(shù),可以讓AI對(duì)某一幅畫的風(fēng)格、色彩、明暗等元素進(jìn)行學(xué)習(xí),然后將這幅畫上的風(fēng)格移植到另一幅上,而且效果非常不錯(cuò)。
這么說可能不夠直觀,來看幾個(gè)例子:
下面從左到右,依次是畢加索、梵·高和莫奈風(fēng)格的蒙娜麗莎。
而這是某位老哥用AI創(chuàng)作的谷歌地圖風(fēng)格的蒙娜麗莎……
Demo:
https://deepart.io/
Paper:
http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf
16、AI寫字
現(xiàn)在電腦不光能用來打字,還能用來寫字了:多倫多大學(xué)的Alex Graves教會(huì)了電腦用多種不同的風(fēng)格來書寫。
Demo:
http://www.cs.toronto.edu/~graves/handwriting.html
Paper:
[1308.0850] Generating Sequences With Recurrent Neural Networks
17、深度學(xué)習(xí)預(yù)測(cè)城市熱人口和選舉結(jié)果
Gebru等人收集了5000萬張Google街景照片,然后用深度學(xué)習(xí)技術(shù)加以挖掘看看能發(fā)現(xiàn)什么。結(jié)果,深度學(xué)習(xí)不僅識(shí)別出了2200萬輛汽車的材質(zhì)、車型、年份等,還從中發(fā)現(xiàn)了一些關(guān)聯(lián),比如可以通過對(duì)車型的識(shí)別來分析某片區(qū)域的人口狀況。
更有趣的是,AI發(fā)現(xiàn),如果在一段15分鐘長的駕駛路程上遇到的轎車比皮卡更多,那么這個(gè)城市在下屆的總統(tǒng)選舉中有88%的幾率將選票投給民主黨;否則,則有82%的幾率投給共和黨。
Paper:
https://arxiv.org/pdf/1702.06683.pdf
18、Deep Dreaming:AI也會(huì)白日做夢(mèng)
Deep Dream_騰訊視頻
視頻
2015年,Google的研究者找到了一種用深度學(xué)習(xí)來增強(qiáng)圖像特征的方法,隨后,他們就開發(fā)了Deep Dreaming——它能夠在圖片中生成一些不可思議的幻象。因?yàn)橛行┖蛪?mèng)境十分相似,因此取名Deep Dreaming。具體生成什么樣的幻想與這個(gè)深度學(xué)習(xí)系統(tǒng)最近被暴露在什么樣的環(huán)境下有關(guān),有時(shí)它甚至能生成嚇人的噩夢(mèng)。
項(xiàng)目首頁:
https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html
影集:
Google Deep Dream: 19 of the best images from mesmerising photo software
Code:
google/deepdream
19、反復(fù)攻破和修補(bǔ)自己的防火墻
Google大腦的研究團(tuán)隊(duì)創(chuàng)建了兩個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)用于安全工具開發(fā),他們讓其中一個(gè)不斷創(chuàng)造自己的加密算法,然后讓另一個(gè)網(wǎng)絡(luò)去盡力攻破它。在兩套系統(tǒng)的反復(fù)纏斗后,第一個(gè)系統(tǒng)已經(jīng)能生成非常優(yōu)秀的安全加密算法。
然而,第二套算法也總是表現(xiàn)得比它更好……
Paper:
https://arxiv.org/pdf/1610.06918v1.pdf
20、預(yù)測(cè)地震
哈佛的科學(xué)家們運(yùn)用深度學(xué)習(xí)技術(shù)讓電腦學(xué)會(huì)“粘彈性計(jì)算”——一種被用于預(yù)測(cè)地震的計(jì)算方法。結(jié)果,計(jì)算的效果在AI上大大被增強(qiáng)了。
然而,計(jì)算機(jī)同時(shí)將計(jì)算速度提高了50000%。在地震中,時(shí)間就是生命。因此,目前用AI來預(yù)測(cè)地震還為時(shí)尚早。
Paper:
https://arxiv.org/pdf/1701.08884v1.pdf
好啦,先介紹到這里。如果漏掉了“好厲害!”的深度學(xué)習(xí)應(yīng)用,歡迎留言補(bǔ)充~
One More Thing…
我們的公眾號(hào)也叫量子位(QbitAI),關(guān)注并回復(fù)“今天”,看更多AI領(lǐng)域大新聞。
另外,歡迎加量子位小助手的微信:qbitbot,如果你研究或者從事AI領(lǐng)域,小助手會(huì)把你帶入量子位的交流群里。
深度學(xué)習(xí)(Deep Learning)計(jì)算機(jī)視覺人工智能
14 條評(píng)論
寫下你的評(píng)論
G Zhan
感覺最好能標(biāo)個(gè)日期吧, 兩三年前的和最近的混在一起
4贊
1 個(gè)月前
咖喱Gay Gay
好厲害
1贊
1 個(gè)月前
量子位(作者)回復(fù)G Zhan
好的,一會(huì)兒就標(biāo),謝謝提醒
1 個(gè)月前
一只迷失的學(xué)霸
今天
1 個(gè)月前
甘禮良
馬賽克還原這個(gè)……看了下原理,其實(shí)呢,還原人臉還是有些難,需要猜的特征太多,倒是……等等我先去問問映畫倫理委員會(huì)如何看待這件事。。。
4贊
1 個(gè)月前
歸兮
還原馬賽克有大用啊
1 個(gè)月前
量子位(作者)回復(fù)一只迷失的學(xué)霸
這里沒有自動(dòng)回復(fù)呀,請(qǐng)去公眾號(hào)“QbitAI”回
1 個(gè)月前
拼音佳佳
第5的那個(gè),很厲害啊...
1 個(gè)月前
shine peng
求馬賽克還原的代碼。。。
1 個(gè)月前
量子位(作者)回復(fù)shine peng
這兒有個(gè)TF實(shí)現(xiàn):https://github.com/nilboy/pixel-recursive-super-resolution
1贊
1 個(gè)月前
總結(jié)
以上是生活随笔為你收集整理的(转)20个令人惊叹的深度学习应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第四次黄鹤楼之老照片
- 下一篇: 咪咕音乐彩铃