2015伦敦深度学习峰会笔记:来自DeepMind、Clarifai等大神的分享
2015倫敦深度學(xué)習(xí)峰會筆記:來自DeepMind、Clarifai等大神的分享
發(fā)表于 2015-10-20 06:35| 940次閱讀| 來源 Medium| 3 條評論| 作者 Alessandro Vitale
深度學(xué)習(xí) 自然語言處理 計算機(jī)視覺 機(jī)器學(xué)習(xí) 語音識別 摘要:在倫敦舉行的第三屆深度學(xué)習(xí)峰會由RE.WORK主辦,匯集了從工業(yè)領(lǐng)域到學(xué)術(shù)領(lǐng)域不同背景的專業(yè)人士,本文是該峰會第一天的筆記。包括Koray Kavukcuoglu、Sander Dieleman等知名深度學(xué)習(xí)專家分享了自己的經(jīng)驗。上周,我有機(jī)會參加在倫敦舉行的第三屆深度學(xué)習(xí)峰會,上兩屆分別在舊金山和波士頓舉行。
深度學(xué)習(xí)峰會由 RE.WORK主辦,匯集了從工業(yè)領(lǐng)域到學(xué)術(shù)領(lǐng)域不同背景的專業(yè)人士,在快節(jié)奏的兩天里,安排了許多時長為20分鐘的演講以及供人們交流討論的茶歇。
這里是我第一天的筆記,如果您發(fā)現(xiàn)我有說錯的地方,請告知我!
所有的演講都已錄成視頻,一旦視頻發(fā)布,我將會在此篇博客中更新鏈接。
英偉達(dá)的 Alison?Lowndes致歡迎詞之后,演講由Alex?Graves開始,他的講話是《神經(jīng)圖靈機(jī)》(NTMs, 論文及代碼)。Alex是遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)最重要的研究者之一,同時他是谷歌DeepMind的成員。神經(jīng)圖靈機(jī)背后的思想是學(xué)習(xí)編程而不是模式。其中的困難之一是編碼程序操作,因此它們是可微的,使得NTMs可以通過梯度下降方法來訓(xùn)練。他們已經(jīng)能夠訓(xùn)練NTMs讓它們執(zhí)行基本的算法,如復(fù)制,循環(huán)和排序。他們現(xiàn)在正在尋找NP問題的解決方案,如旅行商問題,初步結(jié)果表明效果不錯。
神經(jīng)圖靈機(jī)學(xué)習(xí)排序
Koray?Kavukcuoglu,同樣來自于谷歌DeepMind,他的演講是《端到端的Agents學(xué)習(xí)》。Koray也是Torch框架的創(chuàng)建者之一,Torch被大量用于谷歌DeepMind和Facebook?AI?Research之中。他演講的主題是通用性AI,同一個系統(tǒng)可以在大量任務(wù)中工作并且從原始輸入中自動學(xué)習(xí)。他提出了著名的深度Q網(wǎng)絡(luò)(DQN)算法,它學(xué)會了玩Atari?2600款游戲并且比人類玩家玩的還要出色,最后出現(xiàn)在了《自然》雜志的封面上( 論文)。DQNs是由深度學(xué)習(xí)(端到端訓(xùn)練,從原始數(shù)據(jù)到行動值)和強(qiáng)化學(xué)習(xí)的組合,后者在某種程度上是一個agent(例如玩家),通過在環(huán)境(例如游戲)中行動進(jìn)行學(xué)習(xí),并且最大化獎勵(例如得分)。Koray然后展示了Gorila( 論文),它是一種分布式DQNs訓(xùn)練架構(gòu),許多actors通過并行的方式采取行動,在49款游戲中,有41款游戲得到的結(jié)果比使用原始本地架構(gòu)要好。更多關(guān)于Gorila的資料可以在2015?ICLR( 幻燈片 視頻1 視頻2)上的David?Silver演講中找到。DQNs還未解決的問題之一是長期策略(例如,找到在之后游戲之中打開門的一把鑰匙)。他們同時還在演講游戲之間的遷移學(xué)習(xí)。
Gorila,當(dāng)你需要大規(guī)模的強(qiáng)化學(xué)習(xí)時可以使用
之后演講風(fēng)格改變,Ben?Medlock, Swiftkey的聯(lián)合創(chuàng)始人和CTO,與The?Next?Web的Martin?Bryan之間開始了爐邊談話。Swiftkey是一款智能鍵盤,它代替了智能手機(jī)的內(nèi)置鍵盤。目前算法主要集中在輸入詞改正和聯(lián)想,長期目標(biāo)是預(yù)測用戶意圖而不是用戶想要輸入的文字。搭載深度學(xué)習(xí)的第一個版本幾乎準(zhǔn)備就緒了。DL可以幫助分析艱難的語言,比如漢語和芬蘭語,并且與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)處理相比,它可以利用更多的上下文信息(位置,應(yīng)用程序,時間等)。DL在更長期分析中同樣有用,使用RNNs和之前語句可以得到更好的預(yù)測。
接下來是英偉達(dá)的Alison?Lowndes的演講,她演講的內(nèi)容是《深度學(xué)習(xí)對現(xiàn)代生活的影響》。她大體概述了深度學(xué)習(xí),包括神經(jīng)網(wǎng)絡(luò)復(fù)興背后的三個驅(qū)動力(更多的數(shù)據(jù),更好的模型,強(qiáng)大的GPUs)。Alison給出了最近一些不錯的例子,比如Giraffe( 論文和代碼),它是一款國際象棋引擎,通過與自己對弈,在僅僅72個小時之內(nèi)就達(dá)到了國際大師的水準(zhǔn)。
Giraffe在72小時內(nèi)成為國際象棋專業(yè)玩家
之后根特大學(xué)博士、目前就職于谷歌DeepMind的Sander?Dieleman發(fā)表了演講,演講主題是關(guān)于他與另外幾位根特博士生如何在浮游生物分類中贏得了Kaggle競賽。他們的模型使用了一個基于OxfordNet( 論文)的CNN,這個CNN贏得了2014年ImageNet挑戰(zhàn)賽。那次挑戰(zhàn)的一個困難點是僅僅只有30000個樣本,但分類有121個之多,所以他們做了極大的數(shù)據(jù)擴(kuò)展以避免過擬合(旋轉(zhuǎn),轉(zhuǎn)換,改變比例,翻轉(zhuǎn)等)。Sanders寫了一篇關(guān)于這個解決方案 很棒的博客。
擴(kuò)展浮游生物數(shù)據(jù)集的一種良好方式
Jeffrey?de?Fauw,又一位根特大學(xué)的博士,也是一位數(shù)據(jù)科學(xué)家,展示了Kaggle糖尿病性視網(wǎng)膜病變比賽的解決方案。本次比賽的目標(biāo)是在眼部圖像中確定糖尿病性視網(wǎng)膜病變(糖尿病性視網(wǎng)膜病變是發(fā)達(dá)國家中工作人群致盲的首要原因)的跡象。此外,只提供小數(shù)據(jù)集(35000條標(biāo)記了左和右眼的數(shù)據(jù)),這些數(shù)據(jù)是偏態(tài)分布的,而且還有噪聲。他分享了此次比賽的經(jīng)驗和教訓(xùn):
- 先用小型網(wǎng)絡(luò),能夠更快迭代;
- 不要用太多的過濾器;
- 對較小類進(jìn)行細(xì)分采樣和擴(kuò)張數(shù)據(jù)(例如亮度等)。
Jeffrey針對此解決方案同樣寫了篇 不錯的博客。
真實數(shù)據(jù),不平衡分類和相機(jī)拍攝噪聲
Andrew?Simpson,薩里大學(xué)研究員,演講了關(guān)于永恒學(xué)習(xí)機(jī)器(PLMs)的話題。PLMs是一種新型的深度神經(jīng)網(wǎng)絡(luò),能夠快速學(xué)習(xí)。Andrew說,目前的DNNs有一些缺陷,特別是在使用它們前需要進(jìn)行訓(xùn)練,而且永遠(yuǎn)保持同一個狀態(tài),使用LSTM的RNNs也有同樣的問題,因為它們可以使用內(nèi)存進(jìn)行預(yù)測但是不能進(jìn)一步訓(xùn)練。PLMs由兩類DNNs組成,一類用來分類圖像(存儲DNN),另一類用來生成新圖像(召回DNN)。它們使用永恒隨機(jī)梯度下降,在每次迭代的時候,隨機(jī)選擇一個分類,召回DNN用這些輸入來合成各個訓(xùn)練圖像。經(jīng)過召回訓(xùn)練的圖像同隨機(jī)選擇的類一起來訓(xùn)練網(wǎng)絡(luò)得到反向傳播SGD中的一個步驟。通過“新經(jīng)驗”SGD步驟,新的類可以迅速添加,而不需要從頭開始訓(xùn)練新的DNN。更多資料可以在這些論文中找到 論文1 論文2。
PSGD訓(xùn)練2種組合起來的深度神經(jīng)網(wǎng)絡(luò)
下一位是Matthew?Zeiler,Clarifai的創(chuàng)始人及CEO,講述了他們的API可以在10000種概念(一個概念既可以是一個對象,一個形容詞或者一個動作)上分類圖像。該API同樣可以用于視頻處理。他給出了一個令人印象深刻的視頻處理演示,各種概念在視頻時間軸上高亮顯示,使視頻易于搜索;它可以讓任何人編輯視頻的能力同樣引人注目!他們非常注重性能(三五分鐘的視頻可以在6秒鐘內(nèi)處理完),充分利用AWS?GPUs和專有工具包優(yōu)化了速度和內(nèi)存。目前它們支持21種語言概念,并對本地化做出了顯著努力。他們將進(jìn)一步涉足醫(yī)療保健領(lǐng)域,與現(xiàn)場傳感器一起支持醫(yī)學(xué)分析(例如耳朵,嘴巴和鼻子的圖片)。
Matthew?Zeiler展示漢語視頻注釋(圖片由Courtney?Corley提供)
接下來是Max?Wellington,阿姆斯特丹大學(xué)計算機(jī)科學(xué)教授, Scyfer?BV創(chuàng)始人,深度學(xué)習(xí)發(fā)起人,專注于醫(yī)療保健。他首先介紹了將機(jī)器學(xué)習(xí)運(yùn)用于醫(yī)療保健領(lǐng)域中的困難,也就是維度災(zāi)難(對于個人有TB級的數(shù)據(jù),但是對于患者則很少)和隱私災(zāi)難(數(shù)據(jù)被封鎖在各個醫(yī)院,缺少整體觀察)。他提出了一些可行的方案:
- 生成擴(kuò)展數(shù)據(jù)集模型;
- 充分利用數(shù)據(jù)的對稱性;
- 去除已知偏差(例如一些醫(yī)院可能在不同階段治療疾病);
- 使用貝葉斯方法減少過度擬合。
他進(jìn)一步闡述,展示了他最近一些工作:
- 貝葉斯黑科技( 論文, Hugo?Larochelle備注),其目標(biāo)是學(xué)習(xí)一個神經(jīng)網(wǎng)絡(luò),類似于集成神經(jīng)網(wǎng)絡(luò)降低權(quán)重存儲和概率校準(zhǔn)輸出;
- 貝葉斯變分法丟失率( 論文, Hugo?Larochelle備注),使用新的算法來學(xué)習(xí)丟失率,有助于避免過擬合;
- 一篇尚未發(fā)布的關(guān)于區(qū)域不變性的論文(深度生成模型不變性表示,Louizos等人,2015),NN可以創(chuàng)建輸入數(shù)據(jù)的潛在表示信息,去除已選擇的信息(例如照片光照信息),有助于去除偏差。
去除光照信息后圖片能夠很好地被聚類
上午的最后一個演講,主講人Lior?Wolf,特拉維夫大學(xué)的教員,演講的主題是《使用深度學(xué)習(xí)和Fisher向量進(jìn)行圖片標(biāo)注》( 論文PDF)。他首先表明,他以計算機(jī)視覺研究員的身份涉足自然語言處理領(lǐng)域,這又是一個DL如何在各個領(lǐng)域越來越多的佐證。Lior然后談到了3個任務(wù):
- 圖像標(biāo)注(從給定列表中為一張圖片分配一個描述);
- 圖像搜索(給定描述搜索圖像);
- 合成描述(為新的圖像生成新的描述)。
為了實現(xiàn)圖像標(biāo)注和搜索,他們最開始用CNNs將圖片轉(zhuǎn)換成向量,用Word2Vec將詞語轉(zhuǎn)換成向量。大部分研究工作都集中于如何將詞語向量結(jié)合到語句向量之中,由此產(chǎn)生了基于Fisher向量的模型。一旦他們得到了語句向量,他們使用典型相關(guān)分析(CCA)將圖片表示和語句表示投射到同一空間里,使圖像和句子可以匹配,找到最近鄰的部分。為了合成描述,CNN->CCA管道中結(jié)合使用RNNs和輸入數(shù)據(jù)。尚未解決的問題之一是,系統(tǒng)決定什么來描述,仍然需要繼續(xù)研究,圖像的哪一部分需要被描述。
自動生成的一個不錯的描述
午餐之后,下午的演講由兩場語義分割開始,這意味著識別和描述圖片中的物體。在道路場景解析(自動駕駛汽車),機(jī)器人抓取物體和醫(yī)療保健(分割腫瘤,齲齒等)等中是很有用的任務(wù)。
Sven?Behnke,波恩大學(xué)計算機(jī)科學(xué)系主管,講述了兩個算法,神經(jīng)抽象金字塔和語義RGB-D感知器。《神經(jīng)抽象金字塔(NAP)》是他的歷史著作(約98年, 論文)。NAP是一個神經(jīng)網(wǎng)絡(luò),其包括橫向連接,與人類視覺系統(tǒng)工作方式十分接近。它成功地應(yīng)用于圖像去噪和人臉定位。他最近的工作集中在語義RGB-D感知器方面,它是DNNs,輸入數(shù)據(jù)來自于類似體感傳感器,包括距離信息。使用這些距離信息,可以計算出每個像素的高度并相應(yīng)地縮放輸入,由此得到更好得分割和語義解釋( 論文PDF)。此外,他們還在原始對象上使用深度遮罩,并且將色彩畫的深度圖像作為CNN的輸入,由此取得了良好的效果( 論文PDF)。
使用距離信息得到更好的語義分割
Bernardino?Romera?Paredes,牛津大學(xué)博士后研究助理,接著分享了語義分割的一種新算法( 論文),它采用了全卷積網(wǎng)絡(luò)再加上一個條件隨機(jī)域作為遞歸神經(jīng)網(wǎng)絡(luò),端到端地訓(xùn)練。他們?nèi)〉昧俗詈玫臏?zhǔn)確性,但目前算法在實時使用上還不夠快。他們發(fā)布了一個很棒的在線演示: http://crfasrnn.torr.vision
貓是DL從業(yè)人員常用的圖像
接下來是Miriam?Redi,雅虎實驗室的研究科學(xué)家,她的演講內(nèi)容是《機(jī)器視覺的主觀眼》。她的研究目標(biāo)是在圖像,特征中找到隱藏的元素,比如情感,社會,美學(xué),創(chuàng)意和文化。她展示了四個不同的項目:
- 計算機(jī)肖像美學(xué)( 論文)。使用畫面特征和攝影師注解,他們能夠預(yù)測肖像的美感,發(fā)現(xiàn)圖像的特征,比如對比度和清晰度與感官美有高相關(guān)性,而性別,年齡和種族與感官美無相關(guān)性;
- 幫助發(fā)現(xiàn)美但不流行的圖片( 論文)。目標(biāo)是在Flicker上發(fā)現(xiàn)美的但是被忽視的內(nèi)容。他們首先在諸多資源中創(chuàng)建大型美感注解的數(shù)據(jù)集,然后創(chuàng)建能夠找到新的美麗圖畫的模型;
- 跨文化情感預(yù)測( 論文)。他們創(chuàng)建了12種語言的情感標(biāo)注數(shù)據(jù)集。有趣的是,他們試圖使用遷移學(xué)習(xí),最后發(fā)現(xiàn)在拉丁語(使用法語標(biāo)注訓(xùn)練出的分類器能夠很好的預(yù)測拉丁語情緒)中遷移學(xué)習(xí)表現(xiàn)良好,而從拉丁語數(shù)據(jù)集中學(xué)習(xí)到的模型在預(yù)測漢語情緒上效果不佳;
- 使用Vine視頻預(yù)測創(chuàng)造性( 論文)。從諸多注解的視頻和視頻特征中,他們發(fā)現(xiàn),當(dāng)兼顧美學(xué)特征和新奇特征時,他們可以對創(chuàng)造性的定義進(jìn)行建模。
總體來看,盡管大部分工作都是手工對特征進(jìn)行編碼,并且?guī)缀鯖]有使用深度學(xué)習(xí),但是還是有許多有趣的問題有待探索,而且結(jié)果還非常令人滿意。
雅虎實驗室項目對創(chuàng)造性的定義
Cees?Snoek,QUVA總監(jiān),他演講的內(nèi)容是《視頻理解:今天和未來的期待》。Cees講述了視頻標(biāo)記,說道,高通公司正在建設(shè)Zeroth平臺,它可以使預(yù)訓(xùn)練的深度學(xué)習(xí)模型在您的移動設(shè)備上進(jìn)行物體識別(如果搭載了高通Snapdragon芯片)。在演講的第二部分,他提出了視頻動作識別的一種方法。最初的想法是使用小管( 論文PDF)過濾幀,只取移動物體周邊的區(qū)域。搜索空間大大減少,分類速度隨之增加。然后,使用物體識別( 論文PDF)并且使用Word2Vec計算運(yùn)動對象距離,他們可以在沒有動作標(biāo)記數(shù)據(jù)集的情況下預(yù)測動作( 論文PDF)。
幀序列中生成的小管
隨后是圓桌對話《深度學(xué)習(xí)在未來該何去何從》。嘉賓有Tony?Robinson, Speechmatics創(chuàng)始人及CTO,Daniel?Hulme, SataliaCEO,John?Henderson,白星投資負(fù)責(zé)人擔(dān)任主持人。Tony?Robinson是90年代使用神經(jīng)網(wǎng)絡(luò)進(jìn)行語音識別的先驅(qū),之后在AI冬天轉(zhuǎn)向了其他算法方面,最后他又干回老本行了。Daniel?Hulme的工作重心放在使用象征性AI(他將DL定義為子象征性AI)攻克難題(例如車輛路徑),這其中重要的問題是如何行動而不是如何預(yù)測。當(dāng)問及什么是AI的時候,Daniel說是目標(biāo)導(dǎo)向適應(yīng)行為,而Tony則說是目前計算機(jī)不能做的事情:)。對于未來,Tony說他僅僅能預(yù)測到計算機(jī)性能的提升,并且希望不要對深度學(xué)習(xí)大肆宣揚(yáng)以免進(jìn)入第二個冬天。當(dāng)然,Daniel看到了2020年象征性AI的復(fù)興。對于口頭對話,他們意識到還有許多工作要做,這些工作一定會得到回報。他們同樣被問及到AI對人類的威脅,并很快進(jìn)行了反駁。他們用兩種場景闡述了這個問題,一個是智能機(jī)器人(終結(jié)者類型的),另一個是愚鈍機(jī)器人,使用愚蠢的方法解決問題(想想根除癌癥,對機(jī)器人來說最簡單的方法是消滅人類···)。由于我們有預(yù)知后果的能力,第二類機(jī)器人似乎更加危險。
這天最后一個演講人是Sébastien?Bratières,劍橋大學(xué) dawin?gmbh演講布道者和聯(lián)合博士研究員。演講的主題是語音識別深度學(xué)習(xí)。Sébastien概述了DL如何改變語音識別管道。概括地說,語音識別是由一個聲學(xué)模型(AM)構(gòu)成,它能夠從原始音頻和語言模型(LM)中預(yù)測字詞/音素序列,這個語言模型基于前一個字詞選擇另一個詞語。在過去的5到10年中,AMs已經(jīng)從高斯混合模型+隱馬爾科夫模型演變到深度神經(jīng)網(wǎng)絡(luò),而LMs從N-grams演變到RNNs。盡管管道已被簡化,但仍然會使用舊模型(GMM+HMM仍然用于制備DNN的輸入數(shù)據(jù)),未來的目標(biāo)是只使用DL訓(xùn)練端到端的模型。盡管如此,仍有許多“不變”的問題,這對用戶體驗很重要,而且目前DL還未解決,比如適應(yīng)性(不同口音,背影噪音等,在訓(xùn)練集中沒有表現(xiàn)出來)。展望未來,Sébastien說,人類不是通過轉(zhuǎn)錄語音來學(xué)習(xí)語音識別的,非監(jiān)督式學(xué)習(xí)在此還有發(fā)展空間(零資源的方法)。
一個簡化了的語音識別管道
這是第一天峰會所有的筆記。總體而言,非常有趣并且多樣化。
英文原文: Notes?from?Deep?Learning?Summit?2015?London?—?Day?1(譯者/劉翔宇?審校/趙屹華、朱正貴 責(zé)編/周建丁)?
關(guān)于譯者:? 劉翔宇,中通軟開發(fā)工程師,關(guān)注機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模式識別。?
【在線視頻分享預(yù)告】10月22日20:30-21:30,CSDN人工智能用戶群安排技術(shù)專家深度分享“面向感知智能的深度學(xué)習(xí)平臺”。
- 講師簡介:張致江,科大訊飛深度學(xué)習(xí)平臺研發(fā)主管,主持深度學(xué)習(xí)異構(gòu)加速平臺建設(shè)。
- 分享內(nèi)容:分享科大訊飛如何從算法層開始設(shè)計,構(gòu)建出適合訊飛特點的深度學(xué)習(xí)平臺。
- 參與方式:點擊這里報名,獲取直播間入口鏈接。
- 更多分享:1.CSDN 人工智能技術(shù)交流QQ群:465538150。2.CSDN 人工智能用戶微信群,請加微信號“jianding_zhou”或掃下方二維碼,由工作人員邀請入群。 加群請注明“機(jī)構(gòu)名-技術(shù)方向-姓名/昵稱”,并按此格式修改群名片。
本文為CSDN編譯整理,未經(jīng)允許不得轉(zhuǎn)載,如需轉(zhuǎn)載請聯(lián)系market#csdn.net(#換成@)
總結(jié)
以上是生活随笔為你收集整理的2015伦敦深度学习峰会笔记:来自DeepMind、Clarifai等大神的分享的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 和平精英追猎模式怎么没了 和平精英追猎下
- 下一篇: 如何在柿饼派中用mqtt接收数据并进行解