1.1 计算机视觉-深度学习第四课《卷积神经网络》-Stanford吴恩达教授
| 2.11 總結(上一課) | 回到目錄 | 1.2 邊緣檢測示例 |
計算機視覺 (Computer Vision)
歡迎參加這次的卷積神經網絡課程,計算機視覺是一個飛速發展的一個領域,這多虧了深度學習。深度學習與計算機視覺可以幫助汽車,查明周圍的行人和汽車,并幫助汽車避開它們。還使得人臉識別技術變得更加效率和精準,你們即將能夠體驗到或早已體驗過僅僅通過刷臉就能解鎖手機或者門鎖。當你解鎖了手機,我猜手機上一定有很多分享圖片的應用。在上面,你能看到美食,酒店或美麗風景的圖片。有些公司在這些應用上使用了深度學習技術來向你展示最為生動美麗以及與你最為相關的圖片。機器學習甚至還催生了新的藝術類型。深度學習之所以讓我興奮有下面兩個原因,我想你們也是這么想的。
第一,計算機視覺的高速發展標志著新型應用產生的可能,這是幾年前,人們所不敢想象的。通過學習使用這些工具,你也許能夠創造出新的產品和應用。
其次,即使到頭來你未能在計算機視覺上有所建樹,但我發現,人們對于計算機視覺的研究是如此富有想象力和創造力,由此衍生出新的神經網絡結構與算法,這實際上啟發人們去創造出計算機視覺與其他領域的交叉成果。舉個例子,之前我在做語音識別的時候,我經常從計算機視覺領域中尋找靈感, 并將其應用于我的文獻當中。所以即使你在計算機視覺方面沒有做出成果,我也希望你也可以將所學的知識應用到其他算法和結構。就介紹到這兒,讓我們開始學習吧。
這是我們本節課將要學習的一些問題,你應該早就聽說過圖片分類,或者說圖片識別。比如給出這張64×64的圖片,讓計算機去分辨出這是一只貓。
還有一個例子,在計算機視覺中有個問題叫做目標檢測,比如在一個無人駕駛項目中,你不一定非得識別出圖片中的物體是車輛,但你需要計算出其他車輛的位置,以確保自己能夠避開它們。所以在目標檢測項目中,首先需要計算出圖中有哪些物體,比如汽車,還有圖片中的其他東西,再將它們模擬成一個個盒子,或用一些其他的技術識別出它們在圖片中的位置。注意在這個例子中,在一張圖片中同時有多個車輛,每輛車相對與你來說都有一個確切的距離。
還有一個更有趣的例子,就是神經網絡實現的圖片風格遷移,比如說你有一張圖片,但你想將這張圖片轉換為另外一種風格。所以圖片風格遷移,就是你有一張滿意的圖片和一張風格圖片,實際上右邊這幅畫是畢加索的畫作,而你可以利用神經網絡將它們融合到一起,描繪出一張新的圖片。它的整體輪廓來自于左邊,卻是右邊的風格,最后生成下面這張圖片。這種神奇的算法創造出了新的藝術風格,所以在這門課程中,你也能通過學習做到這樣的事情。
但在應用計算機視覺時要面臨一個挑戰,就是數據的輸入可能會非常大。舉個例子,在過去的課程中,你們一般操作的都是64×64的小圖片,實際上,它的數據量是64×64×3,因為每張圖片都有3個顏色通道。如果計算一下的話,可得知數據量為12288,所以我們的特征向量 xxx 維度為12288。這其實還好,因為64×64真的是很小的一張圖片。
如果你要操作更大的圖片,比如一張1000×1000的圖片,它足有1兆那么大,但是特征向量的維度達到了1000×1000×3,因為有3個RGB通道,所以數字將會是300萬。如果你在尺寸很小的屏幕上觀察,可能察覺不出上面的圖片只有64×64那么大,而下面一張是1000×1000的大圖。
如果你要輸入300萬的數據量,這就意味著,特征向量的維度高達300萬。所以在第一隱藏層中,你也許會有1000個隱藏單元,而所有的權值組成了矩陣 W[1]W^{[1]}W[1] 。如果你使用了標準的全連接網絡,就像我們在第一門和第二門的課程里說的,這個矩陣的大小將會是1000×300萬。因為現在 xxx 的維度為 3m3m3m , 3m3m3m 通常用來表示300萬。這意味著矩陣 W[1]W^{[1]}W[1] 會有30億個參數,這是個非常巨大的數字。在參數如此大量的情況下,難以獲得足夠的數據來防止神經網絡發生過擬合和競爭需求,要處理包含30億參數的神經網絡,巨大的內存需求讓人不太能接受。
但對于計算機視覺應用來說,你肯定不想它只處理小圖片,你希望它同時也要能處理大圖。為此,你需要進行卷積計算,它是卷積神經網絡中非常重要的一塊。下節課中,我會為你介紹如何進行這種運算,我將用邊緣檢測的例子來向你說明卷積的含義。
課程板書
| 2.11 總結(上一課) | 回到目錄 | 1.2 邊緣檢測示例 |
總結
以上是生活随笔為你收集整理的1.1 计算机视觉-深度学习第四课《卷积神经网络》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 0.0 目录-深度学习第四课《卷积神经网
- 下一篇: 1.2 边缘检测示例-深度学习第四课《卷