【技术综述】图像与CNN发家简史,集齐深度学习三巨头
文章首發(fā)于微信公眾號《有三AI》
【技術(shù)綜述】圖像與CNN發(fā)家簡史,集齊深度學(xué)習(xí)三巨頭
沒有一個經(jīng)典的發(fā)現(xiàn)會是突然之間橫空出世,它總是需要一些積淀。
提起卷積神經(jīng)網(wǎng)絡(luò),我們總會從LeNet5開始說起,但是LeNet5不是起點也不是終點,這一期扒一下圖像和CNN的發(fā)家歷史。
?
01?圖像
1.1 什么是圖像
人們睜眼看世界,看的就是圖像。圖像的英文名是image,來于拉丁文imago,image如果用英文來定義,包含"representation, reflection, apparition, semblance, copy, visible form"等。
圖像有圖有像,兩者是有差別的。圖,是客觀世界的存在,從物理上說,是物體反射或透射光的分布。而像,則是人的視覺系統(tǒng)所接受的圖在人腦中形成的認識。
所以先有圖,后有像。
人類的文明歷史,經(jīng)過了從結(jié)繩記事,文字記事,到如今的圖片,視頻記事的發(fā)展歷史,正所謂一圖勝千言,我們不妨將圖片的發(fā)展史看作人類文明的發(fā)展史的一個縮影,并不過分。
1.2 模擬圖像
所謂模擬圖像:就是通過某種物理量(如光、電等)的強弱變化來記錄圖像亮度信息。
模擬圖像的出現(xiàn)應(yīng)該從1826年前后法國科學(xué)家Joseph Nicéphore Niépce發(fā)明第一張可以永久記錄的照片開始,到如今已將近兩百年,那一張圖片如下。
從19世紀(jì)30年代到20世紀(jì)中期計算機的出現(xiàn),中間有一百多年的歷史。那時候的圖像的發(fā)展史,實際上差不多就是攝影的發(fā)展史,所以我為什么要玩攝影呢?
當(dāng)然,年紀(jì)大一點的肯定看過模擬電視。那一種沒有信號就拍一拍的感覺,自己懂。
1.3 數(shù)字圖像
數(shù)字圖像的誕生并不與計算機完全掛鉤。
戰(zhàn)爭往往是催生技術(shù)發(fā)展的最好外部因素,在第一次世界大戰(zhàn)(1914年7月28日至1918年11月11日)后的兩年,也就是1920年數(shù)字圖像被發(fā)明了,用于報紙行業(yè)。
當(dāng)時為了傳輸這一幅圖像,巴特蘭有線電視圖像傳輸系統(tǒng)
(Bartlane cable picture transmission system)被發(fā)明,實際上主體就是一根海底電纜,從英國倫敦連接到美國紐約。
1921年實現(xiàn)了第一幅數(shù)字圖像的傳送,耗時3小時,編碼解碼都是用打印機來完成的。
當(dāng)時用了5個灰度級進行編碼,大家知道現(xiàn)在用的是8個灰度級。
為什么是5個灰度級呢,實際上這是因為人眼就只能分辨這么多,分的再細也沒有用,可以感受一下下圖,5個灰度級和6個灰度級的差別。
20世紀(jì)50年代電子計算機被發(fā)明,人們開始利用計算機來處理圖像,數(shù)字圖像處理則開始正式作為一門學(xué)科在20世紀(jì)60年代初期誕生。
早期的圖像處理的目的是改善圖像的質(zhì)量,美國噴氣推進實驗室(JPL)對航天探測器徘徊者7號在1964年發(fā)回的幾千張月球照片使用了圖像處理技術(shù),包括幾何校正、灰度變換、去除噪聲等方法進行處理,成功地繪制出月球表面地圖,這可以算是最早的數(shù)字圖像處理了。
然后慢慢的全世界人民就一起研究圖像了。
模擬圖像和數(shù)字圖像的區(qū)別,大家可以感受一下。
扯的有點多,總之圖像就是這么來的。
?
02?視覺機制
圖像被發(fā)明了,接下來就需要解析人眼到底是如何分析圖像,這個非常復(fù)雜。我們不做過多的講述,只描述與咱們的主題,也就是計算機視覺和神經(jīng)網(wǎng)絡(luò)有關(guān)的部分。
2.1 感受野
現(xiàn)在每個人都知道卷積神經(jīng)網(wǎng)絡(luò)中的感受野,但是要研究并證實到這一點,并不是誰都能做到。
大腦的基本感知單元就是神經(jīng)元,一個神經(jīng)元所影響的刺激區(qū)域就叫做神經(jīng)元的感受野,即receptive field,不同神經(jīng)元感受野的大小和性質(zhì)都不同。
視覺感受野的研究來自于美國神經(jīng)科學(xué)家哈特蘭(Keffer Hartline)和匈牙利裔美國神經(jīng)科學(xué)家?guī)旆蚶?#xff08;Stephen W. Kuffler),1953年他們發(fā)現(xiàn)貓視網(wǎng)膜神經(jīng)節(jié)細胞的感受野具有同心圓結(jié)構(gòu)。
很簡單很直觀是吧,但是需要驗證。如果今天你說你的眼睛或者某卷積核的感受野的不是一個中心對稱的形狀,那么恭喜你,可能要從源頭挖了計算機視覺的根了。
2.2?朝向敏感
盡管有了感受野,但是視覺感知的機制仍然沒有被得到更深刻地理解,直到視覺功能柱的發(fā)現(xiàn)。
加拿大神經(jīng)生理學(xué)家David Hunter Hubel和瑞典神經(jīng)科學(xué)家Torsten Nils Wiesel在20世紀(jì)50年代和60年代開始研究視覺機制,他們發(fā)現(xiàn):有些細胞對某些處在一個角度上的線條或者明顯的邊緣線有特別的反應(yīng),這就是絕大多數(shù)視皮層細胞都具有的強烈的方位選擇性。
不僅如此,要引起這個細胞反應(yīng),直線的朝向還只能落在一個很小的角度范圍里,也就是該細胞的感受野內(nèi)。
相鄰的細胞還具有相似且重疊的感受野,隨著感受野的大小和位置在皮質(zhì)上系統(tǒng)地變化,就形成了完整的視覺空間圖。
聽起來有點拗口,但是如果你愿意去看論文【1】,會有收獲。
結(jié)論就是,貓眼對于灰度的絕對值不敏感,對于邊緣和朝向很敏感,這一點就是 “Marr視覺分層機制” 的基礎(chǔ)。
從1960年到1980年,兩人合作了20多年,細致科學(xué)地研究了人眼視覺的機制,因此他們被認為是現(xiàn)代視覺科學(xué)之父,并于1981年一起獲得了諾貝爾生理學(xué)與醫(yī)學(xué)獎。
2.3 總結(jié)
David Hunter Hubel和Torsten Nils Wiesel在1968年發(fā)表的論文確定了大腦中兩種基本的視覺細胞類型:
(1)簡單單元,感知具有特定方向的特征,對應(yīng)LeNet5中的S卷積網(wǎng)絡(luò)層。
(2)復(fù)雜細胞,對簡單單元的結(jié)果做出反應(yīng),提高對位置,旋轉(zhuǎn)的不變性,對應(yīng)LeNet5中的C池化層。
總之,視覺機制揭示了視覺的本質(zhì)。感知是通過從低層細胞到高層細胞不斷抽象來完成,更高層的細胞,擁有更高級的感受野,并且對一些偏移等具有一定的不變性。
MIT的科學(xué)家馬爾(David Marr)基于此提出了他的視覺分層理論,即視覺包含初級視覺、中級視覺和高級視覺三個層次,感興趣可以自行了解。
03?卷積神經(jīng)網(wǎng)絡(luò)發(fā)家
我們在這里,不說神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),因為一說,就又需要扯一大堆的東西。
直接上卷積神經(jīng)網(wǎng)絡(luò)。
3.1?neocognitron【2】
neocognitron也是有前身,但那個就不說了。1980年推出的neocognitron是第一個真正意義上的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),不過它并不完全是現(xiàn)在的卷積的形式。
麻雀雖小,該有的其實都有了。
從上圖可以看出,這是一個cascade結(jié)構(gòu),按照S,C模塊進行重復(fù)串接,而且,信號的幅度是模擬的,即具有非負性。
它已經(jīng)有了卷積神經(jīng)網(wǎng)絡(luò)的基本特征,比如輸入是原始的圖像信號,大小為19*19,說明學(xué)習(xí)是一個無監(jiān)督的過程。
第一個S層,大小為19*19*12,通道數(shù)為12,卷積的大小為5*5。
第一個C層,大小為21*21*8,可知道進行了一個像素的邊界補齊,從S層到C層,進行了通道的融合,輸入通道為12,輸出為8。
依次串接S層和C層,直到最終的輸入1*10,即分類結(jié)果,這是用于識別0~9的手寫數(shù)字。
值得注意的從,從S到C層,輸入輸出神經(jīng)元的連接并不是通過一個標(biāo)準(zhǔn)的滑動窗口的卷積來完成,下圖展示了其中的一個案例。
neocognitron對于要識別目標(biāo)的小的形狀變化和位移擁有不變性,S層提取的局部特征被輸入C層,完成了低層局部特征到高層的整合。
從提出后,neocognitron也進行了多次的迭代。1988年為時間信號開發(fā)了新版本,1998年進行了改進,在2003年形成了通用版本并在同一年簡化。如果你感興趣,不妨去讀以前的文章,別有一番風(fēng)味。
3.2 TDNN【3】
深度學(xué)習(xí)的突破其實是從語音開始的,卷積神經(jīng)網(wǎng)絡(luò)早期一樣被用于語音。
時間延遲神經(jīng)網(wǎng)絡(luò)(TDNN)是第一個用于聲音信號處理的卷積網(wǎng)絡(luò),被Hinton組于1989年提出,三巨頭被稱為三巨頭,自然是有歷史功績的。
網(wǎng)絡(luò)結(jié)構(gòu)如下,其實就是想辦法將語音信號變成圖像,這里就是一個頻譜圖。
正好筆者最近開始做語音,有時間,我回來細講。
3.3 LeNet-1【4】
終于,到了1989年,Yann LeCun和Y. Bengio等人(集齊三巨頭了吧)開始認真研究卷積神經(jīng)網(wǎng)絡(luò)。后來10年的時間里,LeNet系列網(wǎng)絡(luò)開始迭代,直到最后1998年的LeNet5。
LeNet5大家早就說爛了,我們也說過,下面就說說LeNet1吧。
其實LeNet1之前還有一個網(wǎng)絡(luò),使用的輸入大小為16*16,有9298個樣本,網(wǎng)絡(luò)結(jié)構(gòu)共包含3個隱藏層,分別是H1,H2,H3,感興趣可以去對應(yīng)文末參考鏈接找資料。
LeNet1的結(jié)構(gòu)長上面這樣,一看就是“LeCun親生的兒子”,和大家見慣不慣的LeNet5很像了吧,下面把LeNet5也放出來看看。
無非就是輸入圖像大小,網(wǎng)絡(luò)寬度,深度的調(diào)整,這其實反映了當(dāng)時束縛神經(jīng)網(wǎng)絡(luò)發(fā)展的一個關(guān)鍵,硬件計算能力,因為反向傳播理論早就成熟了。
看來,出來混,還得有一身好裝備。
后面要說的,就不在這篇文章里了,盡情期待。
參考資料
[1] Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. The Journal of physiology, 1962, 160(1): 106-154.
[2]?Fukushima K. Neocognitron: A hierarchical neural network capable of visual pattern recognition[J]. Neural networks, 1988, 1(2): 119-130.
[3]?Waibel A, Hanazawa T, Hinton G, et al. Phoneme recognition using time-delay neural networks[M]//Readings in speech recognition. 1990: 393-404.
[4]?https://medium.com/@sh.tsang/paper-brief-review-of-lenet-1-lenet-4-lenet-5-boosted-lenet-4-image-classification-1f5f809dbf17
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內(nèi)容將會不定期奉上,歡迎大家關(guān)注有三公眾號 有三AI!
?
總結(jié)
以上是生活随笔為你收集整理的【技术综述】图像与CNN发家简史,集齐深度学习三巨头的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【资源总结】国内AI领域的赛事全集
- 下一篇: 【AI白身境】学AI必备的python基