计算机视觉和AI | CV小结 | 附资源分享 | 解读技术
|懶人閱讀:計(jì)算機(jī)視覺(jué)的應(yīng)用無(wú)處不在,就像視覺(jué)是我們感知世界的最主要方式之一,所以其應(yīng)用場(chǎng)景和公司也數(shù)不勝數(shù)。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)使用到CV之中后,為很多復(fù)雜視覺(jué)信號(hào)的處理帶來(lái)了可能,從而可以進(jìn)行更加精準(zhǔn)的目標(biāo)識(shí)別、目標(biāo)跟蹤、場(chǎng)景重建等應(yīng)用。
|如果想要機(jī)器能夠進(jìn)行思考,我們需要先教會(huì)它們?nèi)タ础?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?李飛飛——Director of Stanford AI Lab and Stanford Vision Lab
|CV定義(參考)和機(jī)器學(xué)習(xí)技術(shù)的使用
? ? ? ?機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)使用到CV之中后,為很多復(fù)雜視覺(jué)信號(hào)的處理帶來(lái)了可能,例如傳統(tǒng)的采集、預(yù)處理、特征提取、目標(biāo)識(shí)別等過(guò)程可以通過(guò)一個(gè)CNN或GAN網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn),從而可以進(jìn)行更加精準(zhǔn)的目標(biāo)識(shí)別、目標(biāo)跟蹤、場(chǎng)景重建等應(yīng)用,也有很多功能、產(chǎn)品和公司出現(xiàn)。
? ? ? ? 計(jì)算機(jī)視覺(jué)(CV,computer vision)狹義上說(shuō)是使用計(jì)算機(jī)及相關(guān)設(shè)備對(duì)生物視覺(jué)的一種模擬,可簡(jiǎn)單理解為替代“眼睛”。它的主要任務(wù)就是通過(guò)對(duì)采集的圖片或視頻進(jìn)行處理以獲得相應(yīng)場(chǎng)景的三維信息,就像人類和許多其他類生物每天所做的那樣。
? ? ? ?廣義上說(shuō)是通過(guò)二維三維圖像、視頻等圖像信息的感知,進(jìn)而開(kāi)展決策的一種科學(xué)。其中包括計(jì)算機(jī)科學(xué)和工程、信號(hào)處理、物理學(xué)、應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué),神經(jīng)生理學(xué)和認(rèn)知科學(xué)等。
可能的理解誤區(qū)
? ? ? ? 不意味著計(jì)算機(jī)必須按人類視覺(jué)的方法完成視覺(jué)信息的處理。
? ? ? ? 個(gè)人認(rèn)為不必嚴(yán)格界定機(jī)器視覺(jué)、計(jì)算機(jī)視覺(jué)和模式識(shí)別等方向的區(qū)別,重點(diǎn)在于對(duì)實(shí)際問(wèn)題的解決,下圖是維基百科上的一種劃分方式,供參考。
|主要技術(shù)架構(gòu)
感知:采集視覺(jué)信號(hào),感知器可以是各種光敏攝像機(jī),包括遙感設(shè)備,X射線斷層攝影儀,雷達(dá),超聲波接收器等。
處理:現(xiàn)在的機(jī)器學(xué)習(xí)很多算法已經(jīng)可以將整個(gè)處理過(guò)程在一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中完成。主要涉及環(huán)節(jié)有去噪、取樣等,減少目標(biāo)干擾。提取目標(biāo)特征。檢測(cè)分割:分割一或多幅圖片中含有特定目標(biāo)的部分。
應(yīng)用:
? ? ? ?識(shí)別評(píng)估:人臉識(shí)別、姿態(tài)識(shí)別、字符識(shí)別等
? ? ? ?目標(biāo)跟蹤:運(yùn)動(dòng)信號(hào)監(jiān)測(cè)、圖像跟蹤等;
? ? ? ?場(chǎng)景重建:給定一個(gè)場(chǎng)景的二或多幅圖像或者一段錄像,場(chǎng)景重建尋求為該場(chǎng)景建立一個(gè)計(jì)算機(jī)模型/三維模型等。
|公司、產(chǎn)品及應(yīng)用場(chǎng)景(部分)
? ? ? ?谷歌,微軟,Facebook、亞馬遜、蘋果、英特爾、華為、BAT等無(wú)一沒(méi)有建立自己的AI實(shí)驗(yàn)室,AI里面,計(jì)算機(jī)視覺(jué)或圖像處理是非常重要的一塊。
? ? ? ?世界各大汽車公司,如特斯拉、通用、寶馬等,在推動(dòng)無(wú)人駕駛技術(shù)之中,視覺(jué)導(dǎo)航是核心關(guān)鍵技術(shù)之一。
? ? ? ?同樣道理,無(wú)人機(jī)公司(大疆)、機(jī)器人公司(地平線)、攝像頭公司(海康威視、曠視科技、商湯科技)、圖像處理軟件公司(Adobe、美圖),甚至是迪士尼等電影動(dòng)畫制作公司都在CV方面大量投入資源開(kāi)展應(yīng)用。
? ? ? ?可以看出計(jì)算機(jī)視覺(jué)的應(yīng)用無(wú)處不在,很好理解,圖像無(wú)處不在是我們感知世界的最主要方式之一,所以其應(yīng)用場(chǎng)景和公司數(shù)不勝數(shù),掛一漏萬(wàn),盤點(diǎn)如下:
無(wú)人駕駛的視覺(jué)導(dǎo)航:還沒(méi)有條件實(shí)現(xiàn)象人那樣能識(shí)別和理解任何環(huán)境,完成自主導(dǎo)航的系統(tǒng),如避障、路徑規(guī)劃等。相關(guān)公司及產(chǎn)品有:
工業(yè)機(jī)器人,也被稱為機(jī)器視覺(jué),指的是自主機(jī)器人的視覺(jué),用于檢測(cè)和測(cè)量的視覺(jué)。相關(guān)公司及產(chǎn)品有:速感科技(讓機(jī)器人認(rèn)識(shí)世界,用機(jī)器人改變世界),是一家以機(jī)器視覺(jué)為核心的人工智能創(chuàng)業(yè)公司,目標(biāo)是成為機(jī)器人行業(yè)領(lǐng)先的視覺(jué)解決方案提供商,產(chǎn)品線包括:三維視覺(jué)傳感器、機(jī)器人移動(dòng)開(kāi)發(fā)底盤、AGV導(dǎo)航定位模塊、智能跟隨機(jī)器人。
視頻監(jiān)控(安防、金融安全):小區(qū)門禁、身份識(shí)別(金融、安防)、社會(huì)場(chǎng)所安全監(jiān)視及目標(biāo)識(shí)別跟蹤,包括攝像頭跟蹤(運(yùn)動(dòng)匹配)、監(jiān)視、人臉識(shí)別等。相關(guān)公司及產(chǎn)品有:海康威視;曠視科技,Face++專注于人臉識(shí)別技術(shù)和相關(guān)產(chǎn)品應(yīng)用研究,面向開(kāi)發(fā)者提供服務(wù)。擁有一套非常強(qiáng)大的人臉檢測(cè)系統(tǒng);商湯科技,早期專注于安防領(lǐng)域,現(xiàn)在擴(kuò)展到互聯(lián)網(wǎng)+。格靈深瞳深耕安防和商業(yè)數(shù)據(jù)分析領(lǐng)域,自主研發(fā)的深瞳技術(shù)在人和車的檢測(cè)、跟蹤與識(shí)別方面居于世界領(lǐng)先水平,產(chǎn)品線包括人眼攝像機(jī)、行為分析儀、車輛特征識(shí)別系統(tǒng)、視圖大數(shù)據(jù)分析平臺(tái)。
醫(yī)療計(jì)算機(jī)視覺(jué)和醫(yī)學(xué)圖像處理:從顯微鏡圖像,X射線圖像,血管造影圖像,超聲圖像和斷層圖像等之中檢測(cè)腫瘤,動(dòng)脈粥樣硬化或其他惡性變化。還可以作為醫(yī)學(xué)測(cè)量的新手段,如腦結(jié)構(gòu),評(píng)估醫(yī)學(xué)治療質(zhì)量、超聲圖像、X射線圖像,降低噪聲的影響的圖像等。
工業(yè)制造中的質(zhì)量控制與測(cè)量:食物的光學(xué)分揀、缺陷自動(dòng)檢測(cè)、機(jī)器人臂的位置和細(xì)節(jié)取向測(cè)量。
軍事應(yīng)用:有關(guān)作戰(zhàn)的場(chǎng)景的豐富感知,如探測(cè)敵方士兵或車輛和導(dǎo)彈制導(dǎo)、雷達(dá)圖像分析等。
? ? ? ? ?這里推薦一篇文章,計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)公司,對(duì)于公司盤點(diǎn)的比較全面,傳送門:http://blog.csdn.net/hduxiejun/article/details/53725836
|技術(shù)沿革、當(dāng)前發(fā)展、熱點(diǎn)方向
? ? ? ? 技術(shù)沿革:計(jì)算機(jī)視覺(jué)領(lǐng)域的突出特點(diǎn)是其多樣性與不完善性,直到20世紀(jì)70年代后期,當(dāng)計(jì)算機(jī)的性能提高到足以處理諸如圖像這樣的大規(guī)模數(shù)據(jù)時(shí),計(jì)算機(jī)視覺(jué)才得到了正式的關(guān)注和發(fā)展。涉及的主要技術(shù)領(lǐng)域:物理(電磁波:主要是可見(jiàn)光與紅外線部分)、生物視覺(jué)系統(tǒng)(視覺(jué)的生物機(jī)制)、信號(hào)處理(尤其是時(shí)變信號(hào)處理)和數(shù)學(xué)(統(tǒng)計(jì)學(xué),最優(yōu)化理論以及幾何學(xué))。
? ? ? ? 當(dāng)前發(fā)展:計(jì)算機(jī)視覺(jué)的經(jīng)典問(wèn)題進(jìn)入了傳統(tǒng)方法的瓶頸期,在不使用神經(jīng)網(wǎng)絡(luò)等算法時(shí)可能存在很多困難,如果把Deep Learning進(jìn)入CV的2012年作為新時(shí)代的開(kāi)始,很多神經(jīng)網(wǎng)絡(luò)對(duì)于各種視覺(jué)場(chǎng)景識(shí)別問(wèn)題的解決都實(shí)現(xiàn)了很好的效果。
? ? ? ? 熱點(diǎn)方向:當(dāng)前發(fā)展毋庸置疑是AI技術(shù),尤其是機(jī)器學(xué)習(xí)、深度學(xué)習(xí)在CV中的應(yīng)用,賦予了這個(gè)方向新的生命。引用知乎答主周博磊的話:計(jì)算機(jī)視覺(jué)在人工智能和深度學(xué)習(xí)的大背景下方興未艾。現(xiàn)在的CV和AI研究其實(shí)是變得越來(lái)越扁平快,論文數(shù)量和研究方向也是繁多. 已經(jīng)很難follow。目前在技術(shù)上有一些可能的熱點(diǎn):
機(jī)器人視覺(jué)
基于GAN的生成視覺(jué)模型方向
多媒體計(jì)算機(jī)視覺(jué),也叫多模態(tài)視覺(jué)
會(huì)議及期刊
頂級(jí)會(huì)議
ICCV:International Conference on Computer Vision,國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)
CVPR:International Conference on Computer Vision and Pattern Recognition,國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別大會(huì)
ECCV:European Conference on Computer Vision,歐洲計(jì)算機(jī)視覺(jué)大會(huì)
較好會(huì)議
ICIP:International Conference on Image Processing,國(guó)際圖像處理大會(huì)
BMVC:British Machine Vision Conference,英國(guó)機(jī)器視覺(jué)大會(huì)
ICPR:International Conference on Pattern Recognition,國(guó)際模式識(shí)別大會(huì)
ACCV:Asian Conference on Computer Vision,亞洲計(jì)算機(jī)視覺(jué)大會(huì)
頂級(jí)期刊
PAMI:IEEE Transactions on Pattern Analysis and Machine Intelligence,IEEE 模式分析與機(jī)器智能雜志
IJCV:International Journal on Computer Vision,國(guó)際計(jì)算機(jī)視覺(jué)雜志
較好期刊
TIP:IEEE Transactions on Image Processing,IEEE圖像處理雜志
CVIU:Computer Vision and Image Understanding,計(jì)算機(jī)視覺(jué)與圖像理解
PR:Pattern Recognition,模式識(shí)別
PRL:Pattern Recognition Letters,模式識(shí)別快報(bào)
|授人以漁,資料分享
卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用( Computer Vision: the use of CovNets),在此推薦斯坦福的CS231n課程:針對(duì)視覺(jué)識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)。?
MIT周博磊博士:http://people.csail.mit.edu/bzhou/?聚集分析、運(yùn)動(dòng)檢測(cè)
初探計(jì)算機(jī)視覺(jué)的三個(gè)源頭、兼談人工智能|正本清源:http://mp.weixin.qq.com/s?__biz=MzI3MTM5ODA0Nw==&mid=100000002&idx=2&sn=32face7f1acb17e07f3c38dde41d880e;計(jì)算機(jī)視覺(jué)領(lǐng)軍人物之一加州大學(xué)洛杉磯分校UCLA統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)教授Song-Chun Zhu的訪談錄
杜克大學(xué)的Guillermo Sapiro所教授的課程——《圖像和視頻處理:從火星到好萊塢Image and Video Processing: From Mars to Hollywood with a Stop at the Hospital》,可以在coursera和YouTube上找到相關(guān)的課程視頻信息。
Gonzalez與Woods編寫的《數(shù)字圖像處理(Digital Image Processing)》一書,使用MATLAB來(lái)運(yùn)行其中所提到的范例。
佛羅里達(dá)大學(xué)的Mubarak Shah教授在計(jì)算機(jī)視覺(jué)方面的課程可以作為一門很好的入門課程
黎中央理工學(xué)院的Nikos Paragios和Pawan Kumar講授了一門人工視覺(jué)中的離散推理(Discrete Inference in Artificial Vision)課程,它能提供相關(guān)的概率圖形模型和計(jì)算機(jī)視覺(jué)相關(guān)的大量數(shù)學(xué)知識(shí)。
《使用Python對(duì)計(jì)算機(jī)視覺(jué)進(jìn)行編程/Programming Computer Vision with Python》
|參考資料
百度百科,計(jì)算機(jī)視覺(jué):https://baike.baidu.com/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/2803351?fr=aladdin
雷鋒網(wǎng),七步帶你認(rèn)識(shí)計(jì)算機(jī)視覺(jué):https://www.leiphone.com/news/201608/UaRVIbntJCdv4G9K.html
計(jì)算機(jī)視覺(jué)領(lǐng)域的一些牛人博客,超有實(shí)力的研究機(jī)構(gòu)等的網(wǎng)站鏈接:http://blog.csdn.net/carson2005/article/details/6601109
知乎神帖,中國(guó)計(jì)算機(jī)視覺(jué)的前途在哪?機(jī)器視覺(jué)工程師又何去何從?:https://www.zhihu.com/question/20451261
知乎神帖:機(jī)器視覺(jué)與計(jì)算機(jī)視覺(jué)的區(qū)別?:https://www.zhihu.com/question/23183532
善用智能之道:行業(yè)動(dòng)態(tài)、技術(shù)前沿、產(chǎn)業(yè)服務(wù),歡迎關(guān)注聯(lián)系:九三智能控
PS:可申請(qǐng)進(jìn)入微信群交流,不定期分享資料,拓展行業(yè)人脈。添加微信:yan_kylin,注明名字+研究領(lǐng)域/專業(yè)/學(xué)校/公司,或在公眾號(hào)留言。
總結(jié)
以上是生活随笔為你收集整理的计算机视觉和AI | CV小结 | 附资源分享 | 解读技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 什么是Base64 编码,Base64
- 下一篇: lvgl硬件加速