计算机视觉概述:视觉任务+场景领域+发展历程+典型任务
一、什么是計算機視覺
- 定義:計算機視覺(Computer vision)是??研究如何使機器“看”的科學,更 進?步的說,就是指?攝影機和計算機代替?眼對?標進?識別、跟蹤和測量 等,?計算機處理成為更適合?眼觀察或傳送給儀器檢測的圖像。
比如下圖,做到的不僅僅是檢測到圖像前景中有四個?、?條街道和?輛?。除了這些基本信息,?類還能夠看出圖像前景中的?正在?路,其中???腳,我們甚?知道他們是誰。我們可以理性地推斷出圖中?物沒有被?撞擊的危險,??的?眾汽?沒有停好。?類還可以描述圖中?物的穿著,不?是?服顏?,還有材質與紋理。?類能夠理解和描述圖像中的場景。
1.2 區分計算機視覺與其相關領域
計算機視覺,圖像處理,圖像分析,機器?視覺和機器視覺是彼此緊密關聯的學科。
1、計算機視覺的研究很?程度上針對圖像的內容。如果你翻開帶有上?這些名字的教材,你會發現在技術和應?領域上他們都有著相當?部分的重疊。這表明這些學科的基礎理論?致是相同的,甚?讓?懷疑他們是同?學科被冠以不同的名稱。然?,各研究機構,學術期刊,會議及公司往往把??特別的歸為其中某?個領域,于是各種各樣的?來區分這些學科的特征便被提了出來。下?將給出?種區分?法,盡管并不能說這?區分?法完全準確。
2、圖像處理旨在處理原始圖像以應?某種變換。其?標通常是改進圖像或將其作為某項特定任務的輸?,?計算機視覺的?標是描述和解釋圖像。例如,降噪、對?度或旋轉操作這些典型的圖像處理組件可以在像素層?執?,?需對圖像整體具備全?的了解。
3、機器視覺主要是指?業領域的視覺研究,例如?主機器?的視覺,?于檢測和測量的視覺。這表明在這?領域通過軟件硬件,圖像感知與控制理論往往與圖像處理得到緊密結合來實現?效的機器?控制或各種實時操作。
1.2 計算機視覺應用方向
?前CV公司?較集中的技術賽道有:?臉識別、?動駕駛、醫療圖像等,但?前??,商業化落地最快的還是?臉識別及其業務相關的?些技術,?如銀?會?到?臉和?然場景下的OCR(?字識別),還有浸?式?數據?控,安防會?到?臉、?體、?輛與?數據分析等。
1.2.1 行為跟蹤
實體零售店利?計算機視覺算法和攝像頭,了解顧客及其?為。計算機視覺算法能夠識別?臉,確定?物特征,如性別或年齡范圍。此外,零售店還可以利?計算機視覺技術追蹤顧客在店內的移動軌跡,分析其移動路線,檢測??模式,并統計零售店店?受到??注意的次數。
添加視線?向檢測后,零售店能夠回答這?重要問題:將店內商品放在哪個位置可以提升消費者體驗,最?化銷售額。計算機視覺還是開發防盜竊機制的強??具。?臉識別算法可?于識別已知的商店扒?,或檢測出某位顧客將商品放???的背包。
1.2.2?醫療行業
在醫療?業中現有計算機視覺應?的數量?常龐?。毫?疑問醫療圖像分析是最著名的例?它可以顯著提升醫療診斷流程。此類系統對 MRI 圖像、CT 掃描圖像和 X 光圖像進?分析找出腫瘤等異常或者搜索神經系統疾病的癥狀。在很多情況下圖像分析技術從圖像中提取特征從?訓練能夠檢測異常的分類器。但是?些特定應?需要更細化的圖像處理。
例如對結腸鏡檢查圖像進?分析時分割圖像是必要的這樣才能找出腸息?防?結直腸癌。
上圖是觀察胸腔元素所需的圖像分割結果。該系統分割每個重要部分并著?:肺動脈(藍?)、肺靜脈(紅?)、縱膈(??)和橫膈(紫?)。?前?量此類應?已經投?使?如估計產后出?量、量化冠狀動脈鈣化情況、在沒有 MRI 的情況下測定?體內的?流量。
但是醫療圖像并?計算機視覺在醫療?業中唯?的?武之地。?如計算機視覺技術為視障??提供室內導航幫助。這些系統可以在樓層平?圖中定位??和周圍事物等以便實時提供視覺體驗。視線追蹤和眼部分析可?于檢測早期認知障礙如?童?閉癥或閱讀障礙這些疾病與異常注視?為?度相關。
1.2.1 自動駕駛
你是否思考過,?動駕駛汽?如何「看」路?計算機視覺在其中扮演核???,它幫助?動駕駛汽?感知和了解周圍環境,進?恰當運?。計算機視覺最令?興奮的挑戰之?是圖像和視頻?標檢測。這包括對不同數量的對象進?定位和分類,以便區分某個對象是交通信號燈、汽?還是??,如下圖所示:
?此類技術,加上對來?傳感器和/或雷達等來源的數據進?分析,使得汽?能夠看?。
二、計算機視覺任務
2.1 計算機視覺發展歷程
- 1、1963年,Larry Roberts發表了(可能是)CV領域的第一篇專業論文,用以對簡單幾何體進行邊緣提取和三維重建。1966年,麻省理工學院(MIT)發起了一個夏季項目,目標是搭建一個機器視覺系統,完成模式識別(pattern recognition)等工作。
- 從現在來看,當時的目標確實定的過大,以至于到了50多年后的今天為止,即使CV領域有了數以千計的科學工作者,仍然無法建立起整個機器視覺系統。
-
2、七十年代,同樣是在MIT,學者David Marr發表的著作《Vision》從嚴謹又長遠的角度給出了CV的發展方向和一些基本算法,其中不乏現在為人熟知的“圖層”的概念、邊緣提取、三維重建等。
- 整個60年代到80年代,雖然CV的概念已經提出了20年,但是與“識別”相關的工作進展得并不順利。除了上述些許學者們點燃的星星之火,很難看到太多突破性的方法和文獻。因此人們開始思考:如果圖像識別太困難了,那為什么不先試試圖像分割呢?
-
3、1999年David Lowe提出了尺度不變特征變換(SIFT, Scale-invariant feature transform)目標檢測算法,用于匹配不同拍攝方向、縱深、光線等圖片中的相同元素。
- (1)2001年,在互聯網泡沫的大背景下,CV領域卻發展得風生水起,并再次取得重大突破性進展:Paul Viola和Michael Johns使用Adaboost算法實現了實時性的人臉檢測。而這一技術僅在5年后就被富士膠片公司(Fujifilm)用于產品中——首個帶有實時人臉檢測功能的照相機。
- (2)同一時期,Lazbnik, Schmid 和 Ponce等人提出了空間金字塔匹配算法(SPM, Spatial Pyramid Matching),具有開創性地將圖片進行分塊和特征提取,以驗證圖片間的相似度。Dalal和Triggs等人提出了進行人物識別的HoG特征(Histogram of Gradient)。2009年,Felzenswalb, McAllester和Ramanan等人提出了可變形部件模型(DPM, Deformable Parts Model)。
- 4、隨著互聯網的不斷發展,學習計算機視覺可用的圖片資源越來越多
- (1)Everingham等人在2006年至2012年間搭建了一個大型圖片數據庫,供機器識別和訓練,稱為PASCAL Visual Object Challenge,該數據庫中有20種類別的圖片,每種圖片數量在一千至一萬張不等。
- (2)后來Li Fei-fei等人搭建了圖像數據庫ImageNet,總計兩萬兩千種類別,和一千四百余萬張圖片。通過訓練ImageNet所給出的數據集,識別錯誤率正逐年下降,并在2015年就已經低于了正常人類的錯誤率。圖中值得注意的是,在2012年,識別錯誤率突然下降了近10個百分點,這得益于卷積神經網絡(CNN,Convolutional Neural Network)的運用,或者更為大家所知曉的概念就是——深度學習(Deep Learning)。CNN在識別錯誤率上遠低于同年的其他模型,這標志著以深度學習為核心的CV時代正式開啟。
2.2.2 典型的計算機視覺任務
計算機視覺基于大量不同任務,并組合在一起實現高度復雜的應用。計算機視覺中最常見的任務是圖像和視頻識別,涉及確定圖像包含的不同對象。
-
四大主要任務
- 圖像分類
- 目標檢測
- 目標分割
- 目標追蹤
-
1、圖像分類
計算機視覺中最知名的任務可能就是圖像分類了,它對給定圖像進行分類。我們看一個簡單的二分類例子:我們想根據圖像是否包含旅游景點對其進行分類。假設我們為此任務構建了一個分類器,并提供了一張圖像(見下圖)。
我們要得出這張建筑圖片是否是埃菲爾鐵塔。
?
- 2、目標檢測
- ?目標檢測通常是從圖像中輸出單個目標的Bounding Box(邊框)以及標簽
我們想象一個同時包含定位和分類的動作,對一張圖像中的所有感興趣對象重復執行該動作,這就是目標檢測。該場景中,圖像中的對象數量是未知的。因此,目標檢測的目標是找出圖像中的對象,并進行分類。
在這個密集圖像中,我們可以看到計算機視覺系統識別出大量不同對象:汽車、人、自行車,甚至包含文本的標志牌。這個問題對人類來說都算困難的。一些對象只顯示出一部分,因為它們有一部分在圖像外,或者彼此重疊。此外,相似對象的大小差別極大。目標檢測的一個直接應用是計數,它在現實生活中應用廣泛,從計算收獲水果的種類到計算公眾集會或足球賽等活動的人數,不一而足。
- 3、語義分割(Semantic Segmentation)
我們可以把實例分割看作是目標檢測的下一步。它不僅涉及從圖像中找出對象,還需要為檢測到的每個對象創建一個盡可能準確的掩碼。
你可以從上圖中看到,實例分割算法為四位披頭士成員和一些汽車創建掩碼(不過該結果并不完整,尤其是列儂)。
還有實例分割與語義分割有所不同,物體分割不僅需要對圖像中不同的對象進行分類,而且還需要確定它們之間的界限、差異和關系。
- 4、目標追蹤
?
目標追蹤旨在追蹤隨著時間不斷移動的對象,它使用連續視頻幀作為輸入。該功能對于機器人來說是必要的,以守門員機器人舉例,它們需要執行從追球到擋球等各種任務。目標追蹤對于自動駕駛汽車而言同樣重要,它可以實現高級空間推理和路徑規劃。類似地,目標追蹤在多人追蹤系統中也很有用,包括用于理解用戶行為的系統(如零售店的計算機視覺系統),以及在游戲中監控足球或籃球運動員的系統。
- 其他任務技術:
- 圖像標注 (Image Captioning)
- 圖像標注是一項引人注目的研究領域,它的研究目的是給出一張圖片,你給我用一段文字描述它。(根據圖片生成描述文字)
- 圖像生成(Image Generator):文字轉圖像
- 超分辨率、風格遷移、著色
- 超分辨率指的是從低分辨率對應物估計高分辨率圖像的過程,以及不同放大倍數下圖像特征的預測,這是人腦幾乎毫不費力地完成的。最初的超分辨率是通過簡單的技術,如bicubic-interpolation和最近鄰。在商業應用方面,克服低分辨率限制和實現“CSI Miami”風格圖像增強的愿望推動了該領域的研究。
- 風格轉換:作為一個主題,一旦可視化是相當直觀的,比如,拍攝一幅圖像,并用不同的圖像的風格特征呈現。
- 著色:是將單色圖像更改為新的全色版本的過程。最初,這是由那些精心挑選的顏色由負責每個圖像中的特定像素的人手動完成的。2016年,這一過程自動化成為可能,同時保持了以人類為中心的色彩過程的現實主義的外觀。
- 行為識別
- 行為識別的任務是指在給定的視頻幀內動作的分類,以及最近才出現的,用算法預測在動作發生之前幾幀的可能的相互作用的結果。
- 人體姿勢估計
- 人體姿勢估計試圖找出人體部位的方向和構型。 2D人體姿勢估計或關鍵點檢測一般是指定人體的身體部位,例如尋找膝蓋,眼睛,腳等的二維位置。
- 圖像標注 (Image Captioning)
總結
以上是生活随笔為你收集整理的计算机视觉概述:视觉任务+场景领域+发展历程+典型任务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Pytorch神经网络理论篇】 30
- 下一篇: 【Pytorch神经网络实战案例】03