深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)
摘要:機器視覺是人工智能正在快速發展的一個分支。簡單說來,機器視覺就是用機器代替人眼來做測量和判斷。機器視覺系統是通過機器視覺產品(即圖像攝取裝置,分CMOS和CCD兩種)將被攝取目標轉換成圖像信號,傳送給專用的圖像處理系統,得到被攝目標的形態信息,根據像素分布和亮度、顏色等信息,轉變成數字化信號;圖像系統對這些信號進行各種運算來抽取目標的特征,進而根據判別的結果來控制現場的設備動作[1]。深度學習是學習樣本數據的內在規律和表示層次,這些學習過程中獲得的信息對圖像等數據的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數據,其在語音和圖像識別方面取得的效果,遠遠超過先前相關技術[1]。該綜述主要內容即是關于深度學習在機器視覺應用領域的研究。
1引言
由文獻[2]可知在深度學習算法出來之前,對于視覺算法來說,大致可以分為以下5個步驟:特征感知、圖像預處理、特征提取、特征篩選、推理預測與識別。早期的機器學習中,占優勢的統計機器學習群體中,對特征是不大關心的。計算機視覺可以說是機器學習在視覺領域的應用,所以計算機視覺在采用這些機器學習方法的時候,不得不自行設計前4個部分,而這是一個艱難的任務。傳統的計算機識別方法把特征提取和分類器設計分開來做,然后在應用時再合在一起,比如如果輸入是一個人臉圖像的話,首先要有一個特征表達或者特征提取的過程,然后把表達出來的特征放到學習算法中進行分類的學習。因為手工設計特征需要大量的經驗,需要設計者對該領域和數據特別了解,設計出的特征還需要大量的調試工作。而另一個難點在于,設計者不只需要手工設計特征,還需要在此基礎上有一個比較合適的分類器算法,同時設計特征并且選擇一個分類器,這兩者合并達到最優的效果,幾乎是不可能完成的任務。
如果不手動設計特征,不挑選分類器,有沒有別的方案呢?能否同時學習特征和選擇分類器呢?即輸入某一個模型的時候,輸入圖片,輸出其標簽。比如輸入一個員工的人臉,輸出的標簽就是一個1000維的向量(假設要在1000個人里識別),其中對應員工的向量是1,其他的位置是0。這種設定符合人類腦科學的研究成果。AlexNet由多倫多大學幾個科學家開發,在ImageNet比賽上做到了非常好的效果。當時AlexNet識別效果超過了所有淺層的方法。此后,大家認識到深度學習的時代終于來了,并有人用它做其它的應用,同時也有些人開始開發新的網絡結構。機器視覺中比較成功的深度學習的應用,包括復雜環境下的人員檢測、視覺問答和物體檢測等。
2基于深度學習的復雜環境人員檢測方法研究
復雜環境指的是目標檢測中圖像分辨率不高、光照影響、檢測區域復雜、干擾嚴重的環境。復雜的檢測環境給目標檢測帶來了極大的干擾,國內外研究者提出多種方法應對復雜環境對目標檢測的干擾,但是由于應用場景不同,解決復雜環境干擾問題的方法也各不相同。在工業復雜生產環境下,作業人員的安全問題至關重要。大多數工業企業采用人眼觀察視頻的方式對作業人員位置進行判斷,這種方式長時間會使管理者出現疲勞問題,效率非常低下,遇到安全問題也不能進行及時的處理。因此采用圖像處理以及深度學習技術使計算機代替人眼去檢測和定位人員,不僅可以提高檢測的準確率,同時也可以減輕監管人員的工作負擔。
由文獻[3]知在工業環境下進行圖像的采集并進行人員多種姿態、狀態的數量統計,同時將數據集中的人員進行標注,形成算法訓練對應格式數據集;其次針對工業復雜環境下人員難以檢測的問題,分別使用HOG+SVM人員檢測算法、Faster_RCNN人員檢測算法以及Centernet人員檢測算法對本文人員數據集進行訓練測試和分析,得出Centernet人員檢測算法在檢測精度和速度上均優于其他算法的結論;最后針對于Centernet人員檢測算法在實際應用中對于大面積人員遮擋無法檢測到的問題,提出基于背景差法的改進Centernet人員檢測算法,利用背景減除法快速確定人員大致位置的特點,調整Centernet得分閾值的大小,使得分較少的大面積遮擋人員也可以正確被檢出,提高Centernet人員檢測算法在應用中檢測的平均精度。
YOLO系列初代算法YOLOv1是由Joseph Redmon在2016年CVPR上首次發表,自此YOLO系列因其高效的性能而被廣泛應用到各類實時檢測任務中。在初代YOLO中,作者將圖像分割為77的共計49個小單元格,圖片經過YOLOv1網絡處理之后將會輸出一個7730的張量,其中77是指將圖片分割成7*7的網格,30是指預測框的寬高,中心點坐標,置信度以及可預測的20個物體種類,通過這樣的張量拼接方式使得YOLO可以同時完成對目標位置和種類的預測。此后的一系列YOLO算法基于這種思想不斷在精度,速度和可識別物體種類方面進行了改進,YOLO9000[4]將可識別物體的種類從20種增加到了9000種。由文獻[5]針知對于復雜環境對目標檢測的干擾問題,通過區域劃分解決檢測區域復雜問題,通過改進暗通道優先圖像處理策略,解決圖像分辨率、光照等對目標檢測的影響問題,結合SSDSN提出復雜環境下的人員檢測方法,通過對比Faster R-CNN、SSD、YOLOV2、YOLOV3及SSDSN五種算法的檢測結果,證明了SSDSN在復雜環境下的檢測能力。
3基于深度學習的視覺問答系統研究
2015年,學術界提出的自由形式和開放式視覺問答VQA任務,逐步成為人工智能研究的熱門方向。VQA系統將圖像與自由形式和開放式的自然語言表述問題作為輸入,產生的自然語言表述答案作為輸出。圖像處理的相關技術為視覺問答提供一定的支持和借鑒,比如圖像標記與圖像說明。和視覺問答相比,這些任務雖然需要視覺和語義知識,但是說明通常不具有針對性。相比之下,視覺問答中的問題往往需要詳細的有針對性的圖像信息,所以和一般的圖像標記與圖像說明不一樣。視覺問答(VQA)是計算機視覺、自然語言處理和人工智能交叉的新興交叉學科研究課題。給定一個開放式問題和一個參考圖像,視覺問答(VQA)的任務是預測與圖像一致的問題的答案。VQA需要對圖像有很深的理解,但是評估起來要容易得多。它也更加關注人工智能,即產生視覺問題答案所需的推理過程[6]。
在視覺問答中,計算機視覺技術用來理解圖像,NLP技術用來理解問題,兩者必須結合起來才能有效地回答圖像情境中的問題。這相當具有挑戰性,因為傳統上這兩個領域是使用不同的方法和模型來解決各自任務的。給定一張圖片,如果想要機器以自然語言來回答關于這張圖片的某一個問題,那么,機器對圖片的內容、問題的含義和意圖以及相關的常識都需要有一定的理解。在實際應用中,針對信息中大量的圖片,采用視覺問答系統就可以使用機器來采集相應有用的信息,減少了人的工作量。近年來,由于圖形的強大表現力,用機器學習分析圖形的研究越來越受到關注,圖神經網絡是基于深度學習的方法,在圖域上運行卷積神經網絡。由于其令人信服的性能和高可解釋性,GNN最近已成為一種廣泛應用的圖形分析方法,其側重于分類、鏈路預測和聚類。在視覺問答中,圖像中的目標可視為圖的節點,節點間基于問題的聯系可視為邊。綜上,在聯合嵌入模型的基礎上結合圖卷積神經網絡,加強圖像目標和問題間的聯系,通過圖網絡強大的分類能力,以提高視覺問答的準確率[7]。
4基于深度學習的物體檢測系統研究
人類的視覺系統能夠迅速地、有選擇地從視覺場景中檢測出感興趣的目標或者具有顯著特征的物體,并根據更高層次的視覺任務目的對它們進行處理和理解,從而實現相應的行為或決策。將人類這種選擇性視覺注意機制引入到計算機視覺的信息處理中,可以有效地減少視覺計算所需處理的數據量、加速整個處理過程,并進一步方便更高層次視覺任務的處理,因而該方面的研究受到學術界的廣泛關注并應用到計算機視覺的各個領域。
人工神經網絡被認為是一種以簡化的方式模仿人類大腦并行計算機制的數學模型,人們同樣試圖建立一些計算模型來模仿人類視覺系統注意機制,以實現選擇性地專注于一些與視覺任務目的相關的事物而忽略其他事物,從而可以利用有限的計算資源來快速完成視覺場景的處理和理解等過程[8]。
基于深度學習的顯著性物體檢測方法,需要對模型進行訓練,因此需要大量的樣本圖片及其對應的標簽。雖然在人工標注時耗費大量的時間,以及在網絡訓練和和參時也花費一定的時間,但是一旦將網絡模型訓練好,可以適用于較為復雜場景下的顯著性物體檢測,其性能明顯優于傳統的顯著性物體檢測方法。目前,大多數的基于深度學習的顯著性物體檢測方法都是采取全監督的方式,即需要大量的樣本進行訓練;按照其網絡結構,一般可以將這些方法分為基于傳統卷積神經網絡的方法和基于完全卷積神經網絡的方法。雖然基于完全卷積神經網絡的顯著性檢測方法相比傳統卷積神經網絡的顯著性檢測方法能更好地保存空間信息,但經過卷積、下采樣和上采樣后,最終的特征圖喪失了顯著物體的一些細節,在一定程度上影響了檢測的精度。因此,在此基礎上,基于復雜的特征融合網絡結構被提出,如將底層特征和高層特征征行連接,獲得更加豐富的語義信息;在文獻[9]中,作者加到了注意力機制,來進行更加精確的顯著目標檢測,從而克服之前的網絡模型的缺點,提高模型的檢測精度。
5總結與展望
對于人員檢測,由于實際監控場景的復雜性,算法在人員檢測的過程中不可避免地會存在一些誤報,以后可以從主干網絡入手,對于人員的特征進行更加精準的提取,從而進一步提升算法的檢測性能。另一方面,由于存在數據較少、目標標注引入干擾背景的問題, DE-YOLO檢測的精確度提升會遇到瓶頸,同時網絡結構如何進一步的壓縮和裁剪也是一個值得研究的方向, 后期的工作將針對這些問題進入深入的研究。
對于智能視覺問答系統,作為需要視覺理解與推理能力的、融合計算機視覺以及自然語言處理的視覺問答VQA,它的進步在計算機視覺的發展和自然語言處理的能力提高的基礎上還有著更高的要求,即對圖像的理解——在圖像處理的基礎能力,如識別、檢測等的基礎上還要學習知識與推理的能力。需要提高模型的精度,提高回答問題的粒度。然而,這條路還有很長的距離要走,一個能夠真正理解圖像、學習到知識和推理能力的VQA模型才是最終目標。
對于物體檢測,由文獻[8]知顯著性物體檢測仍然是一個非常具有挑戰性的工作,具有十分重要的研究價值。目前,顯著性物體檢測的首選方法是基于深度學習的方法,具有較高的檢測精度,可適應于復雜場景下的物體檢測。未來,顯著性物體檢測將更加關注網絡模型的大小、檢測的精度以及實時性方面,作為視覺任務的前序的預處理,為各種實際的應用任務服務。
基于深度學習的機器視覺和物聯網技術近年來受到研究人員和商業領域的廣泛關注,這兩項技術對我們的生活、城市和世界都產生了積極的影響。物聯網技術和深度學習構成了一個數據生產者-消費者鏈,其中物聯網技術生成由深度學習模型分析的原始數據,深度學習模型產生高層次的分析,反饋給物聯網系統,以微調和改進服務。
參考文獻:
[1]孫志軍;薛磊;許陽明;王正;深度學習研究綜述[J];計算機應用研究;2012年08期
[2]張馳;關于深度學習與計算機視覺;雷鋒網;2016年5月
[3]滕悅;工業復雜環境下人員監測系統研究與設計;遼寧科技大學
[4]REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 6517-6525
[5]馬金濤;基于深度學習的復雜環境目標檢測方法研究;哈爾濱理工大學;2021年第09期
[6]葛夢穎;孫寶山;基于深度學習的視覺問答系統;天津工業大學;2096-4706(2019)11-0011-04
[7]龔安;丁磊;姚鑫杰;基于圖卷積網絡的視覺問答研究;中國石油大學(華東); 1672-9722.2022.01.026
[8]蔣峰嶺;孔斌;錢晶;王燦;楊靜;顯著性物體檢測研究綜述;1000-8829(2021)01-0001-15
[9]CHENSH,WANGB,TANXL,etal.Embeddingattentionandresidualnetworkforaccuratesalientobjectdetection[J].IEEETransactionsonCybernetics,2020,50(5):2050-2062.
總結
以上是生活随笔為你收集整理的深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2015年最大的台风叫什么名字(2015
- 下一篇: 雨林木风Linux(雨林木风linux)