基于改进SURF算法的实时视频拼接
| Journal of Image and Signal Processing Real-Time Video Stitching Based on Improved SURF Zhi’ang Chen, Xiaogang Xu, Guanlei Xu ●Abstract ●Full-Text PDF ●Full-Text HTML ●Linked ReferencesDalian Naval Academy, Dalian Liaoning Email: 940287607@qq.com Received: Oct. 8th, 2015; accepted: Oct. 22nd, 2015; published: Oct. 27th, 2015 Copyright ? 2015 by authors and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/ ABSTRACT Video mosaic is widely used in the fields of video conferencing, video surveillance and so on; it can increase the field of view while not reducing resolution. Due to large amount of data, complex environment and other reasons, real-time video mosaic becomes an active area of research. In this paper, technique of real-time video mosaic is studied. Keywords:Video Mosaic, Image Registration, Image Fusion, SURF 基于改進SURF算法的實時視頻拼接 陳志昂,徐曉剛,徐冠雷 海軍大連艦艇學院,遼寧 大連 Email: 940287607@qq.com 收稿日期:2015年10月8日;錄用日期:2015年10月22日;發布日期:2015年10月27日 摘 要 視頻拼接可以廣泛地應用在視頻會議、視頻監控等諸多領域,它可以在不降低分辨率的前提下擴大視野。然而由于它具有數據量大、環境復雜等特點,使得實時視頻拼接成為一個研究熱點。本文對實時視頻拼接技術進行了研究。視頻拼接的本質是圖像拼接,首先介紹了圖像拼接的一般流程、圖像配準的含義,并對常用的圖像配準技術進行了分析,確定了采用基于特征點提取、特征點匹配和圖像融合的圖像拼接方法。 關鍵詞 :視頻拼接,圖像配準,圖像融合,SURF 1. 緒論 視覺是人們獲取現實世界客觀信息的最直接的方式[1] ,隨著電子技術、多媒體技術的飛速發展,越來越多的人使用數碼相機、攝像機、攝像頭等設備來獲取視頻。單個設備獲取的視野范圍相對較小,即使可以通過調節焦距增大視野,但是這時也會降低分辨率 [2] ,很多時候人們需要獲取大視野的視頻,這時通常采取的方法有:1) 通過移動或旋轉視頻采集設備,比如通過旋轉的云臺來動態觀察四周的場景,但是這樣在某一時刻只能得到一個局部視野 [3] ;2) 通過多個視頻采集設備,比如在超市等監控場合中,但是這時得到的是多個分離的界面,沒有一體化的感覺;3) 通過廣角鏡頭和魚眼攝像機,但是這類設備通常比較昂貴,并且會出現不同程度的畸變。 由于視頻實質上是由一系列靜態的圖像組成,所以圖像拼接是視頻拼接的核心,目前已經有大量關于圖像拼接的研究,常規的圖像拼接方法主要追求的是拼接質量,僅需滿足觀測的需要,對于實時性的要求并不高,但是視頻拼接與圖像拼接有著很大的不同,最大的不同就是對于實時性的要求 [4] 。所謂實時性,是指視頻拼接系統能夠實時的完成圖像采集、圖像拼接和輸出顯示整個過程 [5] 。由于獲取的視頻存在視角、尺度、光照等差異,因此如何保證視頻拼接在具有良好實時性的同時還具有良好的拼接效果是視頻拼接的研究重點。 本文圍繞實時視頻拼接進行了較為深入的研究。由于實時視頻拼接系統要求在規定的時間內完成視頻圖像的拼接,同時拼接后的視頻輸出也必須滿足特定制式的要求,這樣就要求算法具有很強的實時性和運行效率。針對這個問題本文改進基于SURF算法的的圖像配準。系統地研究了SURF特征提取算法并對其進行了改進,增加了自適應算法,可以精確定位特征提取范圍,并且改進了特征描述符,減小了維度。實驗結果表明改進后的SURF特征提取算法可以加快特征提取速度,同時對于圖像旋轉、放縮、光照等條件具有不變性。 2. 視頻拼接原理 2.1. 視頻拼接關鍵技術 視頻拼接的流程如圖1所示: 由視覺暫留原理或“余輝效應”可知,當每秒連續顯示的圖像超過一定幀數(一般為大于24幀),人眼就無法再區分這些連續圖像中的每一幅靜態圖像 [6] 。由此可知,只要將連續的圖像以小于0.04 s的顯示占用時間進行順序播放,那么人眼接受并傳遞到大腦中的畫面就是連續畫面。這時整個圖像呈現的連續畫面就是視頻。由此可知視頻是由一幀一幀的圖像組成的,所以視頻拼接的本質就是圖像拼接 [7] 。 圖像拼接過程主要由圖像采集、圖像預處理、圖像配準圖像變換和圖像融合這五個部分組成 [8] ,其中圖像配準和圖像融合是其中的關鍵技術。圖像拼接的流程如圖2所示: 1) 圖像采集:圖像可以通過數碼相機、數碼攝像機、攝像頭等設備獲得。本文在視頻拼接時采用的設備是普通的USB攝像頭。 Figure 1. The flow chart of video mosaic 圖1. 視頻拼接流程圖 Figure 2. Process of image mosaic 圖2. 圖像拼接流程 2) 圖像預處理:圖像預處理的目的是為了消除噪音、畸形、失真等情況,為后續的圖像配準做準備 [9] 。由于本文采用的圖像配準方法對光照、噪聲等具有很好的魯棒性且攝像頭型號和參數一致,同時為了加快拼接速度,本文并未做預處理的過程。 3) 圖像配準:圖像配準是指把在不同條件下(比如不同時間、不同傳感器、不同視角)所獲取的兩幅或多幅圖像通過計算出變換矩陣來“對齊”具有重疊區域的圖像。對于本文,不同條件主要是指視角不同。 4) 圖像融合:如果將配準后圖像直接拼接在一起,會出現明顯的拼接痕跡,使整個圖像看起來不夠自然,而圖像融合可以解決這一問題。 2.2. 圖像配準 圖像配準通俗來講就是使兩幅或多幅圖像中像素點之間一一映射。而從數學上來講,假設兩幅待拼接的數字圖像可以用二維矩陣表示,如果用和分別表示兩幅圖像在點處的灰度值,那么圖像I1和I2之間的配準關系 [10] 可以表示如下: (1-1) 其中,f代表幾何變換函數,g代表灰度變換函數。配準的主要目的就是尋找最佳的幾何變換關系f與灰度變換關系g,使兩幅圖像達到最佳對準。因為空間變換是灰度變換的前提,而且很多時候并不需要求解灰度變換關系,所以配準的關鍵就在于尋找空間幾何變換關系f,因此式(1-1)可以被改寫為: (1-2) 目前,國內外已經有大量關于圖像配準的研究,比較常用的配準方法有以下三大類: 1) 基于灰度信息的圖像配準:這種方法直接利用圖像本身具有的灰度的一些統計信息來表示圖像之間的相似程度,然后采用某種搜索方法來找到使相似性度量值達到最大值或最小值的點,以此來確定圖像之間的變換關系 [11] 。常見的相似性度量有:① 兩幅圖像的灰度的平方差之和(sum of squared different, SSD);② 序列相似度檢測(SSDA);③ 互相關;④ 相位相關。 2) 基于變換域的圖像配準:最常用的一種基于變換域的圖像配準方法是傅里葉變換。它的原理是圖像的平移、旋轉和尺度等變換在頻域中均有相對應的分量。相位相關法 [12] 是經常使用的一種基于變換域的圖像配準方法,相位相關經常被用于配準兩幅圖像的平移變化,其依據的是傅里葉變換的平移特性。 3) 基于特征的圖像配準法:該方法是目前采用最多的配準方法,它利用圖像中保持不變的內部特征進行匹配。基于特征的圖像配準方法的優點是大大減少了圖像的信息量,使得計算速度明顯提高,并且對圖像灰度信息依賴性小、對噪聲、旋轉、尺度變換不是很敏感。 2.3. 圖像融合 在進行圖像獲取的過程中,由于圖像采集設備本身參數不可能完全相同,另外存在光照、視野、角度等差異,使得待拼接圖像在重疊區域會有差異。如果不對圖像做任何處理,只是簡單的將圖像進行疊加,那么這時得到的拼接圖像中就會存在非常明顯的拼接縫隙,使得圖像看起來非常不自然。 圖像融合目的是使配準后的圖像經過拼接得到的最終圖像無明顯拼接縫隙,使得圖像在重疊區域實現平滑的過渡,讓人看起來覺得舒服。圖像融合是圖像拼接的最后一步,它影響著圖像拼接的質量同時也影響著圖像拼接的速度。由于最終用于實時視頻拼接中,因此圖像融合的算法不能復雜,本節對幾種常用的簡單圖像融合方法進行分析,并且提出一個改進的圖像融合方法,該方法在不顯著增加運算量的同時,達到了更好的融合效果。 常用的圖像融合方法有平均值法、最大值法、漸入漸出法 [13] 。所謂平均值法是指對待融合的兩幅配準圖像,將其重疊區域的像素值進行平均,非重疊區域的值保留原圖像的像素值。所謂最大值法是指重疊區域不再是對兩幅待拼接的圖像進行平均,而是通過比較待拼接圖像對應點像素值大小進行融合。漸入漸出法是在圖像重疊區域內使用線性加權過渡函數將兩幅圖像的灰度值進行加權得到融合后圖像的灰度值,以實現重疊區域邊界的平滑過渡。 3. 改進SURF的視頻拼接算法 3.1. SURF算法原理 SURF算法實現圖像配準主要有三大工序,1) 特征點檢測;2) 對特征點附加詳細的信息(局部特征)也就是所謂的描述器;3) 特征點匹配。 特征點檢測包括三個步驟,首先建立積分圖像,然后用箱式濾波器建立圖像的尺度空間,最后在建立的尺度空間上對特征點進行定位。 特征點附加詳細的信息包括兩個步驟,首先求取特征點的主方向,這樣可以保證算法的旋轉不變性,然后將特征點的鄰域旋轉到主方向,對特征點進行描述。 特征點匹配就是采用最簡單的兩向量內積最大值為最匹配的點,設定一閾值,只有當這個最大值大于該閾值方可認為兩特征點匹配 [14] 。 積分圖像的建立使得SURF算法和其他算法相比不僅具有較好的縮放、旋轉、平移等特性,而且計算速度很快。積分圖像是對原始圖像進行積分計算得到的圖像。積分圖像的每一點表示為原圖像從原點到該點的矩形區域的像素和,積分圖像的建立之所以能夠加快計算速度,是因為我們對整幅圖像進行積分圖像遍歷后,原始圖像中的任一矩形區域的像素之和就可以通過加減運算來完成,而與矩形的面積無關,矩形越大,節省的計算時間越多。 SURF算法之所以能夠采用積分圖像來計算,另外一個很重要的近似就是采用箱式濾波器來近似高斯核函數 [15] 。箱式濾波器的引入使得卷積模板都是框狀模板,使用積分圖像來計算就大大減少了計算量,從而提高了算法的運算效率。SURF算法采用箱式濾波器來近似代替高斯核函數,使得卷積模板均由簡單的矩形構成。積分圖像的引入解決了矩形區域快速計算的問題,箱式濾波器的近似極大提升了計算速度。 因此本文采用SURF算法進行特征提取,為了將其運用于實時視頻拼接系統中,本文對其進行了改進。 3.2. 改進的SURF算法 原有的SURF算法是對整個圖像區域提取特征點,然后在整個圖像范圍內進行特征匹配,由于在視頻拼接系統中兩個攝像頭拍攝的畫面必然會有重疊區域的存在,所以我們只需要在重疊部分進行特征點提取就可以,這樣的好處是可以減少特征提取的時間,同時減少特征匹配的時間并同時可以減少誤匹配。 一般視頻拼接的圖像都會有重合部分,本文利用特征匹配的方法,在攝像頭輸入視頻的的首個處理幀進行了全圖匹配,會得到特征匹配對,此時可以利用特征匹配對得到重合區域,在之后的實時視頻拼接中,就不再使用全圖的特征檢查,而是分別在兩輸入幀對應的重合區域進行特征檢測,這樣就大大減少了SURF算法的時間,正常情況下,兩視頻圖像的重疊區域在30%~50%,通過首幀確定重疊范圍的方法可以計算出來重疊范圍平均會占圖像大小的30%左右,利用重疊區域的特征點可以進行后續的特征匹配。通過這種方法能夠減小SURF特征檢測的運行時間,對于提升拼接的實時性有很大的幫助。具體過程如下: 1) 首先獲取兩個攝像頭同一時間點采集到的第一幀圖像,通過SURF算法對兩幅圖像進行全局域的特征檢測,其過程為建立積分圖像,然后用箱式濾波器建立圖像的尺度空間,最后在建立的尺度空間上對特征點進行定位。 2) 對特征點進行特征描述,首先求取特征點的主方向,這樣可以保證算法的旋轉不變性,然后將特征點的鄰域旋轉到主方向,對特征點進行描述。 3) 對兩幅圖像中已檢測到的特征點進行粗匹配,即先根據普拉斯響應正負號將特征點分為兩組,然后建立K-d樹尋找最近鄰和次近鄰,最后在對應的組中分別使用最近鄰和次近鄰比值匹配法進行特征點匹配。 4) 使用RANSAC方法對特征點進行提純,去除誤匹配點,最后剩下的就是準確匹配的特征點。 5) 最后,分別選取兩幅圖像中與中間距離最大的特征點,特征點的位置即可確定為重疊區域最邊緣。 如圖3所示,假設待拼接的兩幅首幀圖像檢測到(a,a’)、(b,b’)等共6對匹配點,分別選取兩幅圖像中與中間距離最大的匹配點,即為(c,c’)與(d,d’),然后分別過c點和d點分割兩幅圖像,即可確定重疊區域的大致范圍。 分別用檢測到的重疊區域的長度比圖像的總長,算出百分比,取此范圍作為后續幀的特征點檢測范圍。 6) 對于后面所有的連續幀,重復1)~5)過程,不過對于1)過程中的特征點提取范圍限定在已經計算得到的范圍內。 4. 仿真結果與分析 為了檢測上文方法計算出的重疊區域的準確性,采集風景視頻,然后提取首幀圖像的首幀圖像(圖4~6)。 Figure 3. Feature extraction range 圖3. 特征提取范圍 Figure 4. The first frame of landscape video 圖4. 風景視頻首幀圖像 Figure 5. The first frame of landscape video after matching 圖5. 匹配后的風景視頻首幀圖像 Figure 6. Overlapping area of detected 圖6. 檢測到的重疊區域 通過觀察圖4與圖6對比,發現仿真計算出的重疊面積已經無限接近實際的重疊區域。 圖7~10是使用原SURF算法和改進SURF算法就進行特征匹配的實驗結果。 由圖可以明顯的看出改進SURF算法相比原SURF算法在特征粗匹配時明顯的減少了誤匹配。 表1是特征匹配的點數和時間的對比,從中可以看出改進后的算法特征匹配時間有了很大的降低,同時誤匹配點數也降低了。 應用于實時視頻拼接的改進SURF算法由于限定了特征提取的范圍和降低了特征的維數,使得特征提取與匹配過程的運算量取得線性的下降,因為整個SURF算法的運算量大致上與其所提取特征的范圍內的像素點個數成線性關系,所以當提取范圍縮小時,能顯著地線性提升算法運行速度,提升算法在應用中的性能表現,另外在匹配過程中,由于維度的減小,也線性地降低了在特征點匹配中的運算時間。 Figure 7. The original rough SURF feature points matching 圖7. 原始SURF特征點粗匹配 Figure 8. The original purification of SURF feature points matching 圖8. 原始SURF特征點提純匹配 Figure 9. The improving of the rough SURF feature points matching 圖9. 改進SURF特征點粗匹配 Figure 10. The improving of the purification of SURF feature points matching 圖10. 改進SURF特征點提純匹配 Table 1. Comparison of the feature matching results 表1. 特征匹配結果對比 5. 結論 隨著多媒體、嵌入式、無線通訊等技術的發展,視頻拼接技術在智能監控、視頻檢索、虛擬現實、360度全景等領域會得到更加廣泛的使用。它能夠在不降低分辨率的前提下擴大視野、減少冗余。本文對實時視頻拼接技術的相關理論進行了研究,并給出了一些改進的方法。主要將SURF算法運用于實時視頻拼接中,提出一種基于改進SURF的特征提取算法。仿真結果表明改進的SURF算法在保證提取足夠數量特征點的前提下加快了特征提取速度,同時對圖像發生旋轉、尺度和光照變換具有很好的魯棒性。 文章引用 陳志昂,徐曉剛,徐冠雷. 基于改進SURF算法的實時視頻拼接 參考文獻 (References) |
總結
以上是生活随笔為你收集整理的基于改进SURF算法的实时视频拼接的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Logistic Regression-
- 下一篇: The powerful Android