AR(Augmented Reality)学习
AR(Augmented Reality)學習
AR硬件概覽
AR硬件發展的驅動力源于計算機處理器、顯示技術、傳感器、移動網絡速率、電池續航等多個領域的技術進步。
目前能夠確定的AR硬件類型有以下幾種:
? 手持設備
? 固定式AR系統
? 空間增強現實(SAR)系統
? 頭戴式顯示器(HMD)
? 智能眼鏡
單目眼鏡:
Google Glass,單眼呈現信息,導航、短信、電話、錄像照相等功能,由于是單眼,無法呈現3D效果,且由于外觀原因應用場景有限。
雙目眼鏡:
Meta Glass,雙眼呈現影像時,利用雙目視差可以產生開發者想要的3D效果。通過對現實場景的探測并補充信息,佩戴者會得到現實世界無法快速得到的信息;而且由于交互方式更加自然,這些虛擬物品也更加真實
雙目立體視覺三維測量原理
上圖所示為簡單的平視雙目立體成像原理圖,兩攝像機的投影中心連線的距離,即基線距離B。兩攝像機在同一時刻觀看時空物體的同一特征點P,分別在“左眼”和“右眼”上獲取了點P的圖像,他們的坐標分別為Pleft=(Xleft,Yleft);Pright=(Xright,Yright)。將定兩攝像機的圖像在同一平面上,則特征點P的圖像坐標的Y坐標一定是相同的,即Yleft = Yright =Y。由三角幾何關系可以得到如下關系式:
則視差為:Disparity=Xleft-Xright.由此可以計算出特征點P在攝像機坐標系下的三維坐標:
因此,左攝像機像面上的任意一點只要能在右攝像機像面上找到對應的匹配點,就完全可以確定該點的三維坐標。這種方法是點對點的運算,像平面上所有點只要存在相應的匹配點,就可以參與上述運算,從而獲取對應的三維坐標。
雙目成像的原理簡介:
將 3D 成像效果分為三個緯度:遠近,前后,深淺。
遠近:整個場景在腦海中的遠近效果;
前后:圖像在屏幕的前(出屏幕效果)或屏幕后;
深淺:場景中各個物體距離所產生的層次;
?
1、遠近調節:
場景遠近是左右眼兩影像間距離決定的;
立體像在屏幕前時,兩影像距離越遠則圖像越近;
立體像在屏幕后時,兩影像距離越遠則圖像越遠;
2、前后調節:
左(右)相機影像在左(右),則圖像在屏幕后方;
右(左)相機影像左(右),則圖像在屏幕前方;
3、深淺調節:
由 3D 攝像機兩個攝像頭的間距決定;
間距大則景深大,間距小則景深小;
由于人眼目距在65mm左右,大腦已經習慣此目距的景深效果,我認為對還原真實場景效果來說,攝像頭間距65mm還是比較合理。
AR的系統結構
AR的關鍵技術
目前AR技術的技術難點在于:精確場景的理解、重構和高清晰度、大視場的顯示技術。
1、對現實場景的理解和重構
? ? ?在增強現實系統中,首先要解決“是什么”的問題,也就是要理解、知道場景中存在什么樣的對象和目標。第二要解決“在哪里”的問題,也就是要對場景結構進行分析,實現跟蹤定位和場景重構。
物體的檢測和識別技術
? ? ? 物體檢測和識別的目的是發現并找到場景中的目標,這是場景理解中的關鍵一環。廣義的物體檢測和識別技術是基于圖像的基本信息(各類型特征)和先驗知識模型(物體信息表示),通過相關的算法實現對場景內容分析的過程。在增強現實領域,常見的檢測和識別任務有,人臉檢測、行人檢測、車輛檢測、手勢識別、生物識別、情感識別、自然場景識別等。
目前,通用的物體檢測和識別技術,根據不同的思路可以分為兩種:一種是從分類和檢測的角度出發,通過機器學習算法訓練得到某一類對象的一般性特征,從而生成數據模型。這種方法檢測或者識別出的目標不是某一個具體的個體,而是一類對象,如汽車、人臉、植物等。這種識別由于是語義上的檢測和識別,所以并不存在精確的幾何關系,也更適用于強調增強輔助信息,不強調位置的應用場景中。如檢測人臉后顯示年齡、性別等。另外一種識別是從圖像匹配的角度出發,數據庫中保存了圖像的特征以及對應的標注信息,在實際使用過程中,通過圖像匹配的方法找到最相關的圖像,從而定位環境中的目標,進一步得到識別圖像和目標圖像的精確位置,這種識別適用于需要對環境進行精確跟蹤的應用場景。
就現階段而言,識別檢測技術的難點之一是技術的碎片化。這一方面是由于每一類對象都會有其獨有的特征,而不同特征的提取和處理都需要實現一一對應,這對識別檢測是一個巨大的挑戰。另一方面,圖像本身還受到噪聲、尺度、旋轉、光照、姿態等因素的影響。近幾年來,隨著深度學習技術的不斷成熟,檢測和識別方法也越來越統一,而性能也在不斷提高中。
跟蹤定位技術
跟蹤技術的方法可以分為基于硬件和基于視覺兩大類。基于硬件設備的三維跟蹤定位方法在實現跟蹤定位的過程中使用了一些特殊的測量儀器或設備。常用的設備包括機械式跟蹤器、電磁式跟蹤器、超聲波跟蹤器、慣性跟蹤器以及光學跟蹤等。光學跟蹤和慣性跟蹤是比較常用的兩種硬件跟蹤方式,HTC Vive就是采用了光學跟蹤和慣性跟蹤兩種硬件來定位頭部的位置。使用硬件設備構成的跟蹤系統大多是開環系統,跟蹤精確取決于硬件設備自身的性能,其算法的擴展性要差一些,且成本相對較高。
視覺跟蹤方法具備更強的擴展性,其系統多為閉環系統,更依賴于優化算法來解決跟蹤精度問題。相比于上述基于硬件設備的跟蹤方法,計算機視覺跟蹤方法提供了一種非接觸式的、精確的、低成本的解決方法,但是基于視覺的方法受限于圖像本身,噪聲、尺度、旋轉、光照、姿態變化等因素都會對跟蹤精度造成較大的影響,因此更好地處理這些影響因素,研發魯棒性強的算法就成為下一步AR技術的研究重點。
根據數據的生成方式,視覺跟蹤技術的算法可以分為兩種,一種是基于模板匹配的方式,預先對需要跟蹤的target進行訓練,在跟蹤階段通過不斷的跟預存訓練數據進行比對解算當前的位姿。這類方法的好處是速度較快、數據量小、系統簡單,適用于一些特定的場景,但不適用于大范圍的場景。
另外一種是SLAM方法,也就是即時定位和地圖構建技術。這類技術不需要預存場景信息,而是在運行階段完成對于場景的構建以及跟蹤。其優點是不需要預存場景,可以跟蹤較大范圍,適用面廣,在跟蹤的同時也可以完成對于場景結構的重建。但目前這類技術計算速度慢、數據量大、算法復雜度高,對于系統的要求也較高。Hololens和MagicLeap的宣傳視頻中都展現了這方面技術,而亮風臺對相應的技術也在研發當中。
為了彌補不同跟蹤技術的缺點,許多研究者采用硬件和視覺混合跟蹤的方法來取長補短,以滿足增強現實系統高精度跟蹤定位的要求。
2、增強現實的顯示技術
透射式頭盔顯示器
目前大多數的AR系統采用透視式頭盔顯示器實現虛擬環境與真實環境的融合。根據真實環境的表現形式劃分,主要有視頻透視式頭盔顯示器和光學透視式頭盔顯示器兩種形式。
視頻透視式頭盔顯示器通過安裝在頭盔上的微型攝像頭獲取外部真實環境的圖像,也就是通過攝像頭來采集真實場景的圖像進行傳遞。計算機通過場景理解和分析將所要添加的信息和圖像信號疊加在攝像機的視頻信號上,將計算機生成的虛擬場景與真實場景進行融合,最后通過類似于浸沒式頭盔顯示器的顯示系統呈現給用戶。
雖然視頻透射式頭盔在顯示上不受強光的干擾,具有比較大的視場,但由于真實環境的數據來自于攝像頭,因此會造成顯示分辨率較低的不利因素。另一方面,一旦攝像機與用戶視點不能保持完全重合,用戶看到的視頻景象與真實景象將會存在偏差,因此會造成在某些領域(特別是工業、軍事等領域)出現一些安全隱患。
光學原理的透視式頭盔顯示器的基本原理則是通過安裝在眼前的一對半反半透鏡融合呈現出真實場景和虛擬場景。與視頻透射式不同的是,光學透視式的“實”來自于真實的光源,經過透視光學系統直接進入眼睛,計算機生成的“虛”則經過光學系統放大后反射進入眼睛,最后兩部分信息匯聚到視網膜上從而形成虛實融合的成像效果。
光學透視式頭盔相對來說結構簡單,分辨率更高,因其能夠直接看到外部,真實感和安全性也更強。其缺點是,在室外強光條件下顯示效果會受影響。目前Hololens以及亮風臺的HiARGlasses都采用了光學透射式的成像方案。
不難看出,兩種方案各有優缺點,如何選擇最優方案,目前來看,還應基于實際應用場景來進行判斷。
由于光學透射式頭盔跟實際場景結合更緊密,真實感更強,大多數廠家會選擇這種方案。對于透射式頭盔顯示器來說,單純的強調厚薄或者視場大小并沒有任何實際意義。這是由于厚度和視場是矛盾的,要做得較薄,方便用戶使用佩戴,視場就必然變小;想要擁有大視場,則其厚度就必然增大,設備就目前來說也會顯得比較笨重,不易佩戴。因此在目前技術依舊存在障礙的情況下,大家都會采取一些折中的方案。
數字光場顯示
隨著Magic Leap的宣傳視頻,數字光場這個概念也變得廣為人知。這種不采用屏幕來做載體的顯示方式,通過記錄并復現光場來完成虛擬物體的顯示。通過呈現不同深度的圖像,使用戶在觀察近景或遠景時,可以實現主動的對焦,這也是光場顯示的一大優點。
同樣,光場顯示也有不同的顯示方案,一種方案是采用多層的顯示器,如光場立體鏡。如Magic Leap采用的是光導纖維投影儀。這套方案的優勢是可以做到很大的視場角,顯示更加符合人的真實感受。但這一方案同時也具有比較大的挑戰性,光場的顯示需要比較大的計算量,并且需要有相應的手段記錄或者生成想要疊加的虛擬對象相應位置的光源信息,同時還要精細地控制投影的內容和位置,目前這些技術還都處于研究階段。
盡管存在比較多的挑戰,光場顯示技術仍舊是非常值得期待的一種成像方式。
AR面臨的挑戰
移動AR存在兩大難點:注冊必須極為精準,注冊對計算能力和內存的利用必須極為高效。
AR應用在智能手機上的大規模部署仍然存在著下列重大障礙:
1、相機質量與成像處理。智能手機通常配備的相機傳感器在弱光條件下表現糟糕:圖像模糊,開始出現明顯色差。相機傳感器硬件通常禁止低層級訪問。API只提供了相機傳感器的高層級訪問,無法控制曝光、光圈及焦距。小型CCD傳感器導致相機采樣噪點增加,進而嚴重影響后續CV算法的發揮。圖像獲取過程中的質量損失很難通過后期處理步驟補償。
2、電量消耗。電池電量近年來并沒有顯著提升。相機傳感器在以高幀率持續運行時耗電量很大,其主要原因是目前手機的設計用途仍然是拍照,而不是攝影。另外,傳感器和網絡接口也是耗電大戶。運行功能強大的AR應用會讓電池迅速耗干。因此,AR應用必須只能設計成供短時間使用,而不是一種“常開”功能。
3、網絡依賴性。遠程訪問大量數據受到幾個因素的影響。首先,網絡延遲會導致令人不爽的延遲,拖累AR應用的瞬時表現。其次,訪問遠程數據僅在開了流量套餐時才有可能做到,而流量套餐可能過于昂貴或者無法開通。最后,某些地區的網絡覆蓋可能不滿足條件。于是完全獨立的AR應用成為了唯一的可行選擇,這就意味著需要在設備上占用大量的存儲空間。
4、可視化與交互的可能性。智能手機的外形因素在購買決策中發揮著重要作用。實際上,可接受最大設備的尺寸嚴格制約了顯示屏的大小。交互技術同樣存在著類似的限制。多點觸控界面或許是最為先進的交互機制,但它在某些特定任務——如像素級的選取上表現糟糕。
理論上講,針對AR改進未來智能手機需從哪些方面入手已是眾所周知。在實踐中,AR應用的開發者卻要看硬件廠商和服務供應商的臉色,后者做出硬件發展決策的依據是市場預測,而其中可能不含對AR的需求。不過,硬件總體是朝著正確的方向發展的,尤其在移動游戲或移動導航系統的驅動下——而這兩者與AR在技術需求方面存在許多共通之處。此外,研究人員意識到目前相機控制方面存在限制,更好的相機API也會因此誕生,比如Frankencamera項目。
計算機視覺面臨的挑戰:
紋理結構。大多數方法依賴于興趣點外形上的自然特征,要求環境中各區域紋理足夠清晰。興趣點的主要問題在于,紋理的呈現形式至關重要。尤其在室內場景中,常常會有白墻出現,使得基于自然特征的定位方法很難發揮作用。
光照和天氣條件。盡管自然特征描述器通常被設計為不受光照影響,但這一假設只有在描述實際物理特征的觀測研究中成立。不幸的是,室外環境中大量以自然畫面呈現的特征與實際物理特征并不相關。場景中物體投射的陰影會造成斑點、邊角、線條的出現,還會隨著光照或天氣條件變化而動態移動。因此,存在著大量的會對定位質量產生嚴重影響的異常因素和不匹配因素,這與匹配算法的選擇并無關系。
數據庫規模大、易變化。對于室外環境而言,在定位之前必須采集大量數據并處理生成初始模型。利用昂貴設備的實時方法能夠處理這一問題:然而,無法訪問的區域仍然會造成最終模型中的孔洞(即未能構建地圖的區域)。此外,得到的模型僅代表某個時間點的靜態快照。環境中的任何變動,如商店櫥窗的翻新,咖啡店遮陽傘的開閉,停車場汽車的去留,都會讓數據采集生成的模型瞬間過時。另一個重要方面是通信通道(可能是移動網絡)中最終模型的分發方式。由于這些模型通常體積頗大,整體還是拆分傳輸都會帶來技術難題。
失準及丟失的傳感信息。在室外定位中,GPS和指南針提供了關于設備大致位置和方向的極具價值的絕對信息。不幸的是,傳感器并不健壯:在不同的地點,傳感信息的準確度可能會有天壤之別。尤其是在狹窄的城市峽谷里,GPS信息可能會偏差100米,甚至會不可用。類似的是,磁干擾會嚴重影響電子指南針的讀數,而磁干擾在人造環境中是不可避免的。
?
總結
以上是生活随笔為你收集整理的AR(Augmented Reality)学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于光照的物理模型(一)
- 下一篇: 蒙特卡洛光线追踪