生活随笔
收集整理的這篇文章主要介紹了
从脸部识别到火星机器人,正在改变世界的计算机视觉
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
轉載自:
從臉部識別到火星機器人,正在改變世界的計算機視覺 - CV領域新聞 - VALSE - 視覺與學習青年學者研討會
http://valser.org/thread-796-1-1.html?plg_nld=1&plg_uin=1&plg_auth=1&plg_nld=1&plg_usr=1&plg_vkey=1&plg_dev=1
計算機視覺是一門跨領域的計算機科學,它從真實的世界中獲取數據并予以分析,來生成數字或符號信息。通過這種方式計算機可嘗試處理高維數據,這種方式正是人類視覺感知圖像、面孔和類似數據的方式。因此,為了完成上述任務,這門學科大部分由不同模型組成,而且通常需借助于機器學習的研究成果,從數學(特別是幾何)、物理、統計、認知科學和神經科學中獲取輸入參數。自從科學家試圖通過模擬人類大腦來創建計算機的視覺或感知能力,神經科學變成為了不同的技術、算法和模型獲取靈感的源泉。
計算機視覺有很多分支學科,比如面部/頭部追蹤和監測、物體識別和姿態估計、圖像追蹤、場景重構、機器學習、動作捕獲與估測、圖像識別與修復,等等。事實上,我們可將人工智能視為其母學科,因為它利用機器學習和計算機視覺來獲取對環境的深層理解。有時候也會有一些哲學問題,因為它可能會被問到計算機是否真的能夠看見或意識到發生了什么。
例如,著名的塞爾思維試驗——中國房間,該實驗描述了一個完全接收計算機指令的人,比如「當你看到這個中國符號時,輸出這個英文單詞」。我們能說這個人懂中文嗎?當然不能。即使對于一個外部觀測者來說似乎這個人是懂中文的,但大部分人都會予以否認。類似問題也被用于人工智能觀測:如果計算機只是遵循指令,我們能認為它有感知嗎?好奇者號、火星漫游者、新視野號,這些太空飛船真的能看見周邊環境還是它們僅是遵循人為指令?當深思(Deep Thought)在下象棋時,它真的在深思嗎?這些硬人工智能的問題就好像:大部分科學家相信像人一樣完整的理解我們周邊的世界對于計算機來說是不可能的,因為總有一些缺失的環節,無法真正理解發生了什么。
神經科學的進展,尤其是在神經生物學上,給計算機視覺提供了非常重要的數據,因為大部分模型和方法都依賴于對人類視覺的研究。圖像傳感器檢測電磁輻射,是利用了基于對量子物理研究的技術。主體用來追蹤并研究光線,而想要完整的理解這一點如果沒有現代物理是不可能的,因此光和粒子通常是研究的重點。由于愛因斯坦的相對論理論,我們發現速度是有限制的,最大也只能達到光速。著名的愛因斯坦方程告訴我們質量乘以速度的平方就等于能量,不管質量多少,物理上都等同于能量。這就是恒星從其核心發生氫聚變,形成氦時制造能量的方式,因此它們的某部分質量變成了能量。
另一方面,量子物理給我們講了一個亞原子級別的故事,基本和非基本粒子的行為并不像看上去那樣可以預測。量子物理的重大發現告訴我們,我們可以用概率和統計來描述粒子狀態,而世界并不像我們想的那么精準。這也是愛因斯坦直到去世都反對量子力學的原因,因為他相信物理應該能由精確的規律支配,我們能夠完整的理解世界,并且不用概率來描述世界。因此,現今的計算機視覺利用的圖像傳感器采用了量子物理進行設計,而光線與不同表面的相互反應這一過程也有這樣的量子物理予以解釋。注意!愛因斯坦因光電效應獲得了1921年的諾貝爾獎,而這一效應描述的正是光線如何與不同表面發生反應,比如說,當你用光線照射金屬時,金屬會釋放出電子。
神經科學和計算機視覺也在信號處理(不同物理和抽象系統之間處理信息傳輸的理論和應用)中有所體現。數學和統計方法用于規范、呈現并分析不同的輸入與輸出,在語音、語言、圖像和視頻處理方面尤其重要。
人工神經網絡傾向于模擬人類的神經系統和大腦功能,它的知識來源于物理、生物和神經科學。這些模型都是學習模型,它們受到生物,尤其是人類生物和神經網絡的靈感激發。其主要目的就是評估在有大量輸入的情況下,執行某種任務的功能。這些神經網絡傾向于模擬真實的神經網絡,并被設計成互聯的「神經元」系統,彼此之間能夠交流。人類的神經通道就是一系列互聯的神經元。神經元本身由軸突和樹突構成,軸突是傳導電脈沖的神經末梢終端;樹突是類似樹形的結構,將從其他神經細胞接收到的電化學刺激傳遞給其他細胞體。人工神經網絡就模擬這種相互反應和信息傳遞。比如,如果有神經網絡試圖檢測圖像中的數字和字母(與CAPTCHA所做的類似),一組輸入神經元會被不同像素激活,有一個主功能來判斷哪些是相關的,結果會被傳遞給其他神經元,并試圖將這些字母和數字和已存的信息聯系起來。當激活輸出神經元,向終端用戶輸出匹配結果,這一過程便完成了。
機器學習有兩種主要的學習類型。一種是監督式學習,處理有標記的數據。例如,包含不同圖像的數據組,每個數據都有注釋和描述。另一種則是非監督式學習,處理沒有標記的數據,計算機必須找到區分不同數據子集、集群或相似圖像的方法。機器學習的過程中,神經網絡和類似機器學習算法使用訓練集和測試集。計算機在一個數據子集中經過「訓練」,而后基于先前加工的數據利用其余的數據檢驗學習是否有效。這種方法與通過改變參數在不同測試中檢驗學生們的學習成果的概念相同,與教師或者教授在方程式里使用不同的數字,計算機被輸入新圖像或者新數據,它要在基于先前學習有注釋的數據的基礎上,得出正確的結論、近似值或者估計的過程也一樣。因此它必須推導出一個特定函數,將其應用于其他數據中,產生新的實例。
再者,非監督式學習試圖在無標記的數據中找出隱藏的結構,這主要應用于集群、各種統計分布。沒有信號或比較能讓電腦來標記數據,它主要用于模式識別和回歸分析(一種估算不同變量之間關系的統計方法)。監督式學習類似于學習過程中有老師指導糾正,而非監督式學習則類似于自學過程,沒有特定的連續反饋。
在計算機圖形中你可以看到,它從三維模型中產生圖形數據,而計算機視覺則是傾向于從圖形數據中產生三維模型。計算機科學的其他領域也與計算機視覺有關,特別在圖像處理和分析的領域。但是,在虛擬/增強現實以及仿真之間有很大的重疊,因為面部檢測/識別/追蹤技術也經常用于動畫電影行業。運動捕捉和頭部/面部追蹤為動畫家提供輸入以便其能創造出現實運動和面部表情。面部追蹤和識別也經常被用于社交媒體,在各種圖像或者視頻中識別和標記特殊人物。如今,從多媒體獲得的大量跟蹤和識別數據能夠處理情感監測、性別和種族方面的微妙差異,在捕捉微表情和宏觀運動的設計方面更加準確。計算機視覺技術也用于圖像恢復,同時在人文藝術方面也有用,因為它可以追蹤人眼看不到的痕跡和技術,來識別畫作的真偽。
因此,主要的方法便是利用上述圖形傳感元件、雷達、相機以及類似設備進行圖像采集,而后進行預處理以便數據收集盡可能無噪音和準確。然后這些圖像經過檢測、分析、分類來看圖像中哪些點和部分與任務相關。例如,如果計算機被訓練來查找人臉,它就集中于被測數據的人臉識別,不關心背景環境或者其他物體。最終的要點是處理和決策,基于計算機是否找到匹配的臉而得出最終的分析和確定的輸出。
機器視覺是一個與機器人學領域有重疊的計算機視覺的重要研究分支。在這個領域的研究中,計算機視覺的相關技術被用來引導機器人執行動作,并且追蹤它們。(科學家們讓)機器人全身上下裝滿了圖像傳感器、攝像頭和各種其他傳感器,使它們可以從周圍環境中獲取數據并且執行(科學家們)想要的任務。機器人的活動建立在邊緣探測和物體識別的基礎之上,因此它們可以在環境中避開各種障礙順利活動。各類機器學習算法則可以幫助機器人識別需要得到的圖案并且收集想要的數據,例如不同的航天器需要經過訓練來收集需要的材料,并且做到去粗取精。
比如,火星科學實驗室是NASA在2011啟動的一項太空探測任務,它在2012年成功地讓好奇者號在火星的蓋爾隕石坑著陸。好奇者號的目標是探索火星的氣候和地理,同時對周圍環境進行拍照,世界上最具價值的自拍照也在其中。而其中有名的例子是羅塞塔號,由歐洲太空署發射之后,它和它的著陸器模塊菲萊對彗星進行了細致的研究。它執行了第一次成功的彗星著陸,同時也飛過了火星。計算機視覺技術對于這些使命來說至關重要,這既是為了獲取來源于圖像中的數據,也是為了在崎嶇不平的地方進行更加有效的移動。最近的一個例子是一個被稱為新視野號的星際空間探測器,它由NASA在2006年發射,并且在今年七月抵達了冥王星。
來自約翰霍普金斯大學以及西南研究所的研究者們與NASA共同合作完成。我們的計算機視覺自2006年至今發展迅猛,它由不同的儀器和模塊構成,并且運作良好,能夠給我們傳回詳細數據。比如,新視野號擁有遠程考察呈像器,它是設計在可見波長內擁有高分辨率和反應效率的設備,而同時這里還有愛麗絲,一臺紫外線呈像光譜儀,它能夠在紫外線波長中解析1024個波段從而來確定冥王星的大氣組成。新視野號包含著計算機視覺技術以及刻畫冥王星以及冥衛一地理形態的物理模型,從而可以繪制冥王星、冥衛一、或是其他柯伊伯帶天體的表面構成,并且識別新的天體。
如今,計算機視覺是現代醫學最重要的一部分,因為我們利用計算模型來檢測其他情況下不可見的疾病或區域。機器人手術在實際中運用的優勢在于沒有諸如不精確或耗損等不必要的人為因素,因而現在像腹腔鏡檢查這樣的復雜技術往往由機器人輔助。(計算機視覺)在其他領域的應用包括檢測腫瘤及類似的惡性病變,不過最重要的運用還是在神經科學本身,利用各種X射線,超聲波以及類似的圖像生成人體部分(這些人體部分通常情況下難以探測到)三維的、而且往往是放大的模型,以此可以了解更多關于大腦構造的知識。
現如今,很不幸的是大多數應用實際上是軍事應用,用以追蹤敵方士兵、導彈和武器,用計算機視覺技術來實現精確瞄準和導彈制導,這是唯一一個我們不希望計算機視覺有進展的領域。不過,除非機器人自我覺醒并意識到我們有多么惡劣。類似的應用包括各種自動汽車和無人機,無人機也被用于軍事目的,不過現在正被努力重新定位,像亞馬遜那樣用于投遞包裹,但人們通常還是不太喜歡無人機能找到自家后院來。
娛樂的進步也一樣得益于計算機視覺,動畫片正變得日益逼真。動畫師和制作者基于人和動物的動作表情,利用現實的人臉、頭部和動作追蹤來表現逼真的動畫人物形象。同這些例子相似,特效部門利用這些模型,以人或動物為基礎創作奇幻生物,IT公司則創造出虛擬現實小工具,電子游戲和其他增強現實的產品。有些時候這些應用是為了使用戶生活更加方便,比如虛擬試穿,像是試妝或試眼鏡;有些時候則是為了在觀察世界時展現一些附加信息(終結者和鐵血戰士當中的那些),有些時候它們只是用來娛樂,創造出適于娛樂的虛擬環境。
最新進展包括知識圖表、機器人基地和資料集,比如Robp Brain就是一個在線信息圖書館,計算機視覺科學家們可以使用它來讓他們的機器人理解它們所看到的周邊世界。這可能就是天網的雛形,所以我們此刻仍需非常謹慎。
然而,現在最重要的前沿是所謂的深度學習,使用復雜的結構來給高層次的抽象事物建模是它關注的焦點,大多數深度學習嘗試做出更好的展示,并從很多沒有標簽的數據中學習。深度學習有先進的計算機視覺、語音和圖像識別技術,而所謂的卷積神經網絡(單個神經元堆疊在一起,在可見區域內就像是重疊的,它的靈感來自于現實生活中的生物系統)表現地最為優異。最近一個令人驚異的例子就是谷歌的深度夢境DeepDream,它使用卷積神經網絡來發現和增強圖像中不同的形態,通過有意的過度處理產生夢境一樣的幻覺圖片。
現今,有各種各樣像Knoxwell 這樣的應用,可以讓成千上萬的用戶進行扶手椅考古和分析古希臘陶器上的面部和圖案。這樣的例子說明計算機視覺的未來不僅在于提高機器學習算法,還在于讓人們將這些靈巧的技術用于研究和改善,當然還有娛樂。未來會怎樣,讓我們拭目以待吧!
總結
以上是生活随笔為你收集整理的从脸部识别到火星机器人,正在改变世界的计算机视觉的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。