高新波:异质图像合成与识别
編者按:在機器視覺普及之前,傳統(tǒng)模式識別系統(tǒng)都是基于高質(zhì)量的輸入圖像的,要求待識別對象與圖像采集設(shè)備之間很好的配合,只有這樣才能獲得較好的識別效果。隨著圖像采集設(shè)備的普及,獲得目標圖像的代價越來越小,由此而造成所采集到的圖像質(zhì)量參差不齊。在一些敏感的場合,還會出現(xiàn)擬識別對象與采集設(shè)備之間的不配合,造成無法獲得對象的正面清晰圖像,使得傳統(tǒng)模式識別系統(tǒng)難以奏效。而通過引入人類智慧,利用畫家經(jīng)驗,可以根據(jù)低質(zhì)量的圖像或圖像序列,來生成素描畫像,基于機器學習方法可以學習畫像與圖像之間的復雜映射關(guān)系,從而由畫像合成出可用來進行模式識別的圖像信息,進而取得良好的識別結(jié)果,我們可以稱之為異質(zhì)圖像識別,或模式識別2.0。
本文中,來自西安電子科技大學的高新波教授將為大家介紹,如何通過數(shù)據(jù)驅(qū)動和模型驅(qū)動兩類方法,實現(xiàn)異質(zhì)圖像的合成與識別。
文末,提供文中提到參考文獻的下載鏈接。
我陪伴VALSE度過了七年之癢,今年就堅持到八年抗戰(zhàn)了。今天可能是我最后一次在VALSE上做學術(shù)交流,所以我希望能系統(tǒng)總結(jié)一下我們團隊這八年以來在異質(zhì)圖像合成和識別方面的工作。
首先,我們來看一下異質(zhì)圖像合成與識別的背景。對于模式識別任務來說,理想的識別系統(tǒng)經(jīng)過比對以后可以很容易地識別出這個人的身份。上圖是理想的人臉識別系統(tǒng)。
實際系統(tǒng)是當人站在攝像機前面時,攝像機可能是低分辨的,也可能人是不配合的,因而得到的圖像質(zhì)量是非常差的。在《今日說法》節(jié)目中發(fā)生案件時我們得到的圖像總是不清楚,這樣的話識別的效果就大打折扣了。
上圖是一個真實案例,有人在河的對面發(fā)現(xiàn)了兩個逃犯,于是拍了照片發(fā)給公安部門,由于分辨率太低公安部門的識別系統(tǒng)根本識別不出來,但是善于素描的人員可以通過想象、經(jīng)驗畫出畫像,再利用畫像來排查嫌疑犯。
上圖左側(cè)是春秋戰(zhàn)國時期利用畫像追兇的例子,由于伍子胥的畫像被掛在了城墻上,他過昭關(guān)的時候一夜急白了頭。右側(cè)是歐洲1881年報紙上關(guān)于鐵路殺手追兇的報道,比我們整整晚了2000多年。
基于畫像追兇有實際案例。上圖中上方的吉布森女士是休斯敦警察局的職員,她有一次下班時遭到搶劫,因為她是畫家就把畫像畫出來,結(jié)果第二天就破案了,從那之后她已經(jīng)破了2000多個案件。畫像追兇來自中國,為什么成功在美國呢?我就在網(wǎng)上搜索了一下,發(fā)現(xiàn)我們國家也有這樣的人才,比如深圳警察局的李建華同志,利用他的畫像追兇已經(jīng)成功偵破了幾個大案,所以畫像追兇確實可行。
這樣一來,當我們得到的圖像是不清晰或者是非正面圖像的時候,是不是可以通過引入人的智慧,利用畫家得到清晰畫像,用畫像直接進行識別是否可行呢?上圖是我們加入人為畫像的識別系統(tǒng)。我們測試了一下,結(jié)果也不盡如人意。因為我們的畫像主要是通過線條疏密來表現(xiàn)圖像的變化的,而照片則是靠灰度深淺來反映,最終的結(jié)果是把紋理比較豐富的孫悟空識別出來了。
我們做了如上圖所示的很多實驗,結(jié)果都不太好。
原因在于圖像和畫像兩者之間的表達方式不同。這樣一來我們就考慮可能需要做一個從畫像到照片的轉(zhuǎn)換系統(tǒng)。這就是上圖所示的異質(zhì)圖像變換所做的工作。
如上圖所示,通過把畫像轉(zhuǎn)化為照片,我們發(fā)現(xiàn)轉(zhuǎn)化之后的識別結(jié)果就正確了。所以我今天報告的主題就是異質(zhì)圖像變換,主要包括畫像和照片之間的轉(zhuǎn)換。其實不僅僅局限畫像到照片,其他異質(zhì)照片也可以通過機器學習來轉(zhuǎn)化。
上圖顯示了我們做的工作,證明了經(jīng)過轉(zhuǎn)化以后識別率都非常高。
傳統(tǒng)的模式識別系統(tǒng)中物理空間的人通過傳感器就轉(zhuǎn)變到信息空間去,現(xiàn)在又把人的智慧加進來,形成上圖中物理空間、信息空間、認知空間三元融合的空間,這與今天人工智能的一個分支----混合增強智能是完全相關(guān)的。
它的哲學基礎(chǔ)就是上圖李國杰院士提出的新信息世界觀:物理世界、信息世界和人類社會組成的三元世界。
去年北大女碩士生章瑩穎在美國失蹤,最后找到如上圖的監(jiān)控錄像。從監(jiān)控錄像中基本上只能看出人的形狀,中國的警察林宇輝根據(jù)經(jīng)驗畫出了畫像。我們這個系統(tǒng)把畫像轉(zhuǎn)成照片,在人臉識別系統(tǒng)中前10個人里面就把犯罪嫌疑人找出來了。所以,這個系統(tǒng)確實是有用的。
為此,我們也和相關(guān)公安部門進行合作,在很多案件里面都發(fā)揮了作用。
所以將來可能是這樣的,通過不太清晰的監(jiān)控或者非正面的圖像監(jiān)控,還有目擊證人的描述可以形成畫像,利用我們這個系統(tǒng)轉(zhuǎn)成照片,轉(zhuǎn)成照片以后利用人臉識別系統(tǒng)進行識別,識別以后就可以實施抓捕了。可能公安部門認為我們的邏輯太簡單,但我們只是提供一份可供參考的線索。
接下來,重點來講一下講異質(zhì)人臉圖像合成和識別。關(guān)于異質(zhì)圖像的合成和識別我們做了將近十幾年的工作,我今天系統(tǒng)總結(jié)一下。整個工作可以分成兩大類,一種是基于online學習的data-driven的方法,通過輸入照片以后,利用訓練照片畫像對來合成畫像或者由畫像合成照片。而offline學習的model-driven的方法則是通過機器學習學到model以后,不再需要訓練樣本,將輸入通過映射函數(shù)得到生成的畫像。
通過上面兩張圖的對比可以看出,model-driven的優(yōu)點是訓練過程雖然很慢但是合成速度很快,細節(jié)比較好;不足是合成圖像紋理不夠豐富,風格更像照片,不太像畫像。data-driven由于需要在線學習導致速度比較慢,但紋理比較豐富,更像畫像。這兩者目前各有千秋,在使用中可以根據(jù)需要混合使用。
今天關(guān)于data-driven主要有兩部分工作,一部分是基于稀疏表示的;另外一部分是基于概率圖模型的。model-driven主要包括線性model和非線性model,非線性模型包括CNN、GAN、ResNet等主要基于深度學習的方法。
我們首先來簡要看一下data-driven的相關(guān)內(nèi)容。
上圖是湯曉鷗教授最早在ICCV2003上發(fā)表的一個名為Eigen-Sketch的工作。利用Eigenface的思想,對照片利用訓練樣本進行線性組合生成,得到照片線性組合的系數(shù)以后,將組合系數(shù)疊加到畫像上,可以合成出畫像。這是最早的異質(zhì)圖像合成的工作,也是奠基性的工作。
上圖是劉青山教授在CVPR2005上提出的改進工作。受啟發(fā)于當時如火如荼的流形學習,他認為把整幅圖像進行合成的做法存在不足,他利用LLE的思想把照片分割成一個個照片塊或者畫像塊,再對每一塊進行線性組合,組合以后把對應畫像利用對應的系數(shù)合成照片,這樣就把整幅圖像的線性轉(zhuǎn)變成局部線性嵌入。
在上述工作中仍然存在兩個問題。一是選擇K近鄰來線性組合,K值是固定的,有的時候K個近鄰塊的距離是比較近的,有的時候卻是比較遠的,如此線性組合以后會出現(xiàn)模糊。這個時候正是稀疏表示發(fā)展起來的時候,我們基于稀疏表示做了相應的改進工作。
另一方面,由于線性疊加相當于低通濾波,為了使它更清晰我們又加了高通增強,對高頻成分也進行線性組合以后疊加上。利用稀疏表示來自適應選擇K值,K是動態(tài)變化的。另外把高頻分量也進行類似學習,合成以后得到比較清晰的畫像。具體算法這里不再贅述,我們在相應數(shù)據(jù)庫上做了很多實驗。
上圖是香港中文大學做的數(shù)據(jù)庫,這個數(shù)據(jù)庫共有606張照片。
我們利用照片可以生成相應的畫像,上圖是我們生成的畫像,中間一行只是利用稀疏表示生成的畫像,顯然不夠清晰。
同樣給一個畫像可以反過來生成照片的例子,上圖我們生成的照片。
相似的技術(shù)還可以用在其他方面,比如說我們在公安部數(shù)據(jù)庫看照片的時候,都是打著網(wǎng)紋的,這是一種數(shù)據(jù)保護。通過我們的技術(shù)可以實現(xiàn)去網(wǎng)紋的工作,上圖展示了我們的效果。
另外,同樣的技術(shù)還可以利用非正面的、側(cè)面的照片合成正面照片。
實際上,基于data-driven的方法也還存在其它問題。比如,上圖所示的訓練數(shù)據(jù)庫里面沒有出現(xiàn)的情況我們很難合成出來。比如說背景不一樣,或者訓練數(shù)據(jù)庫里面都是年輕人,香港中文大學的數(shù)據(jù)庫中的照片都是年輕人的,如果合成老年人,它的皺紋很難合成出來;如果數(shù)據(jù)庫里面沒有戴眼鏡的,要想合成戴眼鏡很難,因為我們眼睛的合成區(qū)域總是找相應的眼睛區(qū)域來合成的。這樣就使得合成出的畫像與待測試樣本之間有差別,為此我們利用稀疏表示和貪婪學習的方法設(shè)計新的方法,就是進行全局搜索。
原先我們的合成是基于local mean的,這個新的學習算法實際上是一個nonlocal mean。nonlocal mean存在一個問題,如果我們要搜索一個眼睛的話,需要在整幅圖上搜索它的近鄰區(qū)域,這樣的整幅圖像搜索速度非常慢,為此我的團隊提出了上圖所示的基于稀疏表示的貪婪學習方法。利用訓練樣本我們可以構(gòu)造一個字典,把每一個圖像塊利用字典來表示,得到基于字典的表示系數(shù),形成一個稀疏系數(shù)矩陣,這樣來一個測試圖像以后,同樣的也可以用字典來表示成一個系數(shù)序列。進行匹配的時候就像一個哈希搜索一樣就變得非常快,這樣一來就解決了快速全局搜索的問題。
上圖是我們和其他方法合成效果的對比圖。對于第一行戴發(fā)卡的女孩,其他方法生成出來很難有發(fā)卡,我們的方法可以很好地把發(fā)卡合成出來。同樣戴眼鏡的照片也是,以前的方法本身合成不出來眼鏡,因為訓練樣本里面沒有人戴眼鏡,但是通過全局學習,眼鏡可能就是利用他的下巴合的輪廓成出來,這樣一來可以合成訓練樣本中沒有的細節(jié)信息。
前面的學習都是基于大量訓練樣本的,如果我們有一個應用只有一對訓練樣本怎么辦?也就是說我們的訓練只有上圖所示的一個照片和畫像對,它也是可以工作的。因為可以利用人臉的多尺度構(gòu)造更多的圖像,一個大人通過縮放可以變成小孩;另外一個圖像里面有自相似結(jié)構(gòu),比如左臉和右臉非常相似。
利用上述性質(zhì),一方面可以利用高斯金字塔生成多尺度圖像,構(gòu)造更多的圖像和畫像對。
另一方面利用圖像自相似結(jié)構(gòu)也可以進行合成。
這樣如果只有一個訓練對的話,利用高斯金字塔可以生成一系列不同尺度的照片和圖像對。可以通過合成字典,同樣利用剛才講的貪婪學習方法合成出初始的畫像。然后把訓練樣本和測試樣本生成的初始畫像這兩對放在里面進行迭代,依然可以生成高質(zhì)量的合成畫像。
上圖是我們逐次迭代生成的的畫像結(jié)果。
上圖展示了采用不同的方法由照片合成的畫像的效果,雖然只有一個照片-畫像訓練對,但是所合成的畫像質(zhì)量還是不錯的。
我們進一步來把約束條件進行松弛。如果只有一個畫像,連照片也沒有,這就變成風格的合成,這樣一來我們?nèi)匀豢梢院铣沙鲂枰漠嬒瘛?/p>
首先利用貪婪學習算法生成初始的畫像,然后利用照片和畫像,分別使畫像和畫像匹配去尋找K近鄰,基于照片和照片匹配去尋找K近鄰,基于照片和畫像匹配去尋找K近鄰,由于畫像和照片它的高頻分量比較吻合,利用它做先驗知識來選擇一個最佳的K近鄰然后進行合成,最終進行迭代以后仍然可以得到好的結(jié)果。
上圖是我們生成的結(jié)果。
上圖是我們利用給定風格的畫像(一張),可以將給定的測試照片合成出對應風格的畫像分。
同樣地,對于非人臉圖像的其他圖像來說,也可以生成如給定的人臉圖像風格一樣的畫像來。上圖中分別展示了根據(jù)動漫風格、簡單素描、復雜素描風格進行合成的畫像。
當然我們還可以合成不同年齡的人臉。如果小孩走丟的時候是7、8歲,現(xiàn)在已經(jīng)17、18歲,我們可以根據(jù)年齡的遷移合成不同年齡段的畫像。以上主要講的是由照片生成畫像,當然也可以實現(xiàn)由畫像生成照片,因為該過程是可逆的。
接下來是基于概率圖模型的異質(zhì)圖像合成方法。
基于概率圖模型的方法實際上可以用最大后驗概率的方法尋找k近鄰。當然,最大后驗概率可以分解成最大似然函數(shù)和先驗概率的情況。
上圖是我們在2007年的時候提出的嵌入式模型合成方法。把畫像和照片看成是觀測序列,同時存在一個隱含狀態(tài)和狀態(tài)轉(zhuǎn)移空間,利用狀態(tài)轉(zhuǎn)移矩陣得到合成模型,然后基于該模型實現(xiàn)畫像或照片的合成。2014年在IJCV上我們對它做了新的解釋,完全可以用最大后驗概率或者概率圖模型進行解釋,這樣我們就把它統(tǒng)一到概率圖模型的框架上去。
09年在PAMI上有上圖所示的王曉剛教授的一個工作,提出了利用馬爾科夫隨機場理論來進行畫像的合成。過去我們生成畫像塊的時候只是利用照片和畫像之間的關(guān)系,其實要生成畫像的話,相鄰畫像塊之間也有約束關(guān)系,為此提出了嵌入式的馬爾科夫模型。這里面就有兩個似然函數(shù),一個表示畫像和照片之間的關(guān)聯(lián)性,一個表示畫像塊之間的兼容性。
上圖是香港科技大學學者在CVPR2012提出馬爾科夫加權(quán)隨機場模型。在考慮塊和塊之間的關(guān)系時,把每一塊又使用k近鄰來表示,變成k近鄰和k近鄰之間的約束關(guān)系,同樣分為畫像和照片之間的關(guān)系和照片和照片之間的關(guān)系。
如上圖所示,馬爾科夫隨機場實際上是找最近鄰,而馬爾科夫加權(quán)隨機場實際上是利用k近鄰來合成。
我們在此基礎(chǔ)上又提出上圖所示的新的基于直推式學習的方法。上圖是一個非常簡單的圖模型,這個圖上照片和畫像都只有一個葉節(jié)點,由一個共同的根節(jié)點來控制,這個節(jié)點就是它們加權(quán)生成的加權(quán)矩陣W。現(xiàn)在如果來一個照片以后如何得到它的畫像呢?過去是訓練好以后再進行處理,現(xiàn)在要把訓練和測試樣本放在一起學習,就變成直推式的學習,這樣我們來推導最大后驗概率。實際上這個最大后驗概率的計算可以基于概率圖模型進行簡化,當給定W的時候兩個葉節(jié)點之間相互獨立,可以把模型簡化成上圖中兩個似然函數(shù)和一個先驗概率的情況。
這種學習算法是我們2014年發(fā)表的,叫做基于直推式的學習,把訓練樣本和測試樣本放在一起,原來歸納式的學習方法相當于在訓練樣本上做的誤差很小,但是在測試樣本不能保證誤差也很小,直推式的方法可以保證在測試樣本上誤差也是非常小的。
這樣一來求最大后驗概率的問題就轉(zhuǎn)變?yōu)槿绾螛?gòu)造先驗概率和似然函數(shù)的問題。先驗概率是構(gòu)造式的,比如說我們要生成上圖所示的這樣一個塊,利用k近鄰加權(quán)線性組合形成的,鄰近的塊也是利用加權(quán)形成的,對于交疊的區(qū)域應該是非常兼容的,所以利用兩個誤差越小越好,相應的指數(shù)函數(shù)越大越好,這樣構(gòu)造出一個先驗概率。
對于似然函數(shù)則是上圖這樣的,合成鼻子的時候事先找到了k個相近的鼻子,使得它合成的誤差越小越好,畫像上把對應的鼻子和權(quán)值W組合就可以生成出鼻子來,這樣就可以構(gòu)造出兩個似然函數(shù),合成誤差越小越好。這兩個權(quán)值在兩者之間是共享的。
這樣一來就可以構(gòu)造出上圖所示的一個目標函數(shù),看上去非常復雜,實際上推導一下只不過是用矩陣來表示最大后驗概率的計算公式。
優(yōu)化目標函數(shù)以后就可以得到生成結(jié)果,上面分別是由照片生成畫像和由畫像生成照片的結(jié)果,顯然比原來的兩種方法合成出的圖像更清晰。
同樣還可以用合成出來的照片和畫像進行模式識別。如上圖所示,在香港中文大學的數(shù)據(jù)庫上可以達到97%左右的正確率。
在合成過程中,如上圖所示,如果測試圖像里面光照是單側(cè)不是正面光的,生成出來效果就不好;如果不同背景,原來照片訓練里面都是藍色背景,實際合成有黃色、白色背景,那合成出來效果也不好;另外不同種族,當訓練庫中的照片都是華人的照片,要合成一個歐洲人,那么合成出來的結(jié)果一定會像一個亞洲人。
為了解決這個問題,我們做了一個上圖所示的基于多視的表示方法,進行特征描述的時候,不僅僅用灰度,還利用不同的濾波器濾波以后的圖像,在圖像上分別提取灰度信息、SURF特征、多尺度LBP特征,構(gòu)造非常復雜的特征表示形式。
利用這個精細的表示形式,可以利用剛才講的概率圖模型進行上圖所示的合成。
但是,由于生成不同的圖像,不同特征的貢獻率不一樣。所以又引入一個加權(quán)系數(shù),同時要學習一個合成的加權(quán)系數(shù)W,它們之間通過上圖所示的迭代來進行優(yōu)化。
同樣基于概率圖模型構(gòu)造似然項和先驗概率項,最后得到了上圖所示的聯(lián)合概率密度的形式。為了避免平凡解,我們還加入了一項正則項。
上圖就給出不同特征的貢獻程度,越亮的話就表示這個特征起的作用越大,越暗表示起的作用越小。
上圖是我們由照片生成的畫像,其他方法由于背景不一樣可能會生成一些偽的背景。
同樣我們可以由畫像生成照片,上圖是我們的實驗結(jié)果。
可能對其他的照片我們的視覺不一定敏感,對于名人的照片一般都比較敏感。上圖是對于一些明星的照片合成的畫像結(jié)果,其他方法可能都有一些偽的陰影出現(xiàn)。
上圖表示在用其他描述方法上我們的識別率都達到97%左右。
深度學習來了,前面的工作都是前些年做的,我們也不能免俗也要利用一下深度學習。剛才的特征提取方法完全可以換成CNN的方式來提取特征,然后再來進行描述,效果也是不錯的。
利用16層VGG網(wǎng)絡(luò)提取特征以后,將特征加權(quán)和合成權(quán)值優(yōu)化以后構(gòu)造相關(guān)的函數(shù)。
大家看一下上圖,用了VGG以后,在尋找近鄰塊的時候性能往往比較穩(wěn)定。利用灰度作為特征時近鄰塊可能會找錯,而利用深度特征時就找對了,所以至少在這方面可以找到更好的近鄰進行圖像合成。
上圖是基于深度學習合成出來的結(jié)果,也是不錯的。
剛才我在分塊的時候都是基于劉青山教授提出的均勻分塊方法的。實際上均勻分塊會分出上圖所示的混合塊,這個塊既有眼睛又有眼睛以外的地方,既有頭發(fā)還有皮膚,這樣合成起來效果就會大打折扣了。
于是我們提出上圖所示的基于超像素的自適應分塊方法,使用超像素分割來進行分塊,它的優(yōu)點是更自適應了,缺點是原來的近鄰非常規(guī)范,而現(xiàn)在每個塊的鄰域塊可能數(shù)目都不一樣了,需要將每個塊的近鄰塊記錄下來。
按照相同的方法構(gòu)造目標函數(shù),之后用基于概率圖模型的方法即可生成畫像。上面兩張圖分別展示了構(gòu)造目標函數(shù)和概率圖模型方法。
上圖是我們生成的實驗結(jié)果,從結(jié)果來看效果還是不錯的。
上圖是由畫像生成照片的識別結(jié)果,我們的方法識別率達到了99%。
2017年的工作是把前面的相關(guān)工作進行了系統(tǒng)總結(jié)。我們發(fā)現(xiàn)整個算法流程基本上分為幾個模塊:對于給定的訓練數(shù)據(jù)庫,首先要對每一幅照片-圖像對進行分塊,進行圖像塊的描述,也就是說怎么來表示每一個圖像塊,另外就是近鄰塊的搜尋,怎么來尋找最近鄰圖像塊,另外是怎樣優(yōu)化加權(quán)的權(quán)值W。
整個過程里面有兩個部分需要優(yōu)化,一個是對鄰域塊的搜索,一個是進行權(quán)值的計算。針對這兩個模塊,前面的工作只是對權(quán)值計算利用了概率圖模型,而鄰域圖像塊的搜尋同樣可以利用概率圖模型來優(yōu)化。
把兩個概率圖模型加上以后發(fā)現(xiàn)效果更好一些。
關(guān)于異質(zhì)圖像識別是這樣的,前面的方法基本上是首先將異質(zhì)圖像通過合成轉(zhuǎn)化為同質(zhì)圖像以后再進行識別。其實完全不必這樣,可以直接在特征域進行比對,比如,用概率圖模型表示以后,可直接基于概率圖模型的表示進行匹配識別。
也就是說來一個圖像以后,用概率圖得到它的表示系數(shù)之后,對異質(zhì)圖像之間的表示系數(shù)進行匹配就可以了,這個工作發(fā)表在16年的TPAMI上。
這篇文章的主要工作是構(gòu)造了similarity的一個計算方法,當我們用上面所示的概率圖模型表示圖像塊的時候,由于基圖像不一樣,所以必須首先找到基圖像一樣的系數(shù)進行相似性測度的構(gòu)造,通過這樣構(gòu)造以后就可以直接利用表示系數(shù)的相似性進行識別了。
上圖是不同的數(shù)據(jù)庫,包括香港中文大學的CUFS和CUFSF數(shù)據(jù)庫,印度的IIIT數(shù)據(jù)庫,網(wǎng)上的數(shù)據(jù)庫,照片、可見光和近紅外的數(shù)據(jù)庫,可見光和熱紅外的數(shù)據(jù)庫。這里所謂的異質(zhì)圖像是指不同傳感器得來的圖像。
上圖是我們在不同數(shù)據(jù)庫上實驗所得到的識別率。我們在香港中文大學數(shù)據(jù)庫已經(jīng)達到100%的識別率,加了Forensic數(shù)據(jù)庫之后變成了99%,在identification上面是96%,在verification上得到99%的識別率。
上圖是在IIIT數(shù)據(jù)庫上的識別結(jié)果。識別率只有不到30%,因為這個數(shù)據(jù)庫中的畫像都是基于記憶而繪制的畫像,畫像和照片之間對齊的非常不好。
上圖是在Forensic數(shù)據(jù)庫上的識別結(jié)果,我們的方法得到最好的結(jié)果,也不過30%。
剛才的方法都是基于data-driven,下面來介紹基于model-driven的異質(zhì)圖像合成和識別方法。
上圖是一個基于線性模型的方法,基于Ridge Regression脊回歸的簡單工作。給定一幅圖像之后,我們首先進行區(qū)域劃分,分成頭發(fā)區(qū)域和人臉區(qū)域,對于頭發(fā)區(qū)域利用mini batch K-means算法進行聚類,聚類以后對類內(nèi)進行脊回歸;對于人臉區(qū)域仍然找它的近鄰,眼睛找眼睛區(qū)域,鼻子找鼻子區(qū)域,對每個區(qū)域基于位置進行脊回歸,然后把兩部分回歸的結(jié)果進行組合之后就可以得到合成的畫像。
上圖是整個合成過程的框圖。為了獲得更為清晰的結(jié)果,也可以增加高頻增強模塊,即針對給定圖像的高頻部分也進行類似的異質(zhì)圖像合成。
上圖是使用了高頻增強和沒有使用高頻增強所得到的合成圖像的對比。
上圖是在另一個數(shù)據(jù)庫上的結(jié)果。
我們方法的特點是速度非常快。因為使用了脊回歸,有回歸函數(shù)以后,對于新來的圖像直接做回歸,結(jié)果就直接產(chǎn)生了。同樣的算法也可以用在超分辨重建上,用在超分辨重建上以后也可以得到很好的結(jié)果。因為從本質(zhì)上來看兩個問題是一致的。
基于非線性回歸的方法當然就是基于最近比較熱的基于深度神經(jīng)網(wǎng)絡(luò)的方法。
最近,大家都比較熟悉所謂的基于端對端的學習,還有上圖基于conditional GAN的方法。不管是照片還是畫像,把它映射到另外的異質(zhì)圖像域里,在這個圖像域計算它的重建損失reconstruction loss。
后來UC Berkeley的朱俊彥博士提出了上圖的CycleGAN,對照片或者圖像映射到異質(zhì)圖像域以后再反映射回來,在原始圖像域計算Cycle-Consistency Loss。比如,在超分辨重建的時候沒有高清圖像,在這高分辨域沒辦法算Loss函數(shù),還要再反映射回來在低分辨域計算它的Loss函數(shù)。
在此基礎(chǔ)上我們有上圖的考慮,圖像正反兩個映射是分別單獨學習的,從照片到畫像學一個,從畫像到照片再學一個。那么,這兩個映射能不能聯(lián)合起來一起學習呢?兩個映射之間是不是對稱的呢?在研究的過程中,上側(cè)是從照片到畫像,下側(cè)是從畫像到照片,我們把神經(jīng)網(wǎng)絡(luò)中間結(jié)果拿出來以后發(fā)現(xiàn)不是很對稱,如果不加約束的話就不是對稱的,所以我們就增加一個約束使得它們兩個之間能夠是對稱的,所以就構(gòu)造下圖所示的中間隱空間latent space。
如上圖,在這個隱空間里面,原來端到端網(wǎng)絡(luò)和conditional GAN是在變換空間里面計算它的loss,前面的CycleGAN是在原始空間里面計算loss的,我們希望在隱空間里面計算協(xié)同loss。
這樣一來我們希望把畫像和照片、照片和畫像之間兩個映射在隱空間里面達到相似,這樣一來我們提出上圖的深度協(xié)同網(wǎng)絡(luò)。
利用深度協(xié)同網(wǎng)絡(luò)使兩個映射之間越相似越好,這樣就構(gòu)造上圖的重構(gòu)損失和協(xié)同損失,利用兩個損失進行約束和優(yōu)化。
如上圖,同樣也可以引入GAN,這兩個映射G和映射F都可以用生成對抗式網(wǎng)絡(luò)進行學習。
從上面兩張圖可以發(fā)現(xiàn),通過協(xié)同學習比不協(xié)同學習合成圖像的質(zhì)量要好的多。
上圖是我們基于協(xié)同學習得到的實驗結(jié)果,另外兩種都是基于GAN得到的結(jié)果。從圖像質(zhì)量評價測度來說,我們這個結(jié)果優(yōu)于他們的結(jié)果。
上圖展示了我們方法的魯棒性。通過這個方法它的魯棒性也非常好,不管是對背景、對光照、對不同姿態(tài)都不是那么敏感。
另外我們基于畫家畫像先畫輪廓再畫細節(jié)的做法,還提出了一種上圖中由粗到細的合成方法。
首先利用端對端的GAN學習粗的模型,再利用概率圖模型進行細化。
上圖是其中涉及到的公式,具體大家可以看我們的相關(guān)論文。
其中的精細結(jié)構(gòu)仍然是基于概率圖模型來得到的,其核心是似然函數(shù)和先驗概率的構(gòu)造。
上圖是我們生成由粗到細的結(jié)果,效果越來越好。
上圖是我們和其他方法的對比結(jié)果。
如上圖所示,在人臉識別過程中,我們發(fā)現(xiàn)不同合成方法都合成出來一些額外信息,而這些額外信息有時候?qū)ψR別是有用的,可以增加訓練樣本的多樣性。
比如說上圖中有些區(qū)域,比如說眼袋,不同合成方法合成出來的情況不一樣,具有多樣性。另外比如說眼鏡,眼鏡本來沒有框,為了畫像的效果畫家往往會給眼鏡畫了一個框,合成出來結(jié)果有的有框有的沒框。那么,如何利用這些額外信息提高模式識別的魯棒性呢?這為我們的研究提供了新的線索。
為此我們就提出上圖非對稱聯(lián)合學習的識別方法。也就是說,有了照片和畫像以后,用不同合成方法都去合成出一些畫像和照片來,利用這些信息可以來學習對應不同個體的圖像的類內(nèi)方差,這是為后來的識別服務的。也就是說我的畫像和照片對,有了畫像和照片數(shù)據(jù)庫以后,把數(shù)據(jù)庫里面的照片和畫像都用不同的合成方法合成出一些新的圖像對。提完特征以后,利用這些特征提取類間的協(xié)方差矩陣和類內(nèi)的協(xié)方差矩陣。類內(nèi)的協(xié)方差主要是因為使用不同的方法合成的,類間的主要還是因為訓練不同的數(shù)據(jù)庫里的圖像,所以說蛇是一個非對稱的學習。
我們有8種圖像合成方法,我們分別對這8種用8個二進值數(shù)來表示,對所有的256種情況都做了上圖的比較,最后選了一種效果不是最好、但是速度最快的方法來進行合成。
合成以后我們使用上圖所示的網(wǎng)絡(luò)來提取深度特征。
如上圖所示,分別計算類間和類內(nèi)的協(xié)方差矩陣,利用這兩個協(xié)方差矩陣來進行識別。
在上圖不同數(shù)據(jù)庫上做識別以后,我們現(xiàn)在識別結(jié)果在CUFSF數(shù)據(jù)庫上可以達到99.61%,在CUHK VIS-NIR數(shù)據(jù)庫上達到99.05%。
即便是在印度理工的數(shù)據(jù)庫上,過去的識別率是30%,現(xiàn)在可以達到60~70%的結(jié)果,這個結(jié)果已經(jīng)是非常好的了。
最后我總結(jié)一下。
上圖系統(tǒng)總結(jié)了我們8年以來在異質(zhì)圖像合成方面的工作,主要有data-driven和model-driven兩種不同類型的合成方法。
如上圖,異質(zhì)圖像不僅僅是畫像和照片、低分辨和高分辨、側(cè)面到正面,還有其他的情況,還可以把這些方法進行不斷推廣。
比如說推廣到上圖這種情況。上圖這些都是異質(zhì)圖像,如果將來能生成油畫甚至漫畫就更好了。
另外相關(guān)的數(shù)據(jù)庫也非常難得,有的畫像是看著照片畫的,也有看一眼之后根據(jù)記憶畫的,這種就更難了,真實應用的時候都是根據(jù)記憶來畫的。現(xiàn)在我們找美院學生對不同照片由5個人來畫了畫像,這個畫像已經(jīng)在網(wǎng)上release。如果大家有興趣的話,可以到上圖的網(wǎng)站上去下載,可以去進行測試。
入門 圖像合成 圖像識別總結(jié)
以上是生活随笔為你收集整理的高新波:异质图像合成与识别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 纳税人信息与服务器信息不一致,没有申报清
- 下一篇: 时钟集成电路 Aip8563 MSOP8