计算机如何学会自动裁剪图片如何在电脑上裁剪图片
大家好,這是專欄《計算攝影》的第三篇文章,這一個專欄來自于計算機(jī)科學(xué)與攝影藝術(shù)的交叉學(xué)科。今天我們討論的問題是圖像的自動裁剪/自動構(gòu)圖問題。
作者&編輯 | 言有三
1 自動構(gòu)圖基礎(chǔ)
1.1 什么是構(gòu)圖
自動裁剪用攝影的話語來說,就是自動構(gòu)圖。構(gòu)圖來源于繪畫,最初指繪畫時根據(jù)題材和主題思想的要求,把要表現(xiàn)的形象適當(dāng)?shù)亟M織起來,構(gòu)成一個協(xié)調(diào)的完整的畫面。因此一種構(gòu)圖方法一定要能夠表達(dá)作品的核心思想內(nèi)容并有一定的藝術(shù)感染力。
我們在文章《 》中已經(jīng)介紹過各種各樣的構(gòu)圖,所以這里就不再介紹構(gòu)圖,但是我們可以看看后期構(gòu)圖對提升作品美學(xué)價值的作用。
上圖是一個框架式構(gòu)圖案例,左圖是原圖,右圖是構(gòu)圖調(diào)整后的圖。
圖中包含了兩個方面的修改,其一是圖像的裁剪,其二是色調(diào)的調(diào)整。原圖的大小是 6000×4000,高寬比為 2/3,調(diào)整后圖的大小是 3407×3824,高寬比為1.12,接近于 1:1,也就是正方形構(gòu)圖。
在拍攝原圖的時候,筆者的重點(diǎn)是捕捉到舵手的神態(tài)與動作,同時在右側(cè)給出一定的留白顯示運(yùn)動的方向,而在后期調(diào)整的時候筆者更想突出舵手的神態(tài)。因此將右側(cè)比較雜亂的背景剔除,利用船艙的邊緣從左上角至右下角進(jìn)行了調(diào)整,利用船艙形成的框架來完成一個斜對角的框架式構(gòu)圖的裁剪。同時,這是一幅紀(jì)實(shí)類的作品,因此筆者將其色調(diào)調(diào)整為黑白。
經(jīng)過構(gòu)圖調(diào)整后,作品更加干凈,主體更加得到了突出。
上圖是一個對比構(gòu)圖案例,左圖是原圖,有圖是構(gòu)圖調(diào)整后的圖。該圖包含了兩個方面的修改,其一是圖像的裁剪,其二是色調(diào)的調(diào)整。
原圖的大小是 6000×4000,高寬比為 2/3,調(diào)整后圖的大小是 4276×2455,高寬比為0.57,接近于 9:16,也就是電影寬屏的長寬比。
首先看裁剪,原圖的下半部基本被裁剪,右側(cè)也裁剪掉四分之一左右。經(jīng)過裁剪后,圖像中的人物更大,而一些雜物已經(jīng)被剔除。
再看色調(diào)調(diào)整,將原圖轉(zhuǎn)換為了黑白圖,此時整個圖像的對比度大大提升,藝術(shù)感和視覺沖擊力也增加。
經(jīng)過構(gòu)圖調(diào)整后,新的作品我將其命名為《獨(dú)行》,表現(xiàn)出了背著小包的人物行走在大背景下的渺小。
這里的兩個案例都是任意的長寬比,而實(shí)際上很多時候我們需要固定長寬比,常見的包括4:3,16:9,1:1等,如下圖展示了不同比例,大小,裁剪方式:
1.2 構(gòu)圖的應(yīng)用
自動構(gòu)圖有許多的現(xiàn)實(shí)需求,如構(gòu)圖推薦,圖像重匹配,縮略圖生成。
(1) 構(gòu)圖推薦
學(xué)習(xí)基本的構(gòu)圖原則雖然是很簡單的,但是也需要大量時間鍛煉,對于學(xué)習(xí)能力較差或者對新事物接受能力較慢的人來說,依然是一個難題。目前在索尼相機(jī)和一些攝影類軟件產(chǎn)品中會出現(xiàn)一個九宮格來輔助拍攝者進(jìn)行構(gòu)圖,如果有一款產(chǎn)品能夠在拍攝時指導(dǎo)拍攝者進(jìn)行前后左右移動,相信會非常實(shí)用和受歡迎的。
(2) 圖像重匹配
很多的時候,我們需要將一個圖像,放到一個尺寸與其不匹配的地方,比如相機(jī)拍攝的照片,放置到各種移動設(shè)備,這需要改變分辨率、長寬比等,這個問題叫做圖像重匹配(Image Retargeting)。
在圖像重匹配的時候,我們會考慮兩個重要因素:
(1)原始圖像的重要信息必須要保留,重要主體不能被裁剪掉;
(2)要保存原始圖像的結(jié)構(gòu)信息,如構(gòu)圖風(fēng)格,并且盡量保證目標(biāo)比例。
(3) 縮略圖生成
所謂縮略圖即縮小尺寸的圖片或視頻,生成縮略圖通常是用于幫助識別和組織它們,在互聯(lián)網(wǎng)網(wǎng)頁中為圖像提供與普通文本索引相同的角色。縮略圖的生成可以看作是圖像重匹配問題的一種,如今在攝影App和視頻類App中都廣泛用于產(chǎn)生封面縮略圖。
下一節(jié)開始講述如何研究自動構(gòu)圖這個問題,主要可以從兩個研究角度來看。一個是如何保留最重要的信息,所對應(yīng)的問題就是顯著目標(biāo)檢測。另一個是保留圖像的美學(xué),所對應(yīng)的問題就是基于美學(xué)的構(gòu)圖。
2 基于顯著圖的自動構(gòu)圖
首先我們來看基于顯著圖的自動構(gòu)圖,包括數(shù)據(jù)集的特點(diǎn)以及研究方法。
2.1 顯著目標(biāo)檢測數(shù)據(jù)集
所謂的顯著圖,就是一個 0~1的概率圖,其中亮度越大,代表該處的信息越重要,通常就是目標(biāo)所在的位置。
有了顯著圖后,就可以基于顯著圖進(jìn)行裁剪。如果將顯著圖的所有像素值的和當(dāng)作能量,那設(shè)定一個閾值就可以裁剪出包含一定能量的最小外接矩形圖。
當(dāng)前有許多的顯著目標(biāo)數(shù)據(jù)集,其中 MIT300 數(shù)據(jù)集,Cat2000 數(shù)據(jù)集,SALICON 數(shù)據(jù)集比較經(jīng)典,因?yàn)楸举|(zhì)上差別不大,我們只介紹 MIT300 數(shù)據(jù)集。
MIT300 數(shù)據(jù)集是顯著目標(biāo)檢測領(lǐng)域里非常通用的基準(zhǔn)數(shù)據(jù)集,包括 300 張室內(nèi)和室外場景圖,圖像最大尺寸是 1024px,最小尺寸是 457px,被采集者包括 39 個觀眾,年齡在 18-50 之間。采集時包括任意的視角,使用 ETL 400 ISCAN 以 240HZ 的頻率進(jìn)行被采集者眼球的跟蹤,采集時間持續(xù) 3 秒。這個數(shù)據(jù)集只用于測試,因?yàn)闆]有公開訓(xùn)練標(biāo)注文件。
上圖就是它的數(shù)據(jù)集示意圖,第一行是圖像,第二行是人眼注意力的地方,第三行就是轉(zhuǎn)換后的顯著圖標(biāo)注。
2.2 顯著圖檢測方法
檢測顯著性區(qū)域的方法就被稱為視覺顯著性檢測(Visual Saliency Detection),這也算是一個比較成熟的領(lǐng)域了,早期的方法基于底層圖像特征,如Itti and Koch model。
現(xiàn)在則完全可以使用CNN模型來完成該任務(wù),總體模型架構(gòu)和圖像分割等任務(wù)相同,其中多尺度圖像和特征技術(shù)常被使用。
2.3 自動構(gòu)圖方法
基于顯著圖的自動構(gòu)圖方法是最早期用于自動構(gòu)圖的方法,被稱為 Attention-Based的方法。它基于一個假設(shè),圖像中最顯著的區(qū)域是照片中最重要的部分,我們應(yīng)該保留這個最重要的部分而裁剪其他部分。
這類方法的目標(biāo)就是研究如何用最小的剪裁窗口使得注意力(圖像顯著特性)總和最大化[1],注意力總和可以簡單定義為圖像所有像素值的和,它就是圖中的有效信息。
上圖展示了基于顯著圖的自動構(gòu)圖標(biāo)準(zhǔn)流程,各類相關(guān)方法的差異主要在于如何獲得最小外接矩形,典型的見文[2],具體的方法本文不再贅述。
3 基于美學(xué)的自動構(gòu)圖
接下來我們再看基于美學(xué)的自動構(gòu)圖,包括數(shù)據(jù)集特點(diǎn)以及核心方法
3.1 數(shù)據(jù)集
(1) CUHK Cropping數(shù)據(jù)集
這個數(shù)據(jù)集由香港中文大學(xué)湯曉鷗實(shí)驗(yàn)室發(fā)布,由經(jīng)驗(yàn)豐富的攝影師手動裁剪,共950張圖像。這 950 張圖像共包括 7 類圖像,其中animal(動物) 134 張,architecture(建筑) 136 張,human(人) 133 張,landscape(風(fēng)景) 140 張,night(夜景) 136 張,plant(植物) 138 張,static(靜物) 133 張。
裁剪參數(shù)包括裁剪框的左上角和右下角的坐標(biāo),每一張圖有3個攝影師進(jìn)行標(biāo)注,一個標(biāo)注案例如下。
animal\1116.jpg #文件名字
309 832 339 783 #第一個攝影師的裁剪,依次分別是左上角的x,y坐標(biāo),右下角的x,y坐標(biāo)
1 1199 2 900 #第二個攝影師的裁剪,依次分別是左上角的x,y坐標(biāo),右下角的x,y坐標(biāo)
157 1005 1 900 #第三個攝影師的裁剪,依次分別是左上角的x,y坐標(biāo),右下角的x,y坐標(biāo)
下圖是一個原圖和裁剪案例。
(2) Flickr cropping數(shù)據(jù)集
研究人員首先從Flickr收集了31888張圖像,然后在亞馬遜標(biāo)注平臺AMT上雇傭了工人來過濾掉不適當(dāng)?shù)膱D像。剩下的圖像由一組攝影愛好者來進(jìn)行裁剪,每一個圖像產(chǎn)生10個裁剪版本,然后送至AMT平臺供標(biāo)注人員選擇好壞。
絕對的標(biāo)注結(jié)果如下:
[
{
"url":"https://farm5.staticflickr.com/4096/4910188666_04cf9f487d_b.jpg",
"flickr_photo_id":4910188666,
"crop":[
266,
6,
757,
399
]
},
]
除此之外,還包含了相對的標(biāo)注結(jié)果,也就是一張圖進(jìn)行兩個裁剪標(biāo)注,讓被試者選擇更喜歡哪一個,因此包括兩個標(biāo)注crop0,crop1,vote_for_0和vote_for_1分別是被試者投票給第0個裁剪框和第1個裁剪框的結(jié)果,1表示有一個投票。
[
{
"url":"https://farm3.staticflickr.com/2946/15251367120_9bdca6b5c3_c.jpg",
"crops":[
{
"vote_for_1":1,
"vote_for_0":4,
"crop_1":[
171,
281,
300,
400
],
"crop_0":[
139,
234,
300,
400
]
},
],
"flickr_photo_id":15251367120
},
]
另外還有如CPCD數(shù)據(jù)集,感興趣讀者可以自行了解。
3.2 自動構(gòu)圖方法
基于美學(xué)的構(gòu)圖方法更加符合攝影師構(gòu)圖的原理,它要求裁剪出美學(xué)質(zhì)量分?jǐn)?shù)更高的區(qū)域,因此關(guān)鍵就在于搜索區(qū)域的選擇,有幾個思路。
(1) 暴力搜索
暴力搜索法[3]是比較早的研究思路,它通過滑動窗口的方式獲取一系列的候選裁剪框,然后從中選擇美學(xué)分?jǐn)?shù)最高的。這一類方法的問題就是效率太低,計算量太高,根本無法實(shí)際應(yīng)用。
(2) 基于顯著圖預(yù)處理
暴力搜索的方法巨大的計算量來自于巨大的搜索空間以及后續(xù)帶來的美學(xué)評估的計算量,如果能夠減小搜索空間,減少不必要的美學(xué)評估的計算量,就可以大大提升效率。研究者提出與顯著圖檢測方法[4]進(jìn)行融合就可以實(shí)現(xiàn)該目標(biāo),下圖是算法的基本流程。
首先訓(xùn)練了一個顯著目標(biāo)檢測網(wǎng)絡(luò),使用它可以得到顯著目標(biāo)區(qū)域的初始化框,在它的附近,就可以根據(jù)不同大小和比例得到一系列候選的裁剪框,然后用美學(xué)評分模塊進(jìn)行評分。
(3) 基于強(qiáng)化學(xué)習(xí)的搜索法
候選框的選擇本質(zhì)上是一個搜索問題,除了減小搜索空間,另一方面也可以使用更加高效的搜索方法,比如A2RL框架[5],使用增強(qiáng)學(xué)習(xí)更高效地搜索裁剪框。
相比上面的兩種方法,它需要更少的候選窗口與更少的運(yùn)行時間,可以獲得任意尺度、位置、更精確的剪裁窗口。
[1] Ardizzone E, Bruno A, Mazzola G, et al. Saliency Based Image Cropping[C]. international conference on image analysis and processing, 2013: 773-782.
[2] Chen J, Bai G, Liang S, et al. Automatic Image Cropping: A Computational Complexity Study[C]// Computer Vision and Pattern Recognition. IEEE, 2016:507-515.
[3] Chen, Yi-Ling, Klopp, Jan, Sun, Min, et al. Learning to Compose with Professional Photographs on the Web[J].2017:37-45.
[4] Wang W, Shen J. Deep Cropping via Attention Box Prediction and Aesthetics Assessment[J]. 2017.
[5] Kaiqi Huang D L H W J Z. A2-RL: Aesthetics Aware Reinforcement Learning for Automatic Image Cropping[J].
總結(jié)
構(gòu)圖問題與美學(xué)問題一樣,雖然有一定的評判標(biāo)準(zhǔn),但仍然是一個比較主觀的問題,不同的應(yīng)用場景,不同的圖像類型,都有不同的研究維度,感興趣的讀者可以深入實(shí)踐。
總結(jié)
以上是生活随笔為你收集整理的计算机如何学会自动裁剪图片如何在电脑上裁剪图片的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高铁可以带多少行李(高铁可以拿多少斤行李
- 下一篇: 33、给华美A100刷固件