为AI摄影铺路,第一个大规模的美学质量数据库
編輯:Acci.br
?? ? 不知道你有沒有讀過(guò)筆者之前發(fā)過(guò)的一篇文章,干掉柯潔的下一步,阿爾法狗創(chuàng)始人又要?dú)У暨@個(gè)行業(yè)(深度學(xué)習(xí)),以及昨天的綜述,一文說(shuō)說(shuō)這十多年來(lái)計(jì)算機(jī)玩攝影的歷史
????AI的確對(duì)攝影的方方面面帶來(lái)了很大的沖擊,那么,當(dāng)深度學(xué)習(xí)沒有起來(lái)之前,計(jì)算機(jī)又是怎么玩攝影的呢?
????從今天起,我們會(huì)分享一段時(shí)間的計(jì)算機(jī)美學(xué)方面的研究。所謂計(jì)算機(jī)美學(xué),直白點(diǎn)就是給圖片打個(gè)分,告訴你這是張高質(zhì)量圖片還是低質(zhì)量圖片。當(dāng)然不直白點(diǎn)說(shuō),咱們就慢慢來(lái)吧。
????今天,也是這個(gè)系列的第一篇,我們先從AVA美學(xué)質(zhì)量評(píng)估數(shù)據(jù)庫(kù)說(shuō)起。因?yàn)閿?shù)據(jù)是機(jī)器學(xué)習(xí)里最重要的東西,所以也算是合情合理。
1?AVA Dataset【1】是什么?
????這是一個(gè)美學(xué)質(zhì)量評(píng)估的數(shù)據(jù)庫(kù),包括250000張照片。每一張照片,都有一系列的評(píng)分,以及語(yǔ)義級(jí)別的label,其中語(yǔ)義級(jí)別的label共60類,同時(shí)還有photographic style,也就是照片的風(fēng)格,有14類,文后詳說(shuō)。
????一句話總結(jié):在規(guī)模,多樣性和標(biāo)注的一致性上,都不是以往的數(shù)據(jù)庫(kù)可以比擬的。在文章后面作者們還舉了3個(gè)應(yīng)用的例子,強(qiáng)調(diào)了該數(shù)據(jù)庫(kù)的意義。
2 AVA Dataset都做了什么標(biāo)注?
2.1 Aesthetic annotations
????顧名思義,美學(xué)質(zhì)量標(biāo)注。每一張圖,都有若干人來(lái)投票,投票的數(shù)量從78~549。大概每一張圖,有210個(gè)投票。投票的分?jǐn)?shù),從0~9,分值越高,說(shuō)明圖片質(zhì)量越高。
????并且,標(biāo)注者中不止包括了專業(yè)的圖像工作者,攝影師,也包括了攝影愛好者,這樣顯得更有普適性。
2.2 Semantic annotations
????什么是語(yǔ)義標(biāo)注呢?顧名思義,就是圖像中到底包含了什么內(nèi)容。具體來(lái)說(shuō),這個(gè)數(shù)據(jù)集包含了66個(gè)textual tags。大概有200000張圖只包含一個(gè)tags,150000張圖包含2個(gè)tags。
????哪些tags最多呢?作者們也作出了一個(gè)統(tǒng)計(jì)。
????從中可以看出,這些tags都不在一個(gè)維度的。
????怎么說(shuō)呢,有的是描述圖像的內(nèi)容,比如water,architecture,有的是描述圖像的風(fēng)格,比如black and white。
2.3 Photographic style annotations
????好了,這個(gè)是比較難理解的一個(gè)部分 。為什么呢?因?yàn)檎嬲纳婕暗綌z影美學(xué)了。從3大方向開始描述:
????light, colour, composition。
????最終得到了14個(gè)屬性:
????下面列出了所有屬性,以及包含該屬性的圖片數(shù)量。
????Complementary Colors (949), Duotones (1,301), High Dynamic Range (396), Image Grain (840), Light on White (1,199), Long Exposure (845), Macro (1,698), Motion Blur (609), Negative Image (959), Rule of Thirds (1,031), Shallow DOF (710), Silhouettes (1,389), Soft Focus (1,479), Vanishing Point (674).
????就不翻譯了,大家可以先對(duì)著去看中文。
????如果對(duì)攝影相關(guān)的術(shù)語(yǔ)還不太懂,可以去我的攝影公眾號(hào)《言有三工作室》去學(xué)習(xí)。
????反正也不用著急,因?yàn)槲覀儠?huì)慢慢道來(lái)。
3 AVA Dataset靠不靠譜?
????AVA不是第一個(gè)美學(xué)質(zhì)量數(shù)據(jù)庫(kù),也不是最后一個(gè),但是仍然是最大的美學(xué)數(shù)據(jù)集
????下面是AVA與其他的數(shù)據(jù)集做的比較:
????其中,現(xiàn)在看來(lái)很多的維度都非常重要。
????比如,當(dāng)全局的美學(xué)平均分不夠用時(shí),AVA也提供了一個(gè)分布,而且每張圖的標(biāo)注數(shù)量很大,有偏性就很小了。
????另外,Semantic 和 style label現(xiàn)在甚至都可以單獨(dú)當(dāng)作一個(gè)問(wèn)題來(lái)研究的。
????不過(guò),由于美學(xué)是一個(gè)很主觀的東西,雖然每一張圖都有人投票,但是評(píng)分到底靠不靠譜,個(gè)體差異會(huì)不會(huì)很大呢?
????作者做了分?jǐn)?shù)分布統(tǒng)計(jì),如下:
????(1)?? 首先,分?jǐn)?shù)的極端,也就是0和9分的占比。2~8分占超過(guò)99.77%的量,所以0和9的比例非常低,不必?fù)?dān)心評(píng)分過(guò)于離譜。
????(2)?? 再看各個(gè)區(qū)間,如下圖。
????可知,對(duì)于分值接近于5的,分布是很明顯的高斯,這說(shuō)明投票比較一致。而對(duì)于分值很高或者很低的,也分別在兩側(cè)有很陡的表現(xiàn)。綜合表現(xiàn)說(shuō)明,所有投票基本是達(dá)到一致結(jié)論的。
????從下面方差圖可以看出,越是分值接近于0.5的,越是方差小,說(shuō)明越是穩(wěn)定。
????關(guān)于這個(gè)方差,作者也舉例說(shuō)明了:
?????如上圖,都是在5分左右的圖。上面一組圖的方差小,這說(shuō)明大家比較能達(dá)成一致,認(rèn)為是5分左右,也就是一般般的圖,不好不壞。但是下面的方差大,這說(shuō)明有些人認(rèn)為很好,有些人認(rèn)為很差。
????這種情況,通常出現(xiàn)在比較抽象的圖。
????綜上,AVA dataset很靠譜。
4 應(yīng)用
4.1 Large-Scale aesthetic quality categorization
????應(yīng)用于圖像質(zhì)量評(píng)估。
????作者實(shí)驗(yàn)表明,隨著數(shù)據(jù)庫(kù)量級(jí)的增大和訓(xùn)練圖像質(zhì)量的增加,原來(lái)的各種方法都能在原有基礎(chǔ)上得到提升。
4.2 Content-based aesthetic categorization
????基于內(nèi)容的圖像質(zhì)量聚類。作者取了最多的8個(gè)類別,訓(xùn)練了3個(gè)分類器:
????(1) 訓(xùn)練了8個(gè)獨(dú)立的SVM二分類器。
????(2) 從這些類別中隨機(jī)取了同樣數(shù)量的圖訓(xùn)練了1個(gè)分類器。
????(3) 從AVA中隨機(jī)選了10倍于(1),(2)中圖像數(shù)量的圖做了訓(xùn)練。
????結(jié)果表明,第(1)個(gè)分類器效果好于第(2)個(gè),而第(3)個(gè)又好于第(1)個(gè),所以,可見越大的數(shù)據(jù)集,是有效的。
4.3 style categorization
????作者訓(xùn)練了14個(gè)分類器,然后觀察結(jié)果表明,對(duì)于”duotones”,“complementary colors”,“l(fā)ight on white”等,顏色直方圖是最好的特征。而對(duì)于,“shallow depth of field”,“vanishing point”,SIFI和LBP是最好的特征。這些表明,對(duì)于不同style的照片,需要不同的特征來(lái)描述,所以style的標(biāo)注是非常有意義的。
[1] AVA: A Large-Scale Database for Aesthetic Visual Analysis
言有三,原360AI研究院工程師,一個(gè)攝影愛好者。
想了解更多的細(xì)節(jié),就來(lái)我計(jì)算機(jī)視覺公眾號(hào)《視若觀火》,以及攝影公眾號(hào)《言有三工作室》吧
當(dāng)然,攝影平臺(tái)500px和圖蟲,更是天天更新噢。
另外,邀請(qǐng)你來(lái)我10天后的gitchat活動(dòng)一起討論學(xué)習(xí)。
如果有土豪覺得文章OK,想打個(gè)賞,那就樂(lè)呵呵接受了!
總結(jié)
以上是生活随笔為你收集整理的为AI摄影铺路,第一个大规模的美学质量数据库的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 一文说说这十多年来计算机玩摄影的历史
- 下一篇: 传统方法怎么玩计算机审美