斯坦福新研究:在图像压缩上,人类比算法强
歡迎關注“創事記”微信訂閱號:sinachuangshiji
文/新智元,編輯/大明、金磊
來源/techxplore、arXiv
【新智元導讀】目前,圖像壓縮算法已然進入較為成熟階段。最近,來自斯坦福的工程師及其團隊三位高中生實習生共同完成的工作表明,在圖像壓縮方面,人類還是比算法強。
人類還是要比算法強!
我們可能經常會遇到類似這樣的一個場景:
你的朋友打算領養一只狗,他給你發了一張照片,但是由于各種數據的限制,你只能看到一張比較模糊的照片。于是你的朋友又給你發了一個鏈接,點擊鏈接后,你就可以看到比較清晰的照片了。
像這樣發送鏈接,而不是上傳大量圖像,只是人們傳遞信息的一種技巧。而根據斯坦福工程師和高中生的研究,這樣的技巧可能會激發一種全新的圖像壓縮思路。
研究人員要求人們將傳統壓縮算法生成的圖像與人類在數據受限條件下生成的圖像進行比較。
結果表明,人類所做的工作要比算法處理的圖像好的多!
正如論文作者 Irena Fischer-Hwang 說:
算法還有很長的路要走,可以從人類共享信息的方式中學到很多東西。
該項目是由電氣工程教授 Tsachy Weissman 以及三名在他實驗室實習的高中生合作完成。
論文地址:https://arxiv.org/pdf/1810.11137.pdf
人類是如何在圖像壓縮上打敗算法的?
自電子媒體問世以來,圖像壓縮技術得到了廣泛研究,出現多種圖像格式和壓縮技術,如 PNG、JPEG、JPEG2000、JPEG XR、BPG 和 WebP 等。為了顯著縮小圖像尺寸,大多數壓縮技術在壓縮圖像時允許一些損失。
然而,所使用的損失函數不對應于人類感知,而且所得到的圖像在高損耗水平下可能會顯得模糊和不自然。如下圖左側所示,使用 WebP 進行壓縮和圖像重建會導致圖像嚴重模糊。
使用針對人類感知優化的損失函數可以實現更好的壓縮結果,這似乎是自然而然的想法。我們將這種損失函數稱為“以人為中心”的損失函數。圖 1 的右側所示為“以人為中心”的圖像重建實例,優先考慮圖像內容,而不是逐個像素上保留原圖像的紋理。實際上,目前計算機視覺領域已有大量工作,更好地理解人類的感知,形成一種基于人類視覺的損失函數。比如,人類視覺更容易受到強度差異而不是顏色的影響,壓縮算法在強度空間的量化上要比顏色空間更細致,以此實現更好的壓縮性能。
圖1 長頸鹿圖像原圖(a)以及 WebP 重建(b)和類似大小的真人重建(c)
盡管如此,目前仍然缺乏一個準確總結人類感知損失的指標。為了評估以人為中心的損失函數的重要性,我們提出了由人類進行的圖像壓縮實驗的結果。在實驗中,兩個人通過文本聊天系統進行通信,其中一個人是“描述者”,負責通過文本指令將圖像描述給“重建者”。為了模仿人類基于記憶、位置、對象的知識來感知和識別場景的能力,本實驗允許描述者在文本聊天中以 URL 鏈接來引用來自網絡上的公開可用的圖像。
描述者還可以向重建者發送文本指令,以便幫助后者更好地接近描述者的圖像原貌。利用規模不斷擴大的公共圖像數據庫,本實驗旨在了解單邊信息環境中以人為中心的壓縮方式的局限性。
為了確定重建的質量,我們使用亞馬遜 MTurk 平臺征求對重建圖像的意見。實驗中使用的框架中文本聊天的壓縮大小表示壓縮圖像的大小,MTurk 分數可視作與人類壓縮相關聯的“損失”。在 13 種不同類型的高分辨率圖像上呈現真人壓縮的結果表明,“真人”壓縮方案在 13 個圖像中的 10 個比 WebP 自動壓縮器表現出了更高的性能。
數據收集
實驗首先創建一個原始圖像的數據集,這些圖像并未在網絡上公開。原始圖像的創建以非原始圖片的精確副本實現,以防產生過于瑣碎的編碼。實驗使用數碼相機或智能手機攝像頭以高分辨率拍攝原始圖像。實驗中的描述者和重建者都不知道獲取了何種圖像(面部,風景,草圖等)。從這些圖像中為比較實驗選擇了 13 種不同的高分辨率圖像。
關于圖像和其他詳細信息
見論文附錄和 https://compression.stanford.edu/human-compression
實驗設置
簡單介紹一下評估真人壓縮和 WebP 圖像重建質量的實驗程序:
1. 真人壓縮:輸入圖像首先由真人壓縮系統使用前文描述的過程進行壓縮和重建。記錄壓縮文本指令的大小(以字節為單位)。
2. WebP 壓縮:WebP 壓縮器用于將輸入圖像有損壓縮到與壓縮后的真人文本指令類似的大小。
3. 質量評估:在 MTurk 平臺上使用人類評分員比較 WebP 和真人壓縮圖像的質量。
WebP 壓縮
WebP 是谷歌發布的相對較新的圖像壓縮器。我們選擇 WebP 作為參考來比較真人壓縮的圖像重建質量,WebP 在實驗實現方案的高壓縮水平下的性能優于 JPEG 和 JPEG2000。如下圖所示。
即使使用 WebP 以最低允許質量級(質量參數設置為0)壓縮圖像,產生的壓縮文件大小也大于真人壓縮的文件。因此,我們首先在使用質量參數為 0 的 WebP 壓縮之前降低圖像的分辨率以獲得符合目標大小的圖像,結果 WebP 端一直出錯,產生的文件比真人壓縮一方的文件要大。
原始圖像與 WebP 和真人壓縮后的圖像大小,以及 MTurk 平均分,較高分以粗體表示
在結果評估方面,使用 Amazon Mechanical Turk(MTurk)上的人類評分員來比較壓縮圖像的質量。對于每個圖像都顯示原始圖像和重建后的圖像,并要求評分人員按 1 到 10 的分數對重建圖像進行評分。由于人類感知尚未被很好地理解或定義,我們的評分指標為圖像重建的“滿意度”,而不是像“精確度”這種特定指標。對于每個實驗和兩種類型的重建(真人壓縮和 WebP),收集 100 個調查回復并匯總統計。
下圖所示為評分人員所見的 MTurk 調查的屏幕截圖。
人類壓縮方案能夠在壓縮過程中有效地利用語義相似的圖像。然而,大多數流行的壓縮器似乎沒有利用這種豐富的公共資源。
本文的實驗表明,有效地利用語義和結構相似的圖像(或圖像的部分)可以顯著提高壓縮比。這在當今尤其重要。
雖然真人壓縮框架可用作探索性工具,但由于其勞動密集型的性質,在實用性上顯得不足。 我們沒有以任何方式對壓縮協議進行優化,如果我們優化了協議,無疑可以獲得更好的壓縮和重建分數。
值得注意的是,每次圖像重建都需要幾個小時才能完成。英語冗余會導致結果達不到最優,不過使用 bzip2 可以部分解決這個問題。此外,繪圖技巧、對基本圖像編輯軟件的使用技巧、重建者偶爾發出會導致誤解的描述性指令而導致的效率低下,對相似圖像進行手動搜索的困難,這些因素都會對結果產生影響。這些缺陷或不足的任何改進,都可以進一步改善圖像的重建質量。
總結
以上是生活随笔為你收集整理的斯坦福新研究:在图像压缩上,人类比算法强的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 工人日报:“工作996,生病ICU”该引
- 下一篇: AWS杀死了云计算:云计算四十年历史化蝶