B站开源自研动漫超分辨率模型,助力动漫UGC视频高清化
點擊上方“LiveVideoStack”關注我們
人類對于視頻畫質的升級是一個永無止盡的過程。從馬賽克到高清畫質,從720P到4K,視頻平臺正在不斷提升畫質,但目前各大視頻平臺的超高清內容還并不是很多,其關鍵在于超高清視頻的制作難度遠超普通視頻制作,對設備以及后期技術的要求,為視頻內容貢獻者帶來了很大的阻礙。
4K/8K內容缺乏始終是超高清視頻產業發展的痛點,完善渠道、拍攝制作水平、技術等方面的不足是關鍵。隨著軟硬件能力的提升,4K的消費能力大幅提高,為了應對這種情況,需要提高4K的生產能力。除了新拍4K以外,超分4K是一個降低成本很好的途徑。最近,B站在上線8K畫質的同時,還面向UP主提供了4K超分功能,并為各位UP主直接提供畫質升級的功能。
AI超分辨率技術是圖像修復技術領域的一個子集方向。動漫視頻的產出過程中往往帶有一系列數字信號處理的過程,其中不乏原盤帶有鋸齒、暈輪、色塊、不符合預期的噪聲、作畫分辨率過低后期放大導致的線條模糊等情況出現,動漫壓制組往往需要對源進行下采樣,在母帶分辨率下對不同片段進行參數分析,并串聯一系列濾鏡進行手工修復,這造成了很大的人力成本。
在對大規模高質量二次元畫風數據進行質量降低得到模擬的、需修復的原盤數據后,AI得以通過學習從低質圖復原原圖的逆過程來進行圖像修復。當輸出圖像分辨率大于輸入圖像分辨率時,該技術被稱作AI超分辨率技術,經過該技術處理后的圖像可以在指定分辨率實現高清化。
B站自研的動漫超分模型訓練先行對動漫幀進行切塊處理,使用圖像質量打分模型對候選塊進行打分過濾,得到一個百萬級的高質量動漫圖像塊訓練集。然后使用多階段降質算法,將高清圖像塊降采樣得到低質圖像,讓AI模型學習、優化從低質圖像到高質圖像的重建過程,訓練完畢后即可對真實的二次元低質圖像進行高清化處理,B站將開源推理階段的模型參數與推理代碼。
這種動漫圖像超分模型被B站稱為:Real-CUGAN,全稱為Real Cascaded-U-Net-style Generative Adversarial Networks(真實的、級聯U-Net風格的生成對抗網絡),是一個使用了與Waifu2x相同的動漫模型結構,但是因為使用了新的訓練數據與訓練方法,導致形成了不同的參數和推理方式的模型。目前,B站已經將該技術開源。
將Real-CUGAN與目前廣為流行的、針對動漫有特別優化的,開源模型Waifu2x(使用最新版CUNet-Noise3模式,下同)與Real-ESRGAN(使用最新動漫特別優化版RRDB_Anime6B,下同)進行對比,可以看到Real-CUGAN在速度和兼容性等方面都有一定的提升。
速度:Real-CUGAN、Waifu2x均約為Real-ESRGAN的2.2倍速度(V100上PyTorch推理速度約為6.3fps);約為通用型Real-ESRGAN模型的8.4倍速度。
原理:Real-CUGAN采用與Waifu2x-CUNet相同的模型結構;Real-CUGAN的高清私有訓練集塊數量高達百萬級,Waifu2x與Real-ESRGAN均為私有庫,量級與質量未知;Real-CUGAN額外在頻域上進行監督訓練,Real-ESRGAN使用譜歸一化U-Net鑒別器結構生成對抗訓練。
兼容性:Waifu2x擁有最大的受眾群體,有大量Windows上的APP應用,支持VapourSynth,享受N卡CUDA加速,也可通過NCNN模型使用A卡加速;Real-CUGAN與Waifu2x模型結構相同,可通過替換參數文件與現有APP完美兼容,也可通過開源的Windows應用使用;而引入Real-ESRGAN的Windows應用目前并不多。
功能性:Waifu2x支持不同降噪程度的1倍與2倍分辨率修復;Real-CUGAN目前支持2倍、3倍、4倍分辨率修復(未來將支持調整修復程度與任意倍率分辨率修復);Real-ESRGAN動漫優化模型只支持4倍分辨率修復。
效果:我們使用一些具有典型性的難樣本進行測試與主觀性對比。
如下圖所示:左上為輸入,右上為Waifu2x,左下為Real-ESRGAN,右下為Real-CUGAN。
case1:紋理挑戰型(測試圖來自《偵探已死》第一集10分20秒)
通過對比可知:Waifu2x只有降噪,沒有對線條的優化,銳利度最低;Real-ESRGAN紋理保留性最差,陰影處涂抹干凈了;Real-CUGAN綜合處理得最好。
case2:線條挑戰型(測試圖來自《東之伊甸》第四集7分30秒)
通過對比可知:Waifu2x只有去塊與降噪,沒有對線條的優化,銳利度最低;Real-ESRGAN對于較粗、較虛化的線條進行了錯誤處理,紅框中的嘴部線條中間虛兩邊粗;Real-CUGAN線條銳利,處理正確。
case3:極致渣清型(測試圖來自Real-ESRGAN官方測試樣例)
通過對比可知:Waifu2x對jpeg壓縮噪聲未能處理干凈,產生了部分更差的效果,反而使得畫面變臟;Real-ESRGAN使畫風發生了改變,無中生有產生雜亂線條,左下線條、右耳邊緣處理異常,且出現偏色問題;Real-CUGAN表現最好。
未來,B站將針對不同品類適配不同的超分算法,并且使用窄帶高清算法降低卡頓率提高流暢度、輔助客觀畫質評測加主觀評測系統保障視頻質量。
目前B站的OGV國創劇《鎮魂街第二季》 (https://www.bilibili.com/bangumi/play/ss5626)已經上線了動漫超分4K清晰度,部分UP主也能體驗到超分功能。
為了方便更多的創作者,B站將提供超分工具供用戶下載使用,并且同時在Github上開源了超分算法:
https://github.com/bilibili/ailab/tree/main/Real-CUGAN。
本次開源面向了不同群體:包括Python(PyTorch)玩家、VapourSynth專業視頻壓制玩家和Waifu2x-Caffe玩家、愛好者等。
網盤下載模型參數、Waifu2x-Caffe模型參數和Windows可執行程序:
百度網盤
https://pan.baidu.com/s/10NbgnusDucllKiE0sgBWvQ
提取碼 ds2a
SVIP不限速
和彩云
https://caiyun.139.com/m/i?015CHcKp82h15
提取碼 1ONM
手機號驗證碼登錄,不限速無需客戶端
谷歌盤
https://drive.google.com/drive/folders/1UFgpV14uEAcgYvVw0fJuajzy1k7JIz6H
后續B站將對該倉庫進行持續更新,其中包括:
將模型進一步輕量化,提高推理速度,降低顯存占用需求
可調整的增強銳度,降噪強度,去塊、去模糊強度
一步超到任意指定分辨率
優化紋理保留,削減模型處理痕跡
積極收集issue與用戶意見,對模型進行持續優化改進
B站開源的動漫超分模型將助力更多的二次元UGC用戶付出更少成本,更加便捷地制作出更高清高質的視頻,同時有助于4K、8K高清視頻的普及與推廣。從推理速度、修復效果、處理痕跡等角度看,該模型將能夠通用化,并達到先進水平。
掃描圖中二維碼或點擊閱讀原文
了解大會更多信息
喜歡我們的內容就點個“在看”吧!
總結
以上是生活随笔為你收集整理的B站开源自研动漫超分辨率模型,助力动漫UGC视频高清化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【视频编解码性能优化与实现】
- 下一篇: 音视频技术开发周刊 | 231