渣画质视频秒变清晰,“达芬奇”工具集帮你自动搞定
編者按:是否時?!翱脊拧币恍├想娪啊⒗蟿勇砘貞浥f日時光?你是否也有一些珍貴的錄像,帶你重溫過去的美好?然而,我們已經習慣了高清體驗,回頭再看曾經的舊影像,畫質或許“渣”的讓人不忍直視。在這個多媒體內容爆發的時代,人們對視頻內容的需求愈加強烈,視頻素材的創作、增強及再創作技術也有了大幅提升。盡管利用現有的視頻修復工具,視頻編輯者也能讓視頻變得更高清,但其前提條件是需要有超高性能配置的電腦,并付出視頻時長幾倍甚至幾十倍的時間成本,即便如此,結果可能仍不盡如人意。
那么有沒有可能在有限的算力,甚至無需聯網的情況下,在端設備上實時、高質量地完成視頻的高清化、智能插幀呢?微軟亞洲研究院的智能視頻增強工具集“達芬奇”回答,“我可以!”依托于400萬高清訓練數據和大規模底層視覺預訓練方法,“達芬奇”可以實現在端上以較低的計算成本對視頻畫質進行修復。特別是對于一些實際的生產需求,大規模的底層視覺預訓練進一步提升了模型的魯棒性,使其可以應用于更具挑戰性的場景。
1998年11月,微軟亞洲研究院在北京成立。時任微軟公司 CEO 比爾·蓋茨為此特地錄制了一段視頻,讓我們先一起來看看其中的片段。
比爾蓋茨原視頻
這段視頻對于如今看慣高清視頻的我們來說,或許畫質有點太渣了。為了解決現有視頻增強和修復工具的痛點,充分發揮 AI 技術的優勢,微軟亞洲研究院多媒體搜索與挖掘組的研究員們將深度學習、機器學習等技術經驗,與實際場景和需求結合,推出了一套智能化視頻增強工具集——“達芬奇”(DaVinci),大大降低了用戶處理視頻素材的門檻,只需一鍵就可以讓視頻更清晰、更順滑。
現在,我們再來看看下面這個被“達芬奇”修復的版本。是不是感覺瞬間撥云見日?
“達·芬奇是文藝復興時期最杰出的藝術家之一,他將藝術創作和科學相結合,留下了許多不朽之作。因此,我們希望智能視頻增強工具集‘達芬奇’可以將 AI 技術應用到多媒體內容處理領域,讓視頻和圖像創作者們更好地揮灑他們的創意,這也是我們將該項目命名為‘達芬奇’的原因,”微軟亞洲研究院主管研究員楊歡說。
“達芬奇”三大技能,將學術概念真正落地應用
據微軟亞洲研究院主管研究員傅建龍介紹,學術界很早就開始了對圖像視頻處理的研究,并在眾多方向上做了理論方法的探索,但要將這些停留在概念驗證階段的創新想法真正落地,則需要仔細篩選可行的方向?!敖涍^仔細的研究,我們認為通用圖像和視頻會議這兩大場景中的畫質增強具有很大的潛力,其背后主要由圖像/視頻超分辨率、視頻插幀、壓縮視頻超分辨率這三大技術進行支持,有著更好的落地和應用機會,也最有可能讓人們體驗到當前 AI 技術的優勢?!弊罱K,這三項技術被集成到了“達芬奇”工具集中,并通過開源供用戶下載使用。
依托于微軟亞洲研究院創新的基于 Transformer 的圖像/視頻超分辨率、視頻插幀和壓縮視頻超分辨率技術,“達芬奇”工具集能夠實時幫助用戶完成不同場景下的視頻增強需求。無論是在線還是離線狀態,都能生成清晰、連貫的高質量視頻,大幅提高視頻觀感體驗。
視頻超分辨率:是將視頻從低分辨率幀序列提升至高分辨率幀序列。對視頻來說,最直觀的感受就是讓我們看到的畫面更加高清,視頻內容中的細節更加動人,從而滿足人們對視頻清晰度日益提高的需求,也能更好地適應硬件分辨率的提升。比如將 480P 的老舊視頻變成 2K/4K 的高清版本,無論是小屏還是大屏播放,畫質都毫無壓力。
視頻超分辨率結果對比(左:傳統 Bicubic 算法,右:“達芬奇”工具集提供的算法)
視頻插幀:是在兩個邊緣幀之間合成不存在的幀。當前視頻的主流幀率是24幀/秒,也就是一秒鐘播放24幅畫面。隨著視頻處理設備以及顯示設備性能的提升,原來的幀率已不能滿足大眾的需求。尤其是在體育賽事或游戲中,若能將幀率提升到60幀/秒甚至120幀/秒,那么則可以讓畫面更絲滑,也能減少由于幀率不足而導致的眩暈。其實,這項技術可以應用于許多場景,包括慢動作視頻、幀速率轉換等。
視頻插幀結果對比(左:傳統幀交錯算法,右:“達芬奇”工具集提供的算法)
壓縮視頻超分辨率:是指從壓縮的低分辨率視頻幀恢復到高分辨率的視頻幀。為了保證視頻在互聯網上的高傳輸速率,或在有限的網絡條件下盡可能傳輸流暢的視頻,互聯網或用戶設備上的大多數視頻都是以壓縮格式存儲和傳輸的。然而,視頻壓縮會造成質量的損失,導致終端用戶觀看時視頻好像被打了馬賽克,特別是在運動較大的場景中,尤為明顯。壓縮視頻超分辨率就是為了修復這種損失,使得視頻畫質更好。
壓縮視頻超分辨率結果對比(左:傳統 Bicubic 算法,右:“達芬奇”工具集提供的算法)
千種設備萬般需求,“達芬奇” 創新設計全部搞定
通常,一項技術在學術論文中所呈現的是其在理想情況下可以達到的上限成果,而當轉化為落地應用的工具時,該技術就要應對各種下限問題。比如,我們無法預估用戶會使用視頻增強工具來處理哪些類型的視頻素材,它可能是手機記錄的兒時影像、DV 拍攝的大好河山,也可能是膠片電影、MP4 中保存的懷舊金曲 MV,又或者是朋友分享的壓縮后的 4K 電影。因此,模型需要有足夠的魯棒性才能處理不同的需求。
另外,用戶的部署環境也未可知,盡管大部分設備可能是手機、筆記本電腦、臺式電腦等,但不同設備的內存、CPU、顯卡性能也不盡相同。同時,研究員們還要考慮計算的功耗問題,對于手機等移動設備,電量的消耗、計算處理的時長也都需要精巧的優化和設計。此外,模型從實驗室的服務器遷移到終端設備上,性能也會有一定的降低。如何確保所有設備體驗的一致性,也是“達芬奇”模型設計的一個重要挑戰。
“達芬奇”三大技能實現的背后都是以業界領先的底層視覺預訓練技術(Low-level Vision Pre-training)作為支撐,并輔以大量的數據訓練。針對模型的魯棒性,研究員們一方面利用了可收集到的400萬公開圖像和視頻數據,圖像、視頻內容涵蓋風景、建筑、人物等等,以及不同壓縮率和分辨率的眾多場景;另一方面,為確保訓練的數據量和豐富的數據類型,研究員們還基于已有的數據,人工合成了更多含有噪聲的退化數據,從而使整個模型訓練能覆蓋到更多用戶實際的應用場景。
為了應對用戶部署環境的多樣性需求,研究員們為模型做了輕量化的設計,并且對網絡結構和模型存儲也做了特殊優化。例如,傳統的視頻處理方法在處理每一幀圖像本身時,還要考慮整個時間序列,大大增加了計算量。而微軟亞洲研究院的研究員們認為,視頻播放就是物體在時間序列上的運動軌跡,只有在這個軌跡上的內容才對當前的畫面增強有所幫助,其它區域的內容則關聯性較低。
由此,研究員們提出了基于軌跡 Transformer 的視頻超分辨率網絡(TTVSR),這也是此前微軟亞洲研究院圖像超分辨率紋理變換 Transformer (TTSR)的擴展性研究成果。針對超分辨率和插幀的計算,軌跡感知轉換器可以把原先時間×視頻單幀圖像的空間復雜度降低到只是對時間序列的計算,進而簡化整個模型的計算復雜度。原來工業模型處理一分鐘的視頻需要十分鐘甚至一小時,現在利用“達芬奇”可以實時甚至超實時完成高清視頻處理。在壓縮視頻超分辨率任務上,“達芬奇”可以更好地保留高頻視覺細節和指導高頻紋理的生成,降低視頻壓縮后偽影的影響。
楊歡和傅建龍表示,相比于圖片,視頻的內容更加豐富,除了空間維度還要考慮時間維度,對計算的需求更高,因此,對于視頻處理就需要軌跡感知 Transformer 這樣一個設計更為精巧的方法。比如針對視頻不同幀之間的連續性和相關性,如果一個人上一幀出現在這個位置,下一幀可能向左走一點,那么我們針對這個人的增強和計算就只需要沿著他運動的軌跡進行計算即可,不需要對整個視頻進行搜索計算。
業界指標測試均高于現有方法
通過在業界廣泛使用的峰值信噪比(PSNR)和結構相似性(SSIM)兩個指標上進行測試,“達芬奇”工具集的表現都優于現有方法。下表展示了軌跡感知視頻超分辨率 Transformer(TTVSR) 在最具挑戰性的 REDS4 數據集上的測試結果,其中 PSNR 分別比 BasicVSR 和 IconVSR 提高了0.70db和0.45db。
軌跡感知視頻超分辨率轉換器(TTVSR)在 REDS4 數據集上的測試結果
將上述提到的基于 Transformer 的視頻超分辨率相關技術應用于視頻插幀以及壓縮視頻超分辨率上,依然可以得到非常不錯的結果。例如,在視頻插幀的 Vimeo-90K 數據集上,可以帶來 0.36db 的 PSNR 提升;應用于壓縮視頻超分辨率的 REDS4 數據集上,在 CRF25 的壓縮率下,可以帶來驚人的 1.04db 的 PSNR 提升。
以上數據集的測試都是基于學術界中特定的退化模型開展的,但考慮到實際的使用場景,用戶上傳的視頻并非高質量的標準素材,也沒有一個對比的基準。所以,為了更接近用戶的真實需求,微軟亞洲研究院的研究員們還設計了一個“不需要標準答案的”視頻評估方法 CKDN,即業界非基于參考的質量評估,旨在為業界持續探索視頻處理方法提供更多參考依據。(論文鏈接:https://arxiv.org/abs/2108.07948)
下載工具集可執行文件,感受清晰、絲滑的視頻
目前,微軟亞洲研究院已將“達芬奇”工具集的部分可執行文件打包發布,GitHub 上的項目主頁也將在近期上線,后續研究員們會在主頁上陸續發布、更新更多的視頻增強工具。專業開發者可以利用工具集,針對自己的場景進行嘗試并與各自的業務深度整合或二次開發,而零技術基礎的普通用戶也可以通過下載、運行工具集的可執行文件,感受“達芬奇”所帶來的清晰、絲滑的視頻。
“達芬奇”工具集下載
圖像超分辨率:https://azsjae.blob.core.windows.net/davinci/release/DaVinci_ISR_General_20220622.zip
視頻超分辨率:https://azsjae.blob.core.windows.net/davinci/release/DaVinci_VSR_Small_Face_20220622.zip
相關論文鏈接:
Learning Texture Transformer Network for Image Super-Resolution
https://arxiv.org/abs/2006.04139
Learning Trajectory-Aware Transformer for Video Super-Resolution
https://arxiv.org/abs/2204.04216
Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment
https://arxiv.org/abs/2108.07948
更多鏈接:
“達芬奇”項目 GitHub 頁面:https://github.com/microsoft/DaVinci
如在使用工具集時發現任何問題,請發郵件到 davinci@microsoft.com 或者在 GitHub 頁面提交 issue 聯系我們。
總結
以上是生活随笔為你收集整理的渣画质视频秒变清晰,“达芬奇”工具集帮你自动搞定的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Ubuntu配置深度学习环境
- 下一篇: 网页设计经验谈:自以为是的网页设计者