老北京生活影像和3D AI主播为什么在2020年火爆全网?
AI 給我們的生活帶來了許多樂趣,從 AI 美顏到 AI 變臉,再到今年火爆全網的 AI 修復 1929 年老北京生活的 3 分鐘影像資料和全球首個 3D 版 AI 合成主播。這些新鮮有趣的應用為什么在 2020 年火爆全網?背后推動力是什么?
火爆B站的 AI 修復老北京影像--盲人"爵士"樂隊
全球首個 3D 版 AI 合成主播新小微,圖片來自新華社
北京國際廣播電影電視展覽會(BIRTV)2020 期間的一場媒體活動上,NVIDIA 專業可視化亞太區業務主管沈威表示,傳統“離線式”渲染、預錄式的內容無法加入更多互動和特效的直播視頻內容已經不能夠滿足當前廣播電視行業的需求,尤其是當下的 AI 時代。利用 NVIDA GPU 的實時光線追蹤技術及深度學習技術,可以為廣播電影電視行業帶來更多不一樣的體驗。
AI 帶給廣電行業的兩大變革
修復老北京生活影像和 3D AI 主播恰好代表了 AI 給廣播電影電視行業帶來的兩個變革——對過去缺損畫面、素材殘缺像素的“無中生有”,以及實時渲染帶來的更強互動性。
NVIDIA 中國區高級技術市場經理施澄秋表示:“我們看到廣電行業的趨勢是從 OTT(流媒體服務)向 SVOD(視頻點播)過渡,并且市場也在蓬勃壯大。在這個增長過程中,要么內容極劇爆炸、要么讓老影片有更高分辨率。”
GPU“無中生有”修復過去
7 月份火遍全網的 1929 年的老北京生活視頻,不僅用 AI 對視頻進行上色、補幀、提升了分辨率,還通過時代原聲還原了老北京味。這個視頻的火爆離不開新的 AI 算法 DeepRemaster,當然也需要有強大硬件作為支撐。
為圖像處理而生的 GPU 是不二的選擇。據悉,NVIDIA 有一項叫做 NGX 的技術,先用像 DeepRemaster 這樣自動完成畫面修補、美化和降噪的 AI 算法對 GPU 進行訓練,然后 NGX 就能“無中生有”來做畫面插幀、超級分辨率、慢動作等。
施澄秋對雷鋒網表示,對于插幀而言,如果用傳統的人工方式來做,一天只能做2-3 幀,借助基于 GPU 的 AI 技術后,一天的插幀和修復可以達到百萬幀級別,這是一個巨大的效率提升。
AI 插幀還能在大幅縮短周期的同時實現更好效果。施澄秋以很多電影中都有千軍萬馬的場面舉例,如果用一匹馬復制,不僅呆板而且運動軌跡都一樣。但用人工的方式周期長且成本高,借助 NGX 技術,就可以得到形態各異的馬。
AI 插幀能讓老視頻有更好的流暢度,達到 1080P 甚至 4K、8K。借助 AI 插幀和著色技術,還能夠實現超級慢動作。超級慢動作是用超高幀率的攝像機(120 楨/秒、240 楨/秒)拍攝視頻,然后再以低幀率(30 楨/秒、40 楨/秒)播放。
但很多素材比如用手機拍攝的突發新聞本身就只有 30 楨/秒的幀率,如果做慢動作就會像放幻燈片一樣卡頓。利用 NVIDIA NGX 的“無中生有”技術生成幀間像素,就可以得到非常平滑逼真的慢動作。
幀率決定著視頻的流暢度,分辨率更直接的影響著觀感。“SUPER-RES(超級分辨率)不是新概念,以前要實現 SUPER-RES 可能需要非常昂貴的硬件,且制作周期非常長,現在利用我們的 NGX AI 技術就可以做實時 4K 分辨率的超級分辨率。” 施澄秋表示。
那效果如何?當虹科技就基于 NVIDIA 圖靈(Turing)架構 GPU 推出了離線超級分辨率產品,支持標清轉高清/4K、高清轉 4K/8K 等。借助 AI 算法訓練高頻細節,實現高保真縮放。
當虹科技 AI 超分技術
還有強氧科技的 DaVinci Resolve,這是一款融合了專業 8K 剪輯、調色、視覺特效和音頻后期制作工具。能夠通過插補幀做慢動作,驚艷的自動調色,也能做匹配內容、物體自動移除等。
值得注意的是,當虹科技和強氧科技都提到了 NVIDIA 實時光線追蹤 GPU 的性能優勢。根據當虹科技給出的數據,不同的 NVIDIA GPU 的 AI 超分深度學習推理性能相比 CPU 有 10 倍到 25 倍不等的性能優勢。
強氧科技給出的 4K BRAW、6K BRAW、8K BRAW 的測試顯示,NVIDIA 的 Quadro RTX 6000 相比 CPU 也有 2 倍左右的性能優勢。
GPU 實時渲染增強互動性
“無中生有”技術更多的是對已有視頻素材的增強,面向未來,GPU 帶來的是互動效果的增強,讓廣電的單向推薦也借 GPU 的 AI 功能變成雙向智能推薦。
文中開頭提到的 AI 合成的主播,其實 2018 年就已經有,但受限于當時的 AI 技術以及計算、渲染能力,那時的 AI 主播只有面部表情,沒有肢體動作等。因此,今年全國兩會期間進行新聞資訊播報的 3D 版 AI 主播新小微一亮相就獲得了極大的關注。
圖片來自新華社
GPU 的實時渲染能力決定著數字人的逼真程度,據悉,要實現一個特別寫實的數字人,臉部的模型、加上毛發等面數接近 500-600 萬。這個量級上,要做到面部表情、整個身體實時驅動,需要幀率保持在 50-60 幀之間,因此算力是主要的瓶頸所在。
博采傳媒前期部總監沈辰奇也表示:“2017 年我們推出了國內第一部全部用 GPU 渲染而成的動畫電影《昆塔:反轉星球》,GPU 渲染比以前用 CPU 渲染的成本優秀太多,但仍然是我們制作流程的一個瓶頸。”
施澄秋說:“GPU 在 3D 建模、3D 圖形圖像電視廣電素材的片源制作中非常有優勢。圖靈架構的 RTX GPU 非常擅長實時渲染,能夠滿足數字人的渲染能力和算力要求。另外,交互式、對話式 AI 也可以應用到數字人中。”
嘗到了 GPU 渲染整片的甜頭,博采傳媒在繼續探索純第二部 GPU 渲染動畫時,想要實現基于 Unreal Engine(虛幻引擎)實現虛擬場景的反向投射。投射屏的尺寸規劃是 800 平米,驅動這個巨型屏用 NVIDIA GPU 進行實時渲染測試還是有點慢。
“我們最后選擇了 NVIDIA RTX 8000,利用 nDisplay 技術,實時驅動 1.8 億個像素點。在實際拍攝時,攝影基地的景深和透視的變化完全同步匹配。這其中革命性的意義在于把后期合成的環節砍掉,做到所見即所得。”沈辰奇指出。
解決了拍攝背景的問題,博采傳媒開發了一個基于超寫實的數字人項目,可以用于代言、直播等。
基于虛幻引擎的天氣播報,圖片來自 unrealengine
數字人是給觀眾帶來不一樣的體驗,Epic Games 的虛幻引擎則幫助創作者更好的創新,它被越來越多地用來做實時預覽、特效預中期預演、后期預演等。Epic Games China 商務發展經理徐良安表示:“虛幻引擎不僅可以讓所有參與制作的人員都可以實時修改,實時看到效果,具有很大的靈活性,還能大大節約成本。”
虛幻引擎和 nDisplay 技術不僅可以用于線性內容拍攝,還可以把場景分單元或者分組投射到不同屏幕上并進行融合,在演唱會上讓觀眾和表演者能夠更好的互動。Epic Games 也和美國著名說唱歌手 Travis Scott 合作,在《堡壘之夜》游戲中進行演出,讓粉絲可以一邊玩游戲一邊觀看演唱會,實現了很好的傳播。
實時渲染正在打破行業的邊界。新奧特產品中心總監王寧也表示:“去年開始,4K、8K 的內容越來越廣泛。以前我們是通過 CPU 進行渲染加速,CPU 能處理更多線程,但實時渲染能力不強,所以我們選擇了 NVIDIA 的 RTX 系列 GPU。特別是像我們石墨超清在線需要實時呈現到大屏幕的,需要 GPU 的顯存能力。”
除此之外,基于 GPU 的 AI 也能應用到智能插播廣告,通過 AI 算法插入5-10 秒的廣告,既不影響觀眾的收看體驗,也讓廣電的互動變成雙向互動。
SDI 轉向 IP,高清視頻的時代即將到來
性能更強的圖靈架構 RTX GPU 是讓老北京視頻、數字人在 2020 年備受關注的重要因素,但這些 AI 應用能否普及還有一個關鍵因素——視頻傳輸。NVIDIA Mellanox 高級市場開發經理陳龍指出,1080P 以前,廣電行業的視頻傳輸靠 SDI (Serial Digital Interface,數字分量串行接口)。隨著 4K 和 8K 業務的興起,SDI 不能滿足 4K 視頻 8G-9G 的傳輸帶寬需求。
如果用 4 根 3G 帶寬的 SDI 傳輸 4K 視頻,成本變高且組網復雜。直接換 12G 帶寬的 SDI,由于高速信號在 SDI 銅纜中傳輸距離和速率成反比,只能傳輸大概 50 米的距離,不能滿足廣電行業需求。8K 的最低帶寬需求將達到 25G-140G,SDI 更難以滿足需求。
“我們判斷,SDI 轉向數據中心里的 IP 解決方案是大概率事件,后者不僅成本比定制化 SDI 成本更低,帶寬也更高。” 陳龍介紹。
但 SDI 轉換為 IP 解決方案之后,終端 CPU 處理協議棧的負載就會大幅上升。為此,Mellanox 的網卡集成了 Rivermax 技術,解決 SDI 轉 IP 化之后傳輸標準的問題,也就是通過這個技術發送符合 SDI 要求的數據。另外,借助是 Kernel Bypass 技術,將協議棧的大量負載放在網卡,大幅降低 CPU 的負載。
還有 Frames 技術,網卡把接收到的每一行像素整合成一張圖片后再傳輸給 CPU,也可以降低 CPU 的使用率。Mellanox 的網卡也支持虛擬化和云化,能夠滿足高清視頻傳輸的穩定性要求,也有助于開拓更廣闊的市場。
IP 解決方案優勢明顯,但也面臨一層的鏈路、二層的邏輯鏈路、三層路由轉發、報文緩存等問題,帶來了故障的排查就非常復雜。這需要 What Just Happened 技術,實時監測交換機的狀態,以及網卡內部的一些信息,有助于故障的診斷和排查。
陳龍說:“要 IP 化,只需要將價格昂貴的 SDI 加速卡換為 Mellanox 的網卡,可以支持 10G、25G、50G、100G、200G 乃至 400G 的傳輸帶寬。當設備 IP 化之后,不僅解決了傳輸帶寬不夠、傳輸距離過短的主要的痛點,還降低了整個設備的采購成本。除此之外,因為本身 IP 是一個彈性的管道,在 IP 之上能夠傳輸任意格式的報文。”
雷鋒網了解到,Mellanox 已經與全球各大視頻解決方案合作商開發了不同的產品,打入了 NBC、BBC、CNN 等著名的視頻內容提供商。
雷鋒網小結
廣電行業正在越來越多地探索與 AI 的結合,基于更強大的 GPU 和優化的技術,AI 正越來越多的應用于提升分辨率,包括降噪、插幀、插植等應用中,讓珍貴的舊視頻煥發新的生命力,再次吸引大家的注意力。同時,GPU 更強大的實時渲染能力也讓直播或者視頻內容的制作增加了更多互動和特效,更加靈活和高效的創作方式打破了行業的邊界,為未來的創新奠定基礎,當然,這里面還需要 SDI 專向 IP 解決方案,滿足 4K/8K 的視頻傳輸需求。
面向數據中心的安培架構 A100 GPU 已經在 5 月推出,安培架構游戲 GPU+Mellanox 網卡又會把專業可視化行業引向何方?
總結
以上是生活随笔為你收集整理的老北京生活影像和3D AI主播为什么在2020年火爆全网?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 双色球频道往期(双色球往期回顾)
- 下一篇: 红尘来呀来是什么歌啊?