“云端一体”的智能媒体生产制作演讲之路
正文字?jǐn)?shù):13220? 閱讀時長:12分鐘
智能媒體生產(chǎn)制作的鏈路當(dāng)中,生產(chǎn)制作是核心,智能是輔助,那么AI技術(shù)是如何融入在整個生產(chǎn)制作流程當(dāng)中的?阿里云智能視頻云?高級技術(shù)專家 鄒娟在LiveVideoStackCon 2020北京站的演講中就智能媒體生產(chǎn)制作的技術(shù)演進(jìn)之路,從三個部分為大家?guī)碓敿?xì)的講解。
大家好,我是來自阿里云視頻云的鄒娟,在視頻云負(fù)責(zé)媒體生產(chǎn)平臺的架構(gòu)設(shè)計和開發(fā)工作。我今天分享的主題是“云端一體的智能媒體生產(chǎn)制作的技術(shù)演進(jìn)之路”。我的整個分享將會從三個部分來展開。
01
? ? ? ? ?媒體生產(chǎn)制作技術(shù)的演進(jìn)
TITTLES
如果我們把制作放大到整個視頻全鏈路的范圍來看的話,那么視頻全鏈路是把它抽象成了五個環(huán)節(jié)。從采集開始?xì)v經(jīng)制作管理,最后是分發(fā)和消費。實際上從以前到現(xiàn)在這么多年,視頻技術(shù)在整個行業(yè)也發(fā)展了好幾十年。那么在整個這個環(huán)節(jié)的這個流轉(zhuǎn)當(dāng)中,視頻全鏈路的每一個環(huán)節(jié)中以前跟現(xiàn)在都發(fā)生了很大的變化。
比如說在采集環(huán)節(jié),我們從最開始的采集過程必須要通過專業(yè)的像索尼松下這種攝像機來去拍攝,到現(xiàn)在我們用手機就能夠拍攝視頻。那在制作這個環(huán)節(jié),我們從最開始必須要用專業(yè)的非線性編輯軟件和桌面上這樣的工具,或者是像這種演播車和硬件導(dǎo)播臺來去做后期或者實時的制作。到現(xiàn)在我們可以在手機上一鍵美顏,也可以在web上做在線的剪輯。
從管理來看,我們以前傳統(tǒng)的模式是我們需要用人工的方式去進(jìn)行元數(shù)據(jù)的編幕。歷經(jīng)很多個審核的環(huán)節(jié),到現(xiàn)在我們可以用智能思維來構(gòu)建動態(tài)的元數(shù)據(jù)體系,然后去做知識圖譜的素材之間的挖掘。我們可以用智能審核去減輕審核的壓力,去提升整個流程的性能。
可以看到整個發(fā)展的路徑,從最開始都是靠人工到現(xiàn)在我們可以用智能化的方式去融入整個過程當(dāng)中來提升整個的效率。
以前制作視頻的都是專業(yè)的機構(gòu)來制作。像電視臺或者電影電視制作公司來制作。到現(xiàn)在每一個老百姓都可以去來制作視頻。整個的趨勢就是從人工到智能,從小眾到大眾。
最后分發(fā)和消費環(huán)節(jié)其實是一個環(huán)節(jié)。從我們以前很傳統(tǒng)的一個被動的接收,像最早看電視的被動接收模式,到現(xiàn)在我們可以去互動,可以去按需求個性化的去選擇我們所看到的內(nèi)容。整個媒體生產(chǎn)的這個演進(jìn)過程,實際上就是從一個很專業(yè)的門檻到現(xiàn)在一個普惠的變化。
現(xiàn)在關(guān)于制作本身的話,其實我覺得是有兩方面的因素。第一個是手機的廠商,把視頻拍攝的這個技術(shù)能夠更大更加深入的在手機上應(yīng)用起來。所以在手機上我們可以拍攝很高清的視頻。
另一個是抖音快手這種短視頻的平臺,它提升了普通老百姓對于審美的追求,以及對于視頻質(zhì)量的追求和視頻產(chǎn)量的要求。所以在整個過程當(dāng)中,制作這個環(huán)節(jié)越來越重要了。
我們再放大到制作這個本身過程,看一下媒體生產(chǎn)制作模式變遷的過程。
最早的時候,我們其實整個視頻制作是線性編輯的過程,也就是用對編機一邊放一邊錄,甚至最早的電影制作階段是要去剪膠片的,要把膠片去做一個正片,然后去用剪子剪開,后續(xù)用透明膠帶粘起來。然后到了八九十年代的時候,出現(xiàn)了一些專業(yè)化制作,視頻編輯可以用一些軟件去做。到中間階段我們可以把制作分成兩個模式了。第一個是現(xiàn)場制作的,然后還有一個是后期制作。
在上一階段的現(xiàn)場制作的過程中,我們一般會用這種如演播室或者是硬件導(dǎo)播臺,或者是轉(zhuǎn)播車來實時制作。到后期使用非線性編輯軟件來做。整個的生產(chǎn)制度模式是音頻、視頻和圖文,它們是分開來做的。有專門的字幕制作設(shè)備和機器來做。通過進(jìn)一步的發(fā)展,現(xiàn)在這個階段,我們增加了一些云端制作和快速制作的一些方式。比如說我們的現(xiàn)場制作,可以在直播的過程中實時的去疊加很多的東西,做很多的加工。然后在云端把硬件導(dǎo)播臺換成云導(dǎo)播臺,在云端去實時做個性化的導(dǎo)播的切換。
在后期制作這個環(huán)節(jié),我們不再只局限于用非線性編輯軟件來做。我們可以在云端使用云剪輯,然后在手機端用短視頻app制作工具進(jìn)行視頻制作。生產(chǎn)制作模式發(fā)生了很大的變化。生產(chǎn)制作模式是在原有的基礎(chǔ)上疊加了一些新的場景和模式。
整個云計算和AI的發(fā)展,實際上是補充了很多新的一些生產(chǎn)制度模式,能夠讓內(nèi)容的生產(chǎn)方式會更加的豐富。在整個過程當(dāng)中,AI在整個現(xiàn)在整個制作的模式的變遷過程中,它起到的是一個輔助的作用。我們希望未來AI能夠達(dá)到智能創(chuàng)作一些有故事的視頻的階段。
這是我們視頻云在整個智能化制作中演進(jìn)的路線。
首先,我們有智能化的這樣制作的需求。那我們第一步要做的是什么?我現(xiàn)在有很多的AI的算法的能力。那這些能力很多是可以跟制作這種行為和流程有關(guān)系的。這里有一些,比如跟視覺相關(guān)的分鏡,人物的識別,視頻的分割,包括視頻畫面的主體的識別關(guān)于聲音語音識別,語音合成,然后也有一些跟顏色相關(guān)的,比如說顏色的分析,還有調(diào)色。然后還有一些跟某些圖片內(nèi)容相關(guān)的。比方靜態(tài)、動態(tài)或智能的視頻封面。這些我們能夠想到的。在制作領(lǐng)域可能會用到的原子的AI的能力。那我們第一步是把這些原子的AI的能力API化,能夠讓它透出來,能夠讓大家看到。
第二個階段我們做了一個智能的體驗館。因為AI的原子的能力可能藏在后臺,只放出API的話,可能沒有辦法給人很直觀的體感。
所以第二個階段,我們做了一個體驗館,然后能夠讓很多客戶能夠來去嘗試,去用這樣的一些能力,看到這樣的一些效果。經(jīng)過了第二階段之后,我們發(fā)現(xiàn)就是有一些客戶會去針對其中的一些點會感興趣。因為這些AI的能力是很多的,但是針對不同的場景,可能客戶關(guān)注的點也是不一樣的。
我們抽象了幾種應(yīng)用,就是從內(nèi)容的策劃到創(chuàng)作的包裝的管理。客戶可以在體驗館上能夠提交自己的反饋。經(jīng)過這個反饋,我們就了解到了這客戶的一些需求。
然后于是我們可以做將它真正的變成云服務(wù)的過程,實際上就是第四個階段。因為把一個原子的AI的能力,API化,和我們能夠真正地提供一個云服務(wù),這中間的gap 是巨大的,所以我們做了Meta 體系的構(gòu)建,比如我們做了基礎(chǔ)元數(shù)據(jù),提供了一些標(biāo)簽庫,人物庫、鏡頭庫,并且從工程上去做了很多數(shù)據(jù)的服務(wù)體系,還有日志和監(jiān)控的體系。把這一套都做完,才能算是我們做了一個可提供給客戶的服務(wù)。
到了第五個階段,我們發(fā)現(xiàn)只把這些服務(wù)能夠很健壯的穩(wěn)定的提供出去是遠(yuǎn)遠(yuǎn)不夠的。客戶可能需要的,不是說人臉識別的結(jié)果,而是需要解決實際場景中的問題。這里我們就需要就進(jìn)入到下一個階段,我們只提供元子的服務(wù)是不夠的,我們必須要把這些AI 的服務(wù)跟我提供的場景去結(jié)合起來,能夠為生產(chǎn)制作本身發(fā)揮作用。那在這里我們就抽象了一些場景,比方說像圖文合成視頻,像模板工廠的,按模板化的來生產(chǎn)視頻,比如說像直播剪輯,比如像智能字幕,像智能配音等等。那這樣的場景才是客戶最終需要的。所以在第五個階段,我們把整個制作和AI 去做了結(jié)合,提供了一波場景化的這個制作服務(wù)。
在整個過程中,我們會依賴像媒資系統(tǒng),剪輯系統(tǒng)和版權(quán)系統(tǒng),然后會做這樣的任務(wù)的調(diào)度和策略的解析,然后把不同場景里的服務(wù)去使用不同的策略去實現(xiàn)。所以可以看到我們整個視頻云在智能化的制作的過程不是一個憑空想象的過程。AI 的能力,是需要跟場景結(jié)合起來,才能真正的為客戶提供服務(wù)的。
02
? ? ? ? ? 云端一體的架構(gòu)設(shè)計
TITTLES
在講架構(gòu)設(shè)計之前,我想先給大家分享一下我們之前所分析的一些媒體市場制作的核心組成和核心痛點。實際上我們知道,在媒體生產(chǎn)與制作的過程中,我們可以將整個的制作過程抽象成四個階段:創(chuàng)意、素材、剪輯與包裝,以及渲染與合成。
第一個階段是創(chuàng)意的過程,也是目前我認(rèn)為耗時最久的過程。首先,創(chuàng)意的門檻比較高,然后很燒腦。比如說做我家小孩某次出游的視頻,這樣的我自己想做這樣一個視頻,我要想,我要怎么去做,做出來應(yīng)該有一個什么樣的樣子。所以創(chuàng)意的過程是非常燒腦的。然后在創(chuàng)意的過程當(dāng)中,我是需要去收集或者是去編排很多素材。那這個素材的收集和挑選就成了一個老大難的問題。那如果說我是在做一個需要多人協(xié)同來去完成的一項工作的時候,我會發(fā)現(xiàn)我的共享也很困難。并且當(dāng)我拍下來的原始的素材,可能它的體積會很大,尤其是這些素材需要在多人之間流轉(zhuǎn)的時候。文件大小也是很突出的問題。
到了第三個階段是素材我已經(jīng)大概找好了。但是最終,是需要能夠把它通過剪輯或者包裝的這樣的手段,能夠最終能夠?qū)崿F(xiàn)我想要的一個效果。那這個時候我就發(fā)現(xiàn)工具非常復(fù)雜,用起來非常復(fù)雜。
比如說我周五的時候做了一個大概4分鐘的視頻吧。從創(chuàng)意過程大概花了我4個小時,然后收集素材又花了兩個小時。最后我的在整個剪輯和包裝的過程又花了我好幾個小時。所以我從周五從中午就開始琢磨這事兒,最終那個視頻是在周六的凌晨兩點才出來的。
所以工具的復(fù)雜,素材巨大傳輸?shù)牟槐?#xff0c;還有包括協(xié)作的不便。這樣的場景可能適用于非個人制作,需要多人去協(xié)同完成。
所以我們設(shè)計了一套這樣的架構(gòu)。
我們這套架構(gòu)的核心的點是包括了云的部分和端的部分,并且整個的架構(gòu)它不是通常那sars工具這樣的架構(gòu)。它是一個云+端,可分可合的開放架構(gòu)。
首先,中間這個部分是生產(chǎn)工具的部分,這個部分也是大家最容易想到的,因為我們在進(jìn)入云剪輯之前,我們都是在用一些客戶端的工具來做。
在整個過程中,我們的工具會抽象成三個組件。其中最核心的是這個故事版的組件,也就是時間線。其中還有兩個子組件,一個是播放器,因為要去在播放器上去預(yù)覽剪輯過程的效果,并且還有一些效果編輯的一些組件。這些組件會完成針對視頻音頻包括貼圖,包括字幕的一些各種效果編輯。
最核心的是我的預(yù)覽的渲染引擎。這個其實組成了生產(chǎn)工具的一個端側(cè)的組件。在這個端的話,實際上我們最開始只做了外部端和移動端。而且最開始的時候,外部端和移動端它的時間線是沒有統(tǒng)一的。在這個過程當(dāng)中,最終是這樣一個架構(gòu)。開始可能這個架構(gòu)比較簡單,我們只考慮了外部端,沒有考慮某外部端跟外部端的協(xié)同。現(xiàn)在我們是一個多端統(tǒng)一的架構(gòu)。
在整個在右側(cè),是我們的一個生產(chǎn)制度的服務(wù)端,相當(dāng)于我們把整個云服務(wù)的體系劃分成了三個組件。其中最核心的是時間線的處理中心。也就是當(dāng)我拿到了一個時間軸,這個時間軸上有很多的軌道素材及效果。我需要對這個時間線進(jìn)行處理。因為有可能我拿到了一個時間線,是一個我的客戶直接通過 API 請求提交過來的時間線,那么這個時間線的參數(shù)可能會有很多的問題。
如果我簡單粗暴的把它拒絕掉的話,那么整個體驗是比較差的。所以我們在服務(wù)端做了很多的容錯校驗和補全,以及預(yù)測的機制,能夠讓這個時間線呈現(xiàn)給客戶所預(yù)期需要的狀態(tài)。最終通過模板工廠降低整個門檻。渲染合成是最終的硬實力。我們支持多層的視頻,然后多軌的混音,并且支持智能的引擎去調(diào)度到不同的底層,有特效引擎去用來做視頻的渲染。
可以看到 API 的左側(cè)、API 的右側(cè)的部分(上圖中),分別是端和云的部分。整個的設(shè)計是這兩部分可以獨立來使用的。比方說我可以只使用外部 sdk 的部分,我也可以只使用云端的部分,或者直接不使用外部 sdk,直接通過請求來去調(diào)用。
當(dāng)然也可以在一個 SaaS 化的工具上,把這兩個部分去融合。這個是我們一個云端可分可合的架構(gòu)設(shè)計,它的設(shè)計初衷是,不是一個純 PaaS 或者是一個純 SaaS ,或者是一個只是端和云的結(jié)構(gòu),它是一體化并且可以拆開的一個結(jié)構(gòu)。在這個結(jié)構(gòu)的上面,是我們基于結(jié)構(gòu)包裝出來的一些服務(wù)和頁面。這部分是可以由阿里云來做,也可以由我們的客戶來做。最終上面的是我們的一些場景。我們可以把這些技術(shù)抽象成一些場景,能夠在這些場景上用到我們這些技術(shù)。
最左邊的這一塊實際上是我們后來加上的,在開始我們做第一版的時候,是沒有 AI 部分的。把 AI 的這個部分加上來,是為了能夠智能的對時間線做一個編排。對時間線的編排,我們把它抽象成了三個場景。
第一個場景是創(chuàng)作類的場景。第二個是增強類的場景。第三個是替換類的場景。在這三個場景當(dāng)中,我們可以對素材去進(jìn)行分析,拿到一個初步的時間線,并且將這個時間線跟人工的時間線再去做一個結(jié)合。生產(chǎn)一個最終的時間線。
所以可以看到在整個智能制作中最核心的關(guān)鍵點是關(guān)于時間線的設(shè)計。因為時間線它描述了多個軌道,然后多個素材按照一個創(chuàng)意,去編排、做多種效果融合的這樣的一個產(chǎn)物。
所以后面我們要講的是一個我們對時間線的設(shè)計。
對于時間線,現(xiàn)在業(yè)界是沒有一個標(biāo)準(zhǔn)的。不管是專業(yè)的還是云端的,實際上都是沒有標(biāo)準(zhǔn)的。
我們來看一下專業(yè)的非編,像 3A(Apple/Avid/Adobe),每一家都有自己定義的時間線結(jié)構(gòu)。這些專業(yè)非編它的設(shè)計都是多個軌道的設(shè)計。首先它們肯定是音軌,視軌。
視軌是有多個軌道,并且它的素材和效果的設(shè)計都是各不相同的。當(dāng)然也有傳統(tǒng)EDL的這種設(shè)計。這種設(shè)計的話相對來講是比較簡單的,它只有單軌,只定義的素材,但是它沒有定義效果。因為效果在不同廠家之間的描述是不一樣的。我們基于這樣一個現(xiàn)狀,我們做了云加端可以復(fù)用的設(shè)計。我們是在時間線的核心四個要素,就是軌道、素材、效果和舞臺中間進(jìn)行一個取舍和平衡。
首先來講特效這個東西是比較復(fù)雜的。在一些專業(yè)的設(shè)計當(dāng)中,特效軌道是獨立出現(xiàn)的,很有可能是獨立出現(xiàn)的。在我們這個設(shè)計當(dāng)中,特效軌道不強求獨立出現(xiàn),它可以作為視頻素材的一個屬性來出現(xiàn)。這樣是為了降低云端用戶和互聯(lián)網(wǎng)用戶的使用復(fù)雜度。
同時我們會保留軌道素材的設(shè)計,然后軌道素材所指向的原始視頻僅僅是一個引用的關(guān)系。這樣的話是為了增加應(yīng)用性。否則的話整個時間線的設(shè)計會非常的臃腫。
另外,我們?yōu)榱丝紤]后面的可擴展性,我們對整個時間線做了一個多軌的設(shè)計。因為最開始,很多智能制作在設(shè)計的過程中,都是單軌。但我們做第一版設(shè)計的時候,就考慮了一個多軌。因為多軌的設(shè)計可以保證之后程序迭代的過程中,不會因為打地基打的不好,而在原有基礎(chǔ)上做顛覆性的改造。
所以我們在開始就把這個軌道按照素材類型去做了一個多軌的設(shè)計。最后,我們對于輸出的畫布,也就是輸出的舞臺的設(shè)計,是一個自動化、個性化和自定義結(jié)合的設(shè)計。既可以在不設(shè)置布局舞臺的時候,能夠根據(jù)原始素材的分辨率做自動的輸出,也可以通過指定布局的方式做自定義的布局。
因為云端的設(shè)計需要考慮很多,要考慮很多不同的場景需求。可能絕大部分場景是 4:3、16:9 或者 9:16 或者 3:4 這樣的需求。還有一些特殊的場景,它的分辨率可能是需要自定義的。所以我們整個的設(shè)計實際上是在軌道效果舞臺和素材中間去進(jìn)行了一個取舍和平衡。
(圖中)左邊的 timeline 的四個要素,是我們整個設(shè)計的核心元素,也就是時間線抽象成四層,每一層都是逐層遞進(jìn)的。可能一個 timeline 有多個軌道,每個軌道有多個素材,每個素材有多種效果。效果可以由人編排,也可以由機器編排。最后輸出到舞臺也好,畫布也好。
這是視頻最終輸出的一個形態(tài),這四個要素是時間線設(shè)計的核心。
時間線整體是比較復(fù)雜的。如果我自己要組織一個時間線的數(shù)據(jù)結(jié)構(gòu)的話,我的工作量會非常大,使用起來也會非常痛苦。我們?yōu)榱私档瓦@個就是說時間線使用的門檻,并且同時還保證專業(yè)性,我們就做了一個模板工程的設(shè)計。
在模板工廠的這個設(shè)計當(dāng)中,我們會抽象出一些模板來。
這些模板是相當(dāng)于把時間線的完整的部分或者是時間線的一小部分去進(jìn)行抽象,然后用參數(shù)的方式去指定。比方說我現(xiàn)在有一個模板,它就是做多個素材的拼接。那如果我用原來的模式的話,我可能要傳一堆的拼接的視頻的參數(shù)。那我如果做成了一個模板的話,可能它只需要傳入視頻的ID就可以了。那在整個模板的設(shè)計過程中,它也支持嵌套或者組合。
比方說我們做的比較炫酷的一個視頻,可能會包括素材的編排,可能會包括效果的切換。可能會包括疊一些動圖或者是加一些字幕。那我們可以對這個模板去做嵌套和組合式的設(shè)計。這樣的話最大的復(fù)用模板的一個成果。那這個模板工廠它核心解決的問題就是我們在使用時間線的門檻。更重要的是我覺得它還解決了一個創(chuàng)意的門檻。比如我作為一個非專業(yè)人士,我拿到一堆素材,我想要做一個視頻,我可能會無從下手。但如果提供給我一些模板,按照模板來制作的話,可能就會啟發(fā)我的思路。我還可以對模板進(jìn)行修改再加入我自己的一些創(chuàng)意元素的話就更加完美了。所以前面一個設(shè)計是時間線,它實際上是做了在整個制作領(lǐng)域的專業(yè)度的保證。那模板工廠的話實際上是真正在包裝和使用上,能夠在保證專業(yè)性的同時,能夠降低門檻,能夠把整個制作普惠給每一個想要制作視頻的民眾去用的設(shè)計。所以這兩個就是我們認(rèn)為在整個制作過程中最核心的兩類。
因為前面的架構(gòu)比較干澀,是一個純技術(shù)架構(gòu)。那最終數(shù)據(jù)是怎么流轉(zhuǎn),怎么能從最原始的素材到最后合成出我想要的視頻呢?
它的流程是這樣的。我的左邊是素材,我的素材和我想要制作的視頻是一脈相承的。原始素材是有很多的類型的,可能會有音視圖文,有一些副文本,甚至?xí)衕tml 代碼片段。這些都是我的素材庫。
到了中間的過程,是最核心的智能生產(chǎn)制作鏈路。首先我的素材會經(jīng)過一系列的AI處理,拿到結(jié)構(gòu)化的信息。
在拿到結(jié)構(gòu)化的信息之前,會先對素材進(jìn)行處理。比方說會先去分析這個音視頻的流信息,包括一些尺寸信息格式信息,這些信息會輔助中間智能生產(chǎn)過程中的輸入。之后拿到這個預(yù)處理的信息之后,會對整個智能化的這個過程去做一個分析。這里的分析是多維度的。輸出的可能是視覺層面上跟時間軸相關(guān)的,或者是跟時間區(qū)間相關(guān)的,也有可能是語音方面的,還有可能是一些顏色的配比,還是實時過程中摳像出來的像素集。然后拿到這些經(jīng)過處理的數(shù)據(jù)之后,我就可以去跟工具結(jié)合制作了。
當(dāng)然這些工具并不是每種工具都會用到每種能力。但是這些能力都可以作為這些工具的輸入。工具的也是有多種的。包括移動端及web端、通過模板化批量化來生產(chǎn)的,以及通過AI的方式來輔助的。最終我們會有一系列生產(chǎn)效果。
圖中智能生產(chǎn)制作右邊這一部分,就是在制作過程中最常用的效果的抽象概念。
比方說我們會用到多層的圖像的疊加,這個圖像可能是視頻,有可能是圖片,會用到多軌的混音調(diào)音,用到圖文在同一個軌道上的混編,會把素材的效果去做一個濾鏡或者轉(zhuǎn)場,會對一些直播流做前景人物或者主體的實時的摳像,也可以做智能的字幕。還可以做智能的集錦。也就說通過對視頻的分析去提取出這個視頻的精彩片段做一個集錦。
當(dāng)然還有一些綜合的制作過程,就是需要人工和智能去結(jié)合,來完成整個制作過程。
最終輸出的話,實際上我們也把它抽象成三類。
第一類是用于分發(fā)播放的成片。成片我們可以把它總結(jié)為創(chuàng)作類,集錦就是創(chuàng)作類。
第二類是增強類:視頻本來沒有字幕,通過語音識別加上字幕,這是屬于增強類的。
第三類是替換類:主播直播時的背景不太美觀,把背景替換成較吸引人的背景。
這個是輸出成片的3種類型,當(dāng)然還可以輸出的是素材,輸出的是素材時候,輸出的內(nèi)容是可以用于二次制作的。
這些素材其實是有的時候是比成片更為寶貴的。因為它是可以反復(fù)利用的。我們這套系統(tǒng)也能夠輸出素材。
最后我們在技術(shù)上并不是跟專業(yè)非編對立的,我們和專業(yè)非編是技術(shù)上合作的關(guān)系。
我們的模式相當(dāng)于是互聯(lián)網(wǎng)方式的新媒體剪輯。我們需要專業(yè)場合的時候,可以在云端做一個粗剪,然后在線下去做一個精編。這樣可以把時間線去做一個交換,能夠把整體的效果達(dá)到最優(yōu)。
所以說我們在整個媒體內(nèi)容消費過程中,得到一些反饋的體驗,又會回饋到AI的體系。在數(shù)據(jù)上成一個閉環(huán)。推動這些算法繼續(xù)迭代。同時的話我們生產(chǎn)的內(nèi)容也會回到媒資庫。回到媒資庫之后,這些內(nèi)容同時也會作為下一次視頻制作的一個輸入。大家可以看到阿里云在整個智能媒體生產(chǎn)制作中,設(shè)計的中心理念,是以生產(chǎn)制作為核心、AI 輔助。
03
? ? ? ? ? 生產(chǎn)制作為核心、AI 輔助
TITTLES
阿里云在整個制作的過程中是以生產(chǎn)制度為核心的AI只是輔助。但是我們?yōu)槭裁催€需要AI呢?就是為什么還那么重視AI呢?
當(dāng)最開始我們最原始的階段是所有的東西都是由人來去編輯的,時間線的編排也是明確的,完全由人來主導(dǎo)。但是有一些場景是人比較費時間來主導(dǎo)或者不那么容易主導(dǎo)的。
舉個例子,比方說幼兒園監(jiān)控視頻。家長說我特別想看到我們家小孩在幼兒園的表現(xiàn),那從監(jiān)控視頻一幀一幀找自己小孩是非常費勁的。海量的視頻要去處理的時候,會發(fā)現(xiàn)通過人已經(jīng)沒有辦法去處理識別了,所以產(chǎn)量會很低。
當(dāng)我們從人工編排方式要進(jìn)化到大規(guī)模化的制作方式時,以及需要大幅度的提升自我效率的時候,我們勢必要通過云計算和 AI 相結(jié)合的方式來做這件事情。
在整個過程當(dāng)中,我們是要使用 AI 的能力。我覺得這個也是AI最大的魅力和價值,就是它能跟云計算很好的結(jié)合,能夠為規(guī)模化制作以及海量素材分析提供幫助,提升媒體制作的一個效率。
接下來我會從三個實際的例子,來跟大家分享一下 AI 技術(shù)跟生產(chǎn)制作流程的一個融合。
這是一個我們一個在云上轉(zhuǎn)播的一個例子。在這個例子當(dāng)中,我們可以看到傳統(tǒng)的轉(zhuǎn)播可能在現(xiàn)場有很多機位,有很多鏡頭,拍下來很多的視頻素材。
但是我們在電視上看到的就是那幾個頻道,可能很多的視頻素材被浪費掉了。我們在電視臺看到的,是現(xiàn)場導(dǎo)播給我們生成的這樣的畫面。但實際上還有非常多的視頻素材沒有利用上。
因此,我們做了一個云上轉(zhuǎn)播的一個架構(gòu)。技術(shù)邏輯是這樣的,我們首先還是會把視頻的直播流,通過直播中心保存下來。然后我們用云端的導(dǎo)播創(chuàng)建多個導(dǎo)播的實例,在每一個實例可以使用不同的視角去做我想要的導(dǎo)播的場景。
云轉(zhuǎn)播因為可以在互聯(lián)網(wǎng)上分發(fā),所以它對于原始直播流和素材的利用率是非常高的。我們也可以把這個視頻收下來,進(jìn)入這個直播的錄制的過程。對這個實時的直播流用AI進(jìn)行快速的處理。
在冬奧會轉(zhuǎn)播之前,青奧會的演練有一個例子。我們當(dāng)時是做了三種體育賽事的演練。針對這三個賽事,我們對運動員的運動軌跡進(jìn)行跟蹤,做云端的分析。然后把每一個運動員每一段運動當(dāng)中精彩鏡頭通過AI處理的方式,利用云端剪輯的方式快速的生成素材,并且把素材又轉(zhuǎn)推成視頻流,再回轉(zhuǎn)到云導(dǎo)播的輸入,這相當(dāng)于是對單邊的直播流的收入。
另一方面是我通過實時技術(shù)去自動生成了這種回放集錦。并且在鏡頭之間還可以加一些效果。那這個時候其實如果不考慮完全實時性跟硬件導(dǎo)播臺的差別的話,其實整個生產(chǎn)制作的模式已經(jīng)跟傳統(tǒng)的模式非常接近了。
我們的魅力就在于說,我們可以把非常多的直播流的利用起來。尤其是在一些賽事上,有些國家的運動員可能并不是前三名,可能這個播放鏡頭沒有給到他們太多。但是這個國家的民眾會非常關(guān)心自己國家的運動員。那這個時候我們可以通過這樣的技術(shù)去讓每一家機構(gòu)都是一個導(dǎo)演,然后都能夠去做整個轉(zhuǎn)播過程,從直播流中導(dǎo)播自己想導(dǎo)播的畫面。所以云直播的流程是把AI的能力和實時制作及離線或后期制作進(jìn)行連接,同時能夠大規(guī)模的利用上我們的系統(tǒng),并且能夠讓所有的直播流都能發(fā)揮它的價值。
這是我們在云直播技術(shù)上的一個應(yīng)用。
這個例子其實也是使用率比較高的。我們在做一個片子的時候,我不可能每一個節(jié)目都是用完全不一樣的創(chuàng)意。當(dāng)我需要想復(fù)制我的創(chuàng)意的時候,但是我又需要我復(fù)制的不那么生硬的時候,我可能會非常需要這種場景。就是一個成片的模板化的制作,就是我的素材庫可能是很多的。
前面也有講到我們的素材庫,可能是這個直播流,也有可能是這個離線的視頻文件,還有可能是一些純音頻,可能是人聲,可能是背景音樂,然后有可能是一些字。那這些字幕可能是外掛字幕,也有可能是一些橫幅文字。然后還有可能是一些各種各樣的圖片動圖靜圖,包括一些文本信息。比如說我一些某些場景關(guān)注的一些詞庫的信息,還有一些副文本。比如我的素材就是一篇文章,或者甚至是一個代碼段,或者是我代碼當(dāng)中的canvas的一個結(jié)構(gòu)體。那這些其實都是我們用于制作的一個素材。那除了這些素材之外,我們怎么才能把節(jié)目制作出來呢?
我們可能還需要一個模板庫。那這個模板庫是一個模板的概念,就是我們可以在這個模板庫利用設(shè)計師的素材,設(shè)計師可能會設(shè)計出一堆的模板,但是我們其實并不想說我們需要用AI的方式去對整個的模板化的制作去進(jìn)行一個進(jìn)階。而進(jìn)階在哪里呢?就是我們可能并不是想說我原封不動地套用這些模板,而不做一點變化。
比方說我現(xiàn)在設(shè)計師設(shè)計了一個泡泡彈來彈去的這樣背景,需要跟我的前景圖片合成的場景。那這個泡泡設(shè)計的時候,設(shè)計師只會選擇一些配色和一些運動軌跡的變化。
但是我實際在真的去做合成的時候,如果我每一張圖片都用這個背景去合成,可能會使這個背景跟我的圖片不協(xié)調(diào)。
那我怎么才能去用AI的手段去做這樣一個改進(jìn)呢?
我們可能會去分析這個圖片的色彩,并且去分析整個圖片的調(diào)性和這個模板的運動軌跡的變化。那我們通過這樣的分析的話,會把當(dāng)前的素材它所依賴的特征跟這個模板的參數(shù)進(jìn)行解析的分割。然后能夠把整個參數(shù)級的變化跟我素材的特征去進(jìn)行結(jié)合。那這樣的話,我就可以把這個所謂的基礎(chǔ)的模板裂變成了很多個性化的模板。這個性化的模板實際上是針對每個不同的素材都可以有自己的個性化的模板的。那我通過這個性化的模板,來結(jié)合素材集,上邊的左邊是說我的完整的素材集,但是可能我的素材集是一個海量的。那我到底要用什么樣的素材來做我的這個視頻呢?這里肯定會有挑選的過程。
挑選其實是包括兩部分,一部分是搜索,一部分是截取我所想要視頻的一部分內(nèi)容。搜索的過程實際上是AI能夠深度參與的過程。可能會根據(jù)我的場景去做不同AI的搜索上的分析。可能是基于內(nèi)容、關(guān)鍵詞,甚至是基于知識圖譜的分析。然后搜索之后我到底是截取這個視頻中的哪一段,實際上是跟我的主題和視頻內(nèi)容密切相關(guān)的。如果我是做人物相關(guān)的視頻,那我可能獲取的素材是跟人物相關(guān)的這樣的片段。如果我想要的動作類的,比如說像賽事類的,我做一個集錦。我可能需要關(guān)注的片段是跟運動畫面,或者是跟鏡頭相關(guān)的東西。
那我們通過兩個部分的結(jié)合,就是從海量的素材庫去搜索到我這一次制作需要的這個素材集,并且用AI的方式去把模板能夠裂變成個性化的模板之后我們在把這個模板和素材集進(jìn)行結(jié)合。這個就是我們的原材料。然后最終我們通過結(jié)合去構(gòu)建時間線。
因為時間線是最終合成的依據(jù)。那整個時間線通過合成和渲染就能夠渲染出視頻或者一些泛媒體的影響。這就是成片模板化制作的例子。它的核心實際上就是說我的每一個部分都是可以用AI的方式去取代的。這個AI的方式,它不僅僅只能用于去初步地篩選素材。它還可以深度的參與到整個的制作過程當(dāng)中。
第三個就是剛才前面說到的,我們有時候并不是只是為了制作成片。而我的目標(biāo)是制作一些素材。這些素材本身又是可以被反復(fù)使用。因為制作素材和制作成片有很大的不同。
就拿制作成片來說,我會用到非常多各種各樣的效果,來保證我成片在視覺上的沖擊力。但是我做素材的時候,我可能盡量的保證一個 clean 的結(jié)果。我可能并不希望加過多的效果的修飾。我的核心在于這個視頻當(dāng)中的哪些素材、哪些片段是能被重復(fù)使用的。
并且,我可能會根據(jù)我重復(fù)使用的一些原則和基準(zhǔn)來去做我的挑選策略。我的素材源還是兩類,大概分成兩類,直播流和視頻。然后經(jīng)過視頻智能生產(chǎn)的一個預(yù)處理,可以看到這個關(guān)注點跟原來成片制作是完全不同的。
我原來成片制作可能會關(guān)注各種效果,各種編排,各種多軌的一個疊加。但是我在做素材的時候,我關(guān)注的是這個視頻本身鏡頭,這是一個重要的因素,我需要對鏡頭去進(jìn)行非常嚴(yán)格的分析。這個鏡頭語言最核心的兩個要素,就是景別和拍攝方式。
景別分成遠(yuǎn)景、全景、中景、近景和特寫。每一種類型的鏡頭它的用法也是不一樣的。我可能會通過AI的分析去識別出這個鏡頭的級別,并且把這個鏡頭的級別會對畫面進(jìn)行一個標(biāo)注。
這個標(biāo)注不光是標(biāo)注在時間軸上,還要標(biāo)注在視頻畫面上。另外一個非常重要的維度就是拍攝方式。
因為我們在做不同類型視頻的時候,可能關(guān)注的拍攝方式不一樣。如果我們在做一個故事類節(jié)目的時候,我會非常關(guān)注拍攝方式,就是鏡頭移動順序不能錯亂。把人的關(guān)注點按照順序的方式去銜接起來,而不是整個畫面去滿世界的跳。所以我們需要去研究拍攝方式,就是用固定和運動的拍攝方式去分析鏡頭語言。然后能夠把不同片段的拍攝方式能夠提取出來。但是在有些場景,我們恰恰需要把這些拍攝方式去進(jìn)行一個綜合。
比如我們在做一個非常炫酷的音樂或者跳舞節(jié)目的集錦的時候,我就要故意制造這種錯亂的拍攝視角,從而產(chǎn)生一個炫酷的效果。
所以我們需要根據(jù)場景結(jié)合來分析鏡頭語言,把這個鏡頭能夠識別好。然后根據(jù)不同的景別和拍攝方式把把標(biāo)簽打好,這樣的話才能夠為后面再次的節(jié)目制作和視頻制作做準(zhǔn)備。
同時,我們?nèi)匀恍枰粋€基礎(chǔ)的庫。比方我們需要數(shù)據(jù)庫,需要鏡頭的標(biāo)簽庫,還有鏡頭本身的視頻庫。以及因為人物創(chuàng)作是整個節(jié)目制作的非常關(guān)鍵的點。
所以我們還會構(gòu)建一個人物庫。基于這些基礎(chǔ)庫的構(gòu)建和生產(chǎn)預(yù)處理,以及鏡頭的分析。我們就能做素材智能時間線的一個處理。然后我們經(jīng)過素材的分析之后,我們會拿到素材的級別結(jié)果,拿到拍攝方式的結(jié)果,拿到內(nèi)容特征提取的分析的結(jié)果。拿到這個東西之后,我們可以開始構(gòu)建時間線。
在時間線的構(gòu)建當(dāng)中,因為我們可能在在中間這個階段拿到的結(jié)果是非常零碎的。在這個零碎結(jié)果中,最終到底哪些畫面才是我們能夠復(fù)用的素材呢?那這個時候?qū)嶋H上是需要結(jié)合場景去定義一些詞庫,或者一些特征庫的。
基于這些特征庫,我們才能夠生成需要的素材時間線的結(jié)構(gòu)。這個素材時間線的結(jié)構(gòu)拿到之后就可以去做素材真正的拆分了。有可能我們從新聞聯(lián)播的一期完整節(jié)目,能夠拿到一些有價值的片段。這些片段在傳統(tǒng)行業(yè)被叫做所謂的通稿,或者是 clean 素材的概念。這個過程實際上就是我們整個智能制作相比于生產(chǎn)素材的一個不同。
總結(jié)一下視頻云做智能媒體生產(chǎn)的技術(shù)層次。在我們的技術(shù)層次的設(shè)計當(dāng)中右邊最下面是最核心的云制作能力。這個云制作的能力,它實際上是一個硬通貨和核心能力。比如說像剪切拼接多軌疊加多軌混音,圖文混編多幀率,然后多碼率的自適應(yīng)融合,還有字幕、還有包括動圖的能力,包括效果、渲染、濾鏡、轉(zhuǎn)場等等,這些都屬于云制作的部分。這些也是整個智能制作的最核心的部分。如果沒有這些東西的話,那你不管是AI也好,包裝也好,其實都是沒有根基的。
那在制作能力上面我們設(shè)計的是包裝能力,包裝能力實際上它看的點是規(guī)模化。就是我通過包裝,我可以把東西提煉出來,抽象出來,而不是每一次都從零開始制作。這個是我們包裝能力的第一個要點。
第二個點是說我包裝能力的話,是可以去用AI的方式多樣化的。會有一些模板,通過包裝,我可以把一個原始的素材裂變成多種多樣的效果的視頻。這個也是可以通過包裝能力來實現(xiàn)的。還有就是組件化,當(dāng)我把包裝能力能夠做成工具或者做成SDK的話,這個實際上就是組件化的一個能力。這也是能夠我們能夠快速地批量化生成視頻的效果。這相當(dāng)于制作專注在核心,包裝是專注在應(yīng)用。
那左邊這部分可以看到AI的一個部分。AI在我們整個的體系當(dāng)中,它是用于做智能化和規(guī)模化的抓手。就是它會深入地融合在云制作和云包裝的能力的每一個模塊當(dāng)中。
最上面這一層,是我們整個技術(shù)體系的生態(tài)部分。我們要做多端的融合,并且要搞定最后一公里的這個問題。所以在過程中,我們會把這些能力有很好的出口去做生態(tài)。然后我們對智能化的演進(jìn)路徑也有一些展望。
在這個過程當(dāng)中,我們把這些能力有很好的一個出口做一個生態(tài)。然后我們對這個智能化的研究路徑也有一些展望。
最開始我們批量化做視頻,可能會用模板化的生產(chǎn),或者用AI輔助制作和基于簡單規(guī)則的就是內(nèi)容生成。
這些是前三點,是我們已經(jīng)做到的。第四點是還我們還沒有做到的。是基于場景理解模板的推薦。現(xiàn)在的模板還是人去挑的。以及基于視頻畫面分析的 AI 的濾鏡,現(xiàn)在無論是模板還是濾鏡,其實都是由我們自己來指定的。
我們希望有一天能夠用 AI 來做到這些事情。我的一個終極設(shè)想,希望未來 AI 能夠真正獨立去做創(chuàng)作,去生成有故事的視頻。
以上我們在智能制作這個體系里對未來的一個看法。
我們認(rèn)為未來在制作這個體系,它一定是兩個方面都并重的。
首先是我們會越來越專業(yè)。從我們對于視頻的需求來看到,最開始互聯(lián)網(wǎng)上做視頻是一個單軌制作,現(xiàn)在可能也是多軌、多種效果,多個素材,多種類型的一個制作。
整個的視頻制作的鏈路會越來越專業(yè)。但是在專業(yè)的同時,我們覺得整個視頻制作的參與者是越來越多了,這是一個普惠的過程,專業(yè)和普惠是一對看上去沖突,但又不矛盾的點。
通過我們的核心設(shè)計,以及打地基過程,讓整個的行業(yè)包括AI的能力進(jìn)一步提升,使未來專業(yè)化制作成為可能。
普惠是我們通過各種各樣的工具,通過工具化的生產(chǎn),能夠降低創(chuàng)意和使用的門檻,能夠讓每一個人進(jìn)入到制作過程中去做自己想要的視頻。
這個是我們整體對這個未來的看法。那具體到點的話,我們認(rèn)為,首先第一個當(dāng)我們端跟云協(xié)同制作的時候,會有一個所見即所得,但是渲染效果不統(tǒng)一的問題。我們希望未來的話,端上的制作和云端的制作,它的效果是一致的。這是未來的一個趨勢。這里可能會用到云渲染的技術(shù)。現(xiàn)在的實時制作和后期制作相對是割裂的。我們希望未來這兩個部分是能夠完全融合的。
第三塊我們認(rèn)為隨著屏幕的增大和 5G 的到來,超高清的制作已經(jīng)已經(jīng)在一些場景去嘗試,同時專業(yè)制作也是一個方向。
最后第四個一個普惠的過程,后面的進(jìn)化過程可能是全民創(chuàng)作。視頻的制作技術(shù)已經(jīng)不再是所謂的高端的技術(shù),而是一個普惠全民的技術(shù)。能夠讓每一個人都能制作自己想要的視頻。最后,我和很多專業(yè)制作領(lǐng)域的同行聊,他們也是希望 AI 能夠真正的進(jìn)化為能夠創(chuàng)作有故事的視頻這樣一個階段。
灣區(qū)最原汁原味的技術(shù),全球最前沿的應(yīng)用實踐
無需漂洋過海,我們在線上等您!
LiveVideoStackCon 2020?美國站
2020年12月11日-12月13日
點擊【閱讀原文】了解更多詳細(xì)信息
總結(jié)
以上是生活随笔為你收集整理的“云端一体”的智能媒体生产制作演讲之路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Netflix测试有线电视频道、字节11
- 下一篇: 实时音视频助力在线教育风口