美摄 - 助力打造完善的音视频解决方案
生活随笔
收集整理的這篇文章主要介紹了
美摄 - 助力打造完善的音视频解决方案
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
隨著短視頻成為人們競相追逐的新風口,移動端音視頻處理需求與日俱增。如何低成本、高效率地處理音視頻,并且最大程度的適應移動互聯網的不同應用需求成為至關重要的問題。本次分享以美攝SDK的音視頻處理框架為依據,介紹在移動端高效處理音視頻的解決方案,以及人工智能在音視頻處理方面的應用。
文 /? 劉路偉整理 / LiveVideoStack大家好,我是來自美攝科技公司的劉路偉,這次與大家分享的主題是美攝SDK如何幫助客戶打造完善的音視頻解決方案。我會分為兩個部分來講解,一個就是美攝能夠做到什么事情;二是從技術層面如何實現這些事情。首先來介紹一下我們公司,美攝原先是新奧特集團的一個子公司,是從新奧特集團中分劃出來的,核心團隊來自新奧特集團的一個項目的技術團隊,擁有比較先進的廣電研發經驗,也取得過一些成就。美攝SDK成立的時間不長,從2016年到現在三年多的時間,但是服務了很多頭部的客戶,并且為客戶進行定制化的解決方案。1. 美攝SDK產品及服務方案1.1 產品介紹美攝SDK主要功能有圖中所列的這些,但也不僅限于這幾點。美攝SDK最基礎的功能就是視頻的拍攝&編輯,在拍攝時從采集端加入濾鏡、特效、貼紙等效果。粒子特效能在直播的時候模仿下雪、火山噴發等效果。AI智能視頻處理模塊是今年重點研發的一個功能,它根據用戶提供的一些視頻素材,識別視頻素材中比較有意義的視頻片段,然后通過模仿剪輯師的手法生成一個視頻,比如抖音、火山等。除此之外,在用戶的vlog中可能有旅行中比較精彩的片段,它可以自己去識別出來這些片段,并且組成一個成片。VR視頻編輯模塊是針對于某些有特定需求的客戶,比如家居類、游戲類,他們可能需要一個360°的視頻展示,VR視頻編輯模塊就可以支持他們進行這樣的操作。特效的定制設計包括很多,比如字幕、貼紙,主題等特效,它允許用戶自己去定制化設計,只要用戶滿足一定的規則,就能提供定制化的工具。1.2 服務案例介紹接下來簡單分享兩個我們今年服務的客戶,每個客戶都會有自己獨特的要求。首先是小米手機,他們需要圖片混編的視頻,構成回憶相冊。還有跟音樂節奏相關的一個卡點的主題,能夠去識別音樂當中特殊的點,然后對視頻進行處理。還有一些客戶像vivo他們可能會有一些推鏡的特效,比如鏡頭的拉遠、拉近。Boomerang特效也是一個比較新潮的玩法,還有漫畫特效可以把視頻中的每一幀變成漫畫的形式。1.3 方案應用領域美攝SDK雖然推出不到三年時間,但服務了較多的頭部客戶,并得到了一些好評。由于AI和5G是今年比較熱門的話題,所以各家都在想如何把產品與AI和5G的相關技術去做一個融合。今年我們就嘗試了在完全脫離人工操作下,通過一定的算法,把用戶的素材導入進來,對視頻進行剪輯。對于普通用戶來說,將所拍攝的部分旅游視頻或者家居的視頻達到跟剪輯師制作出來的視頻效果相同,這會是一個比較新穎的玩法。2. 技術介紹2.1.1 流媒體SDK的基本結構
下面從宏觀架構的層面,來給大家分享一下美攝SDK的一些技術。美攝SDK技術分為兩種,一種是流媒體SDK,它支持用戶對音視頻的所有操作的一個包裝化處理,用戶無論是從采集、編輯到視頻輸出、音頻輸出,都可以用美攝流處理SDK來處理。流處理SDK的架構是先有一個單例的流媒體的上下文,所有的函數的發起點都是由流媒體上下文發起的。這里介紹一下時間線,首先時間線在整個視頻的編輯、采集和生成階段貫穿始終的,相當于整個媒體的生成跟時間線有一個關聯性,在時間線上,可以添加想要的所有素材、基本的視頻和音頻。其次在一個時間線上,可以添加多個視頻和音頻,就有了視頻軌道和音頻軌道的概念,每一個視頻資源和音頻資源只是其中的一個的片段。在時間線上加多個的視頻軌道和音頻軌道以達到混音效果,還可以做到畫中畫等玩法。在每個視頻軌道上可添加多段的視頻和音頻,每個視頻片段中可以添加各種轉場,以達到比較炫酷的效果。字幕、動畫貼紙是一個資源包的概念,我們可以將其添加到我們想要添加的地方,以達到一個不錯的效果。2.1.2 流媒體SDK的基本結構關于流媒體處理的基本結構,開始由數據源進來,數據源會是一個視頻的片段或一個音頻的片段,并且它們的格式會有很多種。接下來就從宏觀的角度來講,每一部分需要面臨的問題。首先需要建立一個時間線,在其上面加視頻軌道或音頻軌道,調用對應的函數。在視頻軌道上面,可以加轉場、字幕、動畫貼紙等。主題是整個資源包的組合,是一個集合的概念,主題中加片頭、片尾能夠達到較好的包裝效果,其內部會有音樂、轉場,主題內部包括字幕、動畫、貼紙等濾鏡的效果。建立好時間線和軌道,可以在其中添加所需要的視頻資源和音頻資源,并截取想要的部分,最終生成一個文件,這些都是SDK所支持的。2.2 流媒體引擎的組件架構關于流媒體引擎的組件架構這部分內容從視頻源開始,會遇到解碼、空間轉換、加速等問題,如何夠達到實時渲染,這也是要面臨的問題。然后將處理的視頻幀發送到視頻輸出端,音頻幀發送到音頻輸出端,就可以實時地在界面上預覽。預覽的同時,可以把生成的文件寫入到對應的視頻文件中,最終獲得一個包裝過的視頻文件。2.2.1 視頻源組件這里涉及視頻片段和視頻軌,需要多線程的實時處理。在預覽視頻的過程中,會遇到卡頓的問題,解決這樣的問題,就需要引入Video Reader的預加載,可以在當前seek的位置往前預加載幾幀,就能實現實時流暢地觀看視頻。然后解碼出來的視頻幀反饋到下一個單元做處理。2.2.2 音頻源組件同樣的音頻也是如此,相應的涉及音頻軌和音頻片段。除此之外,解碼出來的每個音頻文件,可能有多個音頻流,要分別讀出來每一個音頻流并作一個混音,達到最終音頻的輸出。2.2.3 視頻處理組件
關于處理流媒體引擎組件的節點,它的內部有一個對應的拓撲結構,轉場、主題等資源在拓撲結構中有對應的source node。在處理推進的過程中會遇到不同的資源節點,要進行相應的處理,一步一步完成后就會生成最終的結果,然后輸出到最終渲染的單元,達到渲染的目的。2.3 可配置的模塊化結構
美攝SDK可以對于不同的客戶進行不同的定制化的處理,是因為SDK的這些功能是松耦合的,可以對不同的客戶的需求做定制化的包裝,只保留需要的功能,達到滿足不同用戶需求的目的。這部分就涉及到了SDK的一些功能,比如最基本的圖片編輯、視頻編輯等。這里說一下人臉檢測,它通過人臉檢測去適配不同的人臉貼紙,這在直播中運用較多。2.4 特效的可擴展性特效的可擴展性體現在以下幾點:首先,特效包括字幕、貼紙等,美攝SDK可以支持客戶定制化開發。其次,LUT濾鏡是一種設計上色彩映射的一種濾鏡,比如可以把一個人暗淡的皮膚通過濾鏡變成比較飽和的效果。然后,customVideoFX是我們引入的一個概念,它可以支持用戶自己包裝濾鏡,不僅限于用戶自己制作資源包,用戶可以通過代碼的形式把所制作的資源加載進來。最后,storyboard特技是一種復合型特技,比如它可以將分割效果、扭曲效果、調色效果等制作到一個storyboard特效當中,安裝并應用這個特技就能得到多個效果組合的效果。2.5 資源包的可創作性這里主要介紹資源包從完成到安裝都經過了哪些步驟。我們所有的資源都是以包裹的形式存在的,它們會有不同的后綴名,用戶拿到資源后進行安裝,然后就變成了ABK特定的素材。在加載的過程當中要校驗素材是否滿足SDK的功能,再解析這個資源,分析它的內部語義,這就建好了拓撲結構。按照拓撲結構,引擎內部就去渲染加載,最終就達到了一個不錯的效果。2.6 Effectsdk前面介紹美攝SDK主要包括兩個,一個是流媒體SDK,主要介紹它具體是怎么實現的以及它的架構。另一個是Effectsdk,它們的區別在于,Steamsdk是一站式處理,就是用戶從采集或導入素材開始到資源的輸出,完全都是由Steamsdk去處理的。Effectsdk用于客戶需求只是在某些特定的幀或者特定片段上,才運用其內部的特技和特效。根據客戶的需求,我們就研制出了Effectsdk,它實際上相當于渲染的一個中間介,支持紋理入紋理出的方式,用戶采集或者通過解碼得到的紋理輸入到Effectsdk當中,然后就能套用剛剛提到所有的資源,生成一個比較好的效果,再以文立形式輸出,最后用戶就可以在任何場合去運用。同樣的,Effectsdk的架構,也需要有Effectsdk單例的上下文,創建一個特輯,在內部按需加上剛才提到的特效,最終就會渲染出來對應的視頻幀和視頻紋理,讓用戶去做二次的開發。3. 全新玩法前面大概介紹一下美攝的整個SDK架構,接下來與大家分享我們最新研發出的一些新的玩法。3.1 人臉貼紙
首先是人臉貼紙,我們今年推出的人臉貼紙與其他家的區別,也就是創新在于我們支持物理引擎的概念,就是用戶在做一定的人物動作的過程中,人臉貼紙可以滿足物理的規律,達到對應的效果,就如視頻中所展示的一樣。上述視頻當中,我們的同事在做一些面部的晃動,視頻中所呈現出的狐貍耳朵,實際上跟人物晃動的幅度而產生對應的擺動。這是我們最新研制的一個特效,還有可以根據人物眨眼、挑眉等動作進行對應變動,這在今年將會逐步完善起來。3.2 Vlog復合字幕
Vlog復合字幕是我們今年新推出的,相比于傳統的字幕中每一個字都是一致的,沒有辦法在字幕的每一個字當中去做一定的效果來說,vlog復合字幕就達到了這樣的目的,就能得到電影級的包裝的效果。相對于傳統的字幕,vlog復合字幕加入字幕的運動,以及字幕不同的渲染的效果。它多用于客戶在這種旅行中的使用,或者電影中的應用,這四張圖就是美攝科技復合字幕可以達到不同的字幕效果。3.3 AI智能剪輯
最后為大家介紹AI智能剪輯,首先篩選用戶的素材,刪除質量不達標的視頻素材,經過初篩之后,將已經選好的視頻進行識別,識別出想要的視頻素材對應的片段,然后根據不同剪輯師的手法對這些視頻進行不同的拆分、組合、調換位置等,這個過程中就會運用到流媒體SDK中一些基礎的編輯功能最終得到一個整合的片子。
文 /? 劉路偉整理 / LiveVideoStack大家好,我是來自美攝科技公司的劉路偉,這次與大家分享的主題是美攝SDK如何幫助客戶打造完善的音視頻解決方案。我會分為兩個部分來講解,一個就是美攝能夠做到什么事情;二是從技術層面如何實現這些事情。首先來介紹一下我們公司,美攝原先是新奧特集團的一個子公司,是從新奧特集團中分劃出來的,核心團隊來自新奧特集團的一個項目的技術團隊,擁有比較先進的廣電研發經驗,也取得過一些成就。美攝SDK成立的時間不長,從2016年到現在三年多的時間,但是服務了很多頭部的客戶,并且為客戶進行定制化的解決方案。1. 美攝SDK產品及服務方案1.1 產品介紹美攝SDK主要功能有圖中所列的這些,但也不僅限于這幾點。美攝SDK最基礎的功能就是視頻的拍攝&編輯,在拍攝時從采集端加入濾鏡、特效、貼紙等效果。粒子特效能在直播的時候模仿下雪、火山噴發等效果。AI智能視頻處理模塊是今年重點研發的一個功能,它根據用戶提供的一些視頻素材,識別視頻素材中比較有意義的視頻片段,然后通過模仿剪輯師的手法生成一個視頻,比如抖音、火山等。除此之外,在用戶的vlog中可能有旅行中比較精彩的片段,它可以自己去識別出來這些片段,并且組成一個成片。VR視頻編輯模塊是針對于某些有特定需求的客戶,比如家居類、游戲類,他們可能需要一個360°的視頻展示,VR視頻編輯模塊就可以支持他們進行這樣的操作。特效的定制設計包括很多,比如字幕、貼紙,主題等特效,它允許用戶自己去定制化設計,只要用戶滿足一定的規則,就能提供定制化的工具。1.2 服務案例介紹接下來簡單分享兩個我們今年服務的客戶,每個客戶都會有自己獨特的要求。首先是小米手機,他們需要圖片混編的視頻,構成回憶相冊。還有跟音樂節奏相關的一個卡點的主題,能夠去識別音樂當中特殊的點,然后對視頻進行處理。還有一些客戶像vivo他們可能會有一些推鏡的特效,比如鏡頭的拉遠、拉近。Boomerang特效也是一個比較新潮的玩法,還有漫畫特效可以把視頻中的每一幀變成漫畫的形式。1.3 方案應用領域美攝SDK雖然推出不到三年時間,但服務了較多的頭部客戶,并得到了一些好評。由于AI和5G是今年比較熱門的話題,所以各家都在想如何把產品與AI和5G的相關技術去做一個融合。今年我們就嘗試了在完全脫離人工操作下,通過一定的算法,把用戶的素材導入進來,對視頻進行剪輯。對于普通用戶來說,將所拍攝的部分旅游視頻或者家居的視頻達到跟剪輯師制作出來的視頻效果相同,這會是一個比較新穎的玩法。2. 技術介紹2.1.1 流媒體SDK的基本結構
下面從宏觀架構的層面,來給大家分享一下美攝SDK的一些技術。美攝SDK技術分為兩種,一種是流媒體SDK,它支持用戶對音視頻的所有操作的一個包裝化處理,用戶無論是從采集、編輯到視頻輸出、音頻輸出,都可以用美攝流處理SDK來處理。流處理SDK的架構是先有一個單例的流媒體的上下文,所有的函數的發起點都是由流媒體上下文發起的。這里介紹一下時間線,首先時間線在整個視頻的編輯、采集和生成階段貫穿始終的,相當于整個媒體的生成跟時間線有一個關聯性,在時間線上,可以添加想要的所有素材、基本的視頻和音頻。其次在一個時間線上,可以添加多個視頻和音頻,就有了視頻軌道和音頻軌道的概念,每一個視頻資源和音頻資源只是其中的一個的片段。在時間線上加多個的視頻軌道和音頻軌道以達到混音效果,還可以做到畫中畫等玩法。在每個視頻軌道上可添加多段的視頻和音頻,每個視頻片段中可以添加各種轉場,以達到比較炫酷的效果。字幕、動畫貼紙是一個資源包的概念,我們可以將其添加到我們想要添加的地方,以達到一個不錯的效果。2.1.2 流媒體SDK的基本結構關于流媒體處理的基本結構,開始由數據源進來,數據源會是一個視頻的片段或一個音頻的片段,并且它們的格式會有很多種。接下來就從宏觀的角度來講,每一部分需要面臨的問題。首先需要建立一個時間線,在其上面加視頻軌道或音頻軌道,調用對應的函數。在視頻軌道上面,可以加轉場、字幕、動畫貼紙等。主題是整個資源包的組合,是一個集合的概念,主題中加片頭、片尾能夠達到較好的包裝效果,其內部會有音樂、轉場,主題內部包括字幕、動畫、貼紙等濾鏡的效果。建立好時間線和軌道,可以在其中添加所需要的視頻資源和音頻資源,并截取想要的部分,最終生成一個文件,這些都是SDK所支持的。2.2 流媒體引擎的組件架構關于流媒體引擎的組件架構這部分內容從視頻源開始,會遇到解碼、空間轉換、加速等問題,如何夠達到實時渲染,這也是要面臨的問題。然后將處理的視頻幀發送到視頻輸出端,音頻幀發送到音頻輸出端,就可以實時地在界面上預覽。預覽的同時,可以把生成的文件寫入到對應的視頻文件中,最終獲得一個包裝過的視頻文件。2.2.1 視頻源組件這里涉及視頻片段和視頻軌,需要多線程的實時處理。在預覽視頻的過程中,會遇到卡頓的問題,解決這樣的問題,就需要引入Video Reader的預加載,可以在當前seek的位置往前預加載幾幀,就能實現實時流暢地觀看視頻。然后解碼出來的視頻幀反饋到下一個單元做處理。2.2.2 音頻源組件同樣的音頻也是如此,相應的涉及音頻軌和音頻片段。除此之外,解碼出來的每個音頻文件,可能有多個音頻流,要分別讀出來每一個音頻流并作一個混音,達到最終音頻的輸出。2.2.3 視頻處理組件
關于處理流媒體引擎組件的節點,它的內部有一個對應的拓撲結構,轉場、主題等資源在拓撲結構中有對應的source node。在處理推進的過程中會遇到不同的資源節點,要進行相應的處理,一步一步完成后就會生成最終的結果,然后輸出到最終渲染的單元,達到渲染的目的。2.3 可配置的模塊化結構
美攝SDK可以對于不同的客戶進行不同的定制化的處理,是因為SDK的這些功能是松耦合的,可以對不同的客戶的需求做定制化的包裝,只保留需要的功能,達到滿足不同用戶需求的目的。這部分就涉及到了SDK的一些功能,比如最基本的圖片編輯、視頻編輯等。這里說一下人臉檢測,它通過人臉檢測去適配不同的人臉貼紙,這在直播中運用較多。2.4 特效的可擴展性特效的可擴展性體現在以下幾點:首先,特效包括字幕、貼紙等,美攝SDK可以支持客戶定制化開發。其次,LUT濾鏡是一種設計上色彩映射的一種濾鏡,比如可以把一個人暗淡的皮膚通過濾鏡變成比較飽和的效果。然后,customVideoFX是我們引入的一個概念,它可以支持用戶自己包裝濾鏡,不僅限于用戶自己制作資源包,用戶可以通過代碼的形式把所制作的資源加載進來。最后,storyboard特技是一種復合型特技,比如它可以將分割效果、扭曲效果、調色效果等制作到一個storyboard特效當中,安裝并應用這個特技就能得到多個效果組合的效果。2.5 資源包的可創作性這里主要介紹資源包從完成到安裝都經過了哪些步驟。我們所有的資源都是以包裹的形式存在的,它們會有不同的后綴名,用戶拿到資源后進行安裝,然后就變成了ABK特定的素材。在加載的過程當中要校驗素材是否滿足SDK的功能,再解析這個資源,分析它的內部語義,這就建好了拓撲結構。按照拓撲結構,引擎內部就去渲染加載,最終就達到了一個不錯的效果。2.6 Effectsdk前面介紹美攝SDK主要包括兩個,一個是流媒體SDK,主要介紹它具體是怎么實現的以及它的架構。另一個是Effectsdk,它們的區別在于,Steamsdk是一站式處理,就是用戶從采集或導入素材開始到資源的輸出,完全都是由Steamsdk去處理的。Effectsdk用于客戶需求只是在某些特定的幀或者特定片段上,才運用其內部的特技和特效。根據客戶的需求,我們就研制出了Effectsdk,它實際上相當于渲染的一個中間介,支持紋理入紋理出的方式,用戶采集或者通過解碼得到的紋理輸入到Effectsdk當中,然后就能套用剛剛提到所有的資源,生成一個比較好的效果,再以文立形式輸出,最后用戶就可以在任何場合去運用。同樣的,Effectsdk的架構,也需要有Effectsdk單例的上下文,創建一個特輯,在內部按需加上剛才提到的特效,最終就會渲染出來對應的視頻幀和視頻紋理,讓用戶去做二次的開發。3. 全新玩法前面大概介紹一下美攝的整個SDK架構,接下來與大家分享我們最新研發出的一些新的玩法。3.1 人臉貼紙
首先是人臉貼紙,我們今年推出的人臉貼紙與其他家的區別,也就是創新在于我們支持物理引擎的概念,就是用戶在做一定的人物動作的過程中,人臉貼紙可以滿足物理的規律,達到對應的效果,就如視頻中所展示的一樣。上述視頻當中,我們的同事在做一些面部的晃動,視頻中所呈現出的狐貍耳朵,實際上跟人物晃動的幅度而產生對應的擺動。這是我們最新研制的一個特效,還有可以根據人物眨眼、挑眉等動作進行對應變動,這在今年將會逐步完善起來。3.2 Vlog復合字幕
Vlog復合字幕是我們今年新推出的,相比于傳統的字幕中每一個字都是一致的,沒有辦法在字幕的每一個字當中去做一定的效果來說,vlog復合字幕就達到了這樣的目的,就能得到電影級的包裝的效果。相對于傳統的字幕,vlog復合字幕加入字幕的運動,以及字幕不同的渲染的效果。它多用于客戶在這種旅行中的使用,或者電影中的應用,這四張圖就是美攝科技復合字幕可以達到不同的字幕效果。3.3 AI智能剪輯
最后為大家介紹AI智能剪輯,首先篩選用戶的素材,刪除質量不達標的視頻素材,經過初篩之后,將已經選好的視頻進行識別,識別出想要的視頻素材對應的片段,然后根據不同剪輯師的手法對這些視頻進行不同的拆分、組合、調換位置等,這個過程中就會運用到流媒體SDK中一些基礎的編輯功能最終得到一個整合的片子。
LiveVideoStack?秋季招聘
LiveVideoStack正在招募編輯/記者/運營,與全球頂尖多媒體技術專家和LiveVideoStack年輕的伙伴一起,推動多媒體技術生態發展。同時,也歡迎你利用業余時間、遠程參與內容生產。了解崗位信息請在BOSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。
總結
以上是生活随笔為你收集整理的美摄 - 助力打造完善的音视频解决方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 视频加速方案的最优解 - Xilinx硬
- 下一篇: LiveVideoStack线上分享第四