七牛云徐晶:低延迟互动时代看好WebRTC和SRT
在 LiveVideoStackCon 2018 前夕,七牛云教育行業解決方案高級專家徐晶接受了 LiveVideoStack 的采訪,聊到了流媒體的技術發展與技術棧迭代。在當今的低延遲的互動時代,WebRTC、SRT 等技術得到了快速發展。
文 / 徐晶
策劃 / LiveVideoStack
LiveVideoStack:徐晶你好,能否向 LiveVideoStack 的讀者介紹下自己,及目前的主要工作和關注的技術方向?
徐晶:我在互聯網視音頻行業 9 年工作經驗,3 年傳統廣電視音頻經驗。曾任阿里巴巴大文娛流媒體業務負責人,優酷直播品牌創始人,現為七牛云智慧教育行業產品負責人。
我常年從事互聯網流媒體相關工作,接觸最底層的協議,從最早的流媒體協議 mms 到標準 RTMP/HLS 協議,再到目前流行的低延時音視頻 WebRTC 協議,都在這些協議上構建業務模型,驅動業務,形成業務閉環。
2010 始,創建優酷直播品牌,構建 B 端的高清業務模型,打通傳統媒體的音視頻與互聯網音視頻的技術壁壘,形成業內首個 to B 互聯網商業直播平臺,建立互聯網的 HD-SDI 全高清標準,同步推出優化的 RTMP 協議。2014 年完成營收 1.2 億人民幣。后續又將電商屬性和媒體屬性相結合,孵化了淘寶直播產品,在電商直播領域形成行業領先。
在阿里巴巴 8 年后,加入七牛云團隊,開始探索整個市場的直播 3.0 時代,即擁有互動能力的實時直播體系。在資本市場大量投向在線教育產業之際,開始推進在線教育的云計算解決方案。深入研究谷歌的 WebRTC 協議,利用該低延時的音視頻傳送建立教育行業的技術模型,目前已完成教育音視頻通訊、教育白板、音視頻加解密、海外傳輸優化、教育存儲和大數據分析等云計算產品的嘗試。后續將會深耕在線教育和互聯網的行業解決方案,拓展和創建新的音視頻教育模型。
LiveVideoStack:回顧過去,你認為互聯網流媒體技術經歷了哪些階段?
徐晶:我認為互聯網的視音頻發展大致分為 3 個階段:
1.0 時代:典型標志是標清傳送。這是互聯網音視頻的最初階段,通常沒有較好的畫質及用戶體驗,存在流媒體不穩定情況,但可以將傳統音視頻搬到互聯網上來生根發芽。
2.0 時代:典型標志是在線觀看。這個屬性定義主要是單向的用戶收看體驗,在這個階段,開始有高清畫質提供,開始注重用戶體驗和簡單互動,如打賞、點贊。
3.0 時代:即當前狀態,典型標志為實時互動。越來越多的互聯網音視頻用戶不僅需要高清觀看,還需要強互動,從而交流話題形成社區。
在每個時代,都有特定的技術支撐體系。
1.0 時代:我利用微軟的整套解決方案做技術核心建立平臺,并不斷調整優化。比如在 mms 時代由于不采用數字化的音視頻采集,很容易出現聲畫不同步問題,技術上沒有很好的時間戳解決方案,我們會對 mms 協議進行必要的改進,對編碼前的時間算法進行了二次開發,讓模擬信號在采集的同時可以進行一定時延調整;利用 Windows Media Encoder 的內核,擴大 buffer 空間,形成業內第一個可調整同步的編解碼方案。
2.0 時代:蘋果的 HLS 與 Adobe 的 RTMP 開始深入互聯網的時代,高清開始發展。我當時負責技術上突破高清采集的限制,由于采集原始的音視頻信號存在數據吞吐量大的問題,我們建立了嵌入式硬件的解決方案,與美國的一家公司合作建立互聯網 Full HD 無損采集標準,建立 CCU 信號的初始編碼規范,從而形成行業內第一個全高清商業直播平臺,為各大品牌客戶提供直播流媒體服務。包括奧迪、寶馬發布會;戛納電影節;蘋果新品發布會、蘋果 WWDC 開發者大會;世界互聯網大會、央視春晚、天貓雙十一晚會等。
2.0 時代還孵化了電商直播「淘寶直播」。突破橫豎屏限制,推出服務端優化和合流能力。其中最大的挑戰就是在流媒體中增加互動交易能力,我們建立云端導播(即當前的云導播能力)嵌入包裝系統,建立實時音視頻字幕系統增加業務端配套能力。與淘寶、天貓構建 PUGC 的移動直播工具,讓直播的門檻足夠降低,努力達到“天下沒有難做的生意”目標。
3.0 時代開始,低延時需求越來越成為開發者用戶的關注點。WebRTC 技術慢慢提上日程,WebRTC 原來不規范的信令標準在近期開始建立行業標準,阿里、騰訊、七牛云等紛紛開始拓展云計算帶來的價值。而在互動領域,教育是最大的應用市場之一,其 2017 年體量約為 1800 億人民幣,但排名前十的營收僅為 41 億人民幣,空缺很大,這也意味著低延時流媒體的需求有相當大的空間。教育最難的突破點為行業性較深,有很多流媒體以外的需求痛點,如白板能力和 IM 能力,需要很好的集成,這是難點也是挑戰。
LiveVideoStack:展望整個多媒體通訊領域,你認為哪些(開源)技術棧將會快速發展?
徐晶:在互聯網多媒體通訊領域,我認為現在的時代是互動時代,是低延時時代,因此首當其沖的技術就是 WebRTC。其實從谷歌 WebRTC 開源到現在已經有不少年頭,但是期間遇到了很多瓶頸和規范問題,比如原來的信令系統沒有定義和規范,早期的 WebRTC 處在 peer to peer 模式,沒有很好的音視頻網絡抖動保障和群組碼率保障的機制,導致在群組多媒體通訊時往往因為一方的網絡抖動導致整個通話的傳輸質量下降。當然,2017 年底,WebRTC 真正地開始發展起來,一方面是市場對低延時流媒體的需求迅速擴張,直播 3.0 時代的到來和強互動需求都給了 WebRTC 技術很多的想象空間。
還有一些開源協議和技術規范發展起來,如 Haivision 的 SRT 技術開始被應用在互聯網傳送,并且在一些特殊場景下沿用嵌入式硬件解決方案,這也從另一方面為低延時提供保障。VLC 從 3.0 開始對 SRT 協議進行有效支持,同時在低延時延展編碼中采用該協議作為同步,這都會在未來 1~2 年開始逐步推向商業化。
LiveVideoStack:您參與過娛樂直播、電商直播和在線教育,這三種業務場景對技術支撐分別有哪些挑戰?
徐晶:娛樂直播中最重要的屬性是觀看,其實就是直播的 2.0 時代的產物,他的挑戰是畫質的高清和網絡傳輸的流暢,目前這部分都在被云計算的解決方案所覆蓋,形成標準組件。2018 年的挑戰是基于 4K 顯示和編碼的 OTT 延展技術和 4K+MR 的多媒體混合編解碼方案,這些是技術上的突破,目前國內部分大廠商已經在開始著手研究 4K 領域的高校傳輸問題。
電商直播中最重要的屬性在于互動和包裝,即電商直播開始在原有的音視頻基礎上需要對畫面進行增加字幕、顯示包裝等操作,同時還需要適配到各端的互動能力,因此最大的挑戰在于互動與直播流媒體之間的低延時同步問題。如一個電商直播在 20 點整的時候開始搶購,需要同步在流媒體中輸入有效的字幕,及同步所有的互動交互組件進行適配觸發某些功能的實現。我們通過給流媒體加上相對時間軸和相對互動時間打點機制來完成,這個技術行業內叫流媒體時間戳。
教育類直播是直播垂直領域的一個分支,其重點的技術突破就是足夠的低延時,能夠讓雙向的直播不會因為時延而讓雙方交流不暢。重點是 WebRTC 技術的運用與優化,難點也是 WebRTC 的優化和相關配套能力(如白板、虛擬環境)的協同。比如如何解決 Peer to Peer 的不穩定問題,如何利用 P2S 模型建立更強大的服務端能力,比如服務端的 GPU 加速合流、錄制能力,同時通過編解碼的方式優化是否可以在服務端建立二次編解碼能力做端上低碼率適配等等。
LiveVideoStack:能否介紹下七牛云在教育和實時通訊領域有哪些特色技術和產品,未來有哪些發展規劃?
徐晶:加入七牛云以來,一直致力于開拓云計算平臺的教育行業解決方案,我認為未來云計算平臺將不止于提供基礎的云計算能力,還會圍繞不同場景提供整體的行業解決方案,教育就是其中一個。教育行業的難點在于需要很多的基礎產品進行結合,同時還會有很多的流媒體意外的痛點需要大量被集成和協同。
七牛云智慧教育行業解決方案的優勢在于依托于七牛云的云計算平臺,能夠快速集成行業應用,滿足業務需求。比如在音視頻方面,目前大量的實時通訊的公司都在 WebRTC 協議上加了一層自己的私有化協議做基礎保障,這樣開放性低,兼容度不高,后續的維護成本過高。而七牛云是基于標準 WebRTC 開發,全程采用基礎協議,這樣無論在 SDK 的包體大小還是在后續的兼容度上看,會更有優勢,好比是做了一個 App store,后續的功能其實可以通過開放的生態來構筑。當然七牛云智慧教育解決方案還有不少優勢,比如精度可達全高清,不久將支持 4K 能力,再比如七牛的基于 GPU 的教育視頻合流能力以及描述性白板同步能力,未來的七牛云智慧教育行業解決方案還會拓展 AI 和大數據的分析,針對傳統教育行業的一些痛點進行深入化的單點打透。
LiveVideoStack:說說你將在 LiveVideoStackCon 2018 分享的內容吧。
徐晶:首先很榮幸可以在這樣的平臺上進行交流和分享,我擅長技術驅動,從而帶動整合產品的模型發展,因此我會在這個分享會上去分享我在七牛云建立教育行業解決方案的最初思考,以及在這個思考背后所作出的技術改進和努力,同時也會將我目前所做的產品方案以及為什么會有這樣的產品發展路徑和選擇和大家做一些互動。
總結
以上是生活随笔為你收集整理的七牛云徐晶:低延迟互动时代看好WebRTC和SRT的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 音视频技术开发周刊 64期
- 下一篇: 2023年多播ABR市场将达8亿美元