RTN实时音视频传输网络
RTN實時音視頻傳輸網絡
一、 基本概述
(一) RTN實時音視頻傳輸網絡的定義
實時音視頻傳輸網絡RTN(Real-time Network),是一個全新架構的音視頻實時傳輸網絡。
類似于直播的CDN網絡,RTN是對音視頻的實時性又強烈要求的場景而設計的,原理上全球端到端的時延通過RTN網絡可以控制在300ms以內。
(二) RTN實時音視頻傳輸網絡的架構
1. 超級節點-SNode
- 支持單服務模式,單服務模式下同時支持推流和拉流,但是系統如果有普通節點則超級節點不支持拉流,支持RTN和WebRTC。
2. 普通節點-GNode
- 只支持拉流,支持RTN和WebRTC。
3. 路由節點-RNode
- 也稱為傳輸節點,只支持流轉發,不支持推拉流,支持單點平行擴容即:當一個路由節點容量不足時,可以平行增加路由節點對此節點進行容量擴容;這里我們提到的容量一般指的是網絡帶寬。
4. 管理節點-MNode
- 管理所有服務,支持動態分配推拉流的接入節點;同時管理節點支持雙機熱備。
5. 錄像服務-VRecSvr
- 支持流錄像,將單路推流錄制成標準MP4或特定格式(需配置轉碼服務)。
6. 轉流服務-VLiveSvr
- 將RTN轉成RTMP,并推向自建或第三方CDN平臺。
7. 穿透服務-VTurnSvr
- 內外網穿透服務,支持一些特殊應用場景比如說金融,銀行等需要內外網穿透。
二、 實時音視頻技術的現狀分析
(一) 支持第三方接入
1. 直播平臺
實時音視頻技術支持阿里云,騰訊云,網宿,百度云等主流的直播平臺流對接;支持原有直播基礎上集成連麥功能。
實時音視頻技術,結合騰訊云優質的節點資源,幫助開發者搭建卡頓率更低、延時1秒以內的互動直播,讓直播走進CDN 2.0 時代,打造低延時互動直播方案。
2. AI智能
實時音視頻技術支持AI圖像后處理和視頻回源。概括來講,目前AI與實時音視頻的結合點有四個:
3. 實時翻譯
實時音視頻技術支持音頻實時翻譯SDK對接,支持音頻流不限時長地極速識別和實時翻譯,即時轉化,更快更準。
可廣泛用于會議同傳、多語種直播字幕、視頻字幕翻譯等場景,支持實時返回識別結果,達到一邊輸入音頻流,一邊獲得翻譯后的文字內容。
4. 鑒黃防恐
實時音視頻技術支持圖像識別功能接入及第三方對接,能精準識別涉黃、涉恐、涉政等有害內容,支持配置圖片黑名單,打擊自定義的違規類型。
識別結果還分為正常、可疑與違規三部分,建議放行正常的圖片,人工審查可疑的圖片,屏蔽違規的圖片,節省人力成本,提高審核效率。
(二) 實時音視頻技術優勢
1. 高效快速
端到端時延是實時音視頻的黃金指標,其最低可達50ms以內,最高不超過1s,保證視頻通話端到端時延低于300ms。
實時音視頻技術還能動態檢測各個節點直接的鏈路狀態,保持高效傳輸,實現了更低的音視頻傳輸延遲,提升辦公工作效率。
2. 動態與時延可控且線路穩
實時音視頻技術可以實時動態監控線路的狀態,異常時可及時切換;還可以根據實際情況,動態調整接收端的緩沖時間。
除此之外,采用線路實時監控,保證每路轉發的流的穩定性,在使用音視頻會議辦公時,即使在弱網環境下仍然能夠保證高質量的音視頻通信,確保視頻通話過程順暢穩定。
3. 業務拓展豐富
系統設計簡潔高效,容易業務拓展,比如與傳統CDN兼容,支持連麥等復雜業務場景。
例如可適配智能硬件車機、大屏,閃布已對接吉利招聘系統支持吉利校招,支持企業的實時音視頻會議以及私有化部署。
4. 高并發
節點支持平行擴容和樹形擴容,理論上并發沒有上限,即使面臨音視頻會議井噴式涌入、用戶使用流量暴增也能扛住壓力,避免出現卡頓、崩潰。
(三) 實時音視頻技術難點
企業在實時音視頻技術實現上通常會遇到卡頓、延時和音視頻質量差等諸多問題,而且需要耗費大量的人力、物力和資源。
技術上的難點主要有中間傳輸以及最后一公里傳輸兩大難題。
- 中間傳輸即指從路由到路由的骨干網數據傳輸過程,這里承載數據傳輸服務的主要有光纖以及同軸電纜等渠道。然而,就像城市道路一樣,一旦用戶增加、流量劇增,在這些數據傳輸渠道里同樣會發生數據擁塞的問題。因此,比較容易發生延時加劇、數據丟包等現象。
- 最后一公里傳輸主要指從Wi-Fi路由器或電信基站到用戶終端之間的最后一公里傳輸,如果用戶手機由于距離太遠或者同時連接的設備太多而造成信號質量太差的情況,實時傳輸同樣也會大受影響。
而上述問題都會造成在實時音視頻通話時延時大、卡頓、畫面模糊及聽不清楚等問題。
- 第一點是低延遲,如果要滿足流暢地進行實時互動,那么單向的端到端的遲延大概要在400ms以下才能保證溝通流暢;
- 第二點就是流暢性,在視頻過程中頻繁卡頓,很難會有良好的互動,對用戶來說使用性能大打折扣;
- 第三點是回聲消除,回聲的產生是揚聲器播放的聲音經過環境反射被麥克風重新采集并傳輸給對方,這樣對方就會一直聽到自己的回聲,整個互動過程會非常難受;
- 第四點是國內外互通,隨著現在國內同質化產品越來越多,國內的競爭也異常激烈,產品國際化趨勢愈加明顯;
- 第五點是海量并發,這不僅僅是實時音視頻的難點,基本對于任何一款互聯網產品而言都是必須要考慮的難點。
三、 如何解決和優化技術難點
(一) 多路競爭優化
-
第一,如果實時音視頻要保證低延遲,那么前端和后端的整個鏈條一定要做到極致的,比如前端的一些編碼算法、流控,甚至丟幀、追幀策略等等都要做到足夠好。
另外,不同的業務場景下,編碼器的選擇也會有所區別,從而會帶來不同的編碼延遲,因此不同的業務場景能達到的延遲程度也是不一樣的。 -
第二,就是對推拉流網絡的選擇,通常的方案是讓需要實時互動的用戶通過核心語音視頻網絡——像BGP這樣的優質節點來做語音視頻傳輸。
而對于一些特定場景來說,比如互動游戲會直播給一些圍觀用戶看,那么這里就需要做轉碼、轉協議、甚至混流,再通過內容分發網絡去分發。
下圖為三路RTC數據流采用優化后的BBR算法在300kBps的帶寬下進行競爭時的性能,圖中顯示當有新的數據流匯入時,通過較短時間的調整,每一路數據流會最終平分帶寬,也就能保證低延遲。
- 多路競爭-寬帶
- 多路競爭-RTT
(二) 音質優化
1. 舒適噪聲CNG
舒適噪音生成是VoIP技術中靜音抑制(silence suppression)或語音活動檢測(VAD)的一部分。語音活動檢測及舒適噪音生成是用來維持一個感受到的可接受的服務品質,同時盡可能降低傳輸成本和帶寬使用。
使用舒適噪聲去減小傳輸數據量,進而減小傳輸帶寬的要求,這是因為RTC通訊時大于50%的時間是沒有語音的,同時要讓人感覺語音通信是持續連接的,從而達到更好的聽覺體驗。
2. 動態音質調整
默認使用OPUS音頻編解碼器,Opus是一種混合式(hybrid)的編碼器,有Skype的SILK和Xiph.org的CELT融合而成,于2012年9月,由Internet Engineering Task Force (IETF)標準化RFC 6716。
同時Opus的音質范圍很廣,從人聲到音樂都能做到很好的效果。
- Opus碼流-質量
- Opus性能
根據當前的網絡的狀態以及聲音源狀態去動態的平衡音質與碼流直接的閾值。
動態的碼流通過X = (A + Q*0.75) - L * 0.25; 進行計算
X:實際的碼流
A:基準碼流 - 初始設定后不再更改
Q:音源質量 - 音源的質量越高對應的碼流越大
L:丟包率 – 丟包率越高碼流越低
(三) 視頻優化
1. 圖像增強
圖像的噪點和質量往往會被人們忽視,因為實際的圖像質量受到很多因素影響比如:燈光亮度,攝像頭像素,采集傳感器質量等等,這就需要視頻降噪技術對圖像進行去噪和增強即美顏技術。
2. 音視頻同步
在網絡上傳輸多媒體數據時,由于終端對數據的處理方式,以及網絡中的延時、抖動,會引起音視頻流的不同步。
由于人的視覺敏感度要低于聽覺,音視頻同步策略采用的是音頻優先,即首先保證音頻的質量,包括在傳輸算法上,音頻的通道優先級也要高于視頻。
3. 平滑處理(防抖)
由于使用音頻優先策略,容易造成視頻的卡頓現象,為保證視頻的流暢度,需要通過反饋機制動態調整視頻的幀率、碼率來保持視頻的流暢度受到較低的影響。
4. 高級編碼(H265,SVC,Simulcast)
通過高級編碼的特性,可以在相同的網絡環境下實現更優的音視頻通訊效果。
-
H265:可以提高壓縮效率、提高魯棒性和錯誤恢復能力、減少實時的時延、減少信道獲取時間和隨機接入時延、降低復雜度等;可以實現利用1~2Mbps的傳輸速度傳送1080P(分辨率1920*1080)普通高清音視頻傳送;同時支持超高清4K視頻。
-
SVC:分級編碼是一種用來兼容不同的終端設備和鏈路帶寬的技術。它的特點是對碼流分層,低層碼流可以單獨解碼,高層碼流能增強視頻的質量。
-
Simulcast:對于不支持SVC的編碼器來說,可以使用同播技術實現多級視頻傳輸,達到或接近SVC的效果。
四、 展望與總結
實時音視頻技術支持圖像分析接入,能幫助實現智能交通系統,識別運動中的車輛信息,對比傳統車輛檢測系統,處理更快。
實時音視頻系統應用處于剛起步的階段,目前主要用于會議、直播等場景。隨著5G的發展,智能設備也會擁有低延遲、高穩定性的網絡環境,一些智能穿戴的音視頻應用和車載會議應用會迎新的發展,同時提供給了大家更多的想象空間。
五、 參考文獻
——END——
總結
以上是生活随笔為你收集整理的RTN实时音视频传输网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [vue] 说说你对provide和in
- 下一篇: 开源ONE兔3.0社交社区交友婚恋视频即