即时通讯音视频开发(五):认识主流视频编码技术H.264
前言
即時通訊應用中的實時音視頻技術,幾乎是IM開發中的最后一道高墻。原因在于:實時音視頻技術 = 音視頻處理技術 + 網絡傳輸技術 的橫向技術應用集合體,而公共互聯網不是為了實時通信設計的。
系列文章
- 《即時通訊音視頻開發(三):視頻編解碼之編碼基礎》
- 《即時通訊音視頻開發(四):視頻編解碼之預測技術介紹》
H.264簡介
什么是H.264?H.264是一種高性能的視頻編解碼技術。目前國際上制定視頻編解碼技術的組織有兩個,一個是“國際電聯”,它制定的標準有H.261、H.263、H.263+等,另一個是“國際標準化組織(ISO)”它制定的標準有MPEG-1、MPEG-2、MPEG-4等。而H.264則是由兩個組織聯合組建的聯合視頻組(JVT)共同制定的新數字視頻編碼標準,所以它既是ITU-T的H.264,又是ISO/IEC的MPEG-4高級視頻編碼,而且它將成為MPEG-4標準的第10部分。因此,不論是MPEG-4 AVC、MPEG-4 Part 10,還是ISO/IEC 14496-10,都是指H.264。
互聯網巨頭們對待H.264的態度
因為蘋果公司當初毅然決然拋棄了Adobe的VP6編碼,選擇了H.264,這個標準也就隨著數億臺iPad和iPhone走入了千家萬戶,成為了目前視頻編碼領域的絕對霸主,占有超過80%的份額。
隨著互聯網視頻服務的快速崛起,各類智能電子設備都陸續支持視頻網絡下載及播放。H.264標準一直是網絡視頻的主要壓縮技術之一,且在又有逐步取代Flash視頻格式的發展趨勢。其主要支持者,是微軟的IE瀏覽器和蘋果公司的系列產品,前者保證了H.264在桌面設備市場的優勢,后者保證了H.264在便攜設備市場的優勢。
然而,由于谷歌公司決定在其新一代瀏覽器Chrome中支持新的視頻編解碼技術WebM、而不支持H.264,使得H.264在網絡視頻市場的前景受到很大的挑戰。
H.264算法的優勢
H.264是在MPEG-4技術的基礎之上建立起來的,其編解碼流程主要包括5個部分:幀間和幀內預測、變換和反變換、量化和反量化、環路濾波、熵編碼。
H.264/MPEG-4 AVC(H.264)是1995年自MPEG-2視頻壓縮標準發布以后的最新、最有前途的視頻壓縮標準。H.264是由ITU-T和ISO/IEC的聯合開發組共同開發的最新國際視頻編碼標準。通過該標準,在同等圖象質量下的壓縮效率比以前的標準提高了2倍以上,因此,H.264被普遍認為是最有影響力的行業標準。
H.264的優勢
H.264在1997年ITU的視頻編碼專家組提出時被稱為H.26L,在ITU與ISO合作研究后被稱為MPEG4 Part10或H.264(JVT)。H.264標準的主要目標是:與其它現有的視頻編碼標準相比,在相同的帶寬下提供更加優秀的圖象質量。
而,H.264與以前的國際標準如H.263和MPEG-4相比,最大的優勢體現在以下四個方面:
?
- 將每個視頻幀分離成由像素組成的塊,因此視頻幀的編碼處理的過程可以達到塊的級別。
- 采用空間冗余的方法,對視頻幀的一些原始塊進行空間預測、轉換、優化和熵編碼(可變長編碼)。
- 對連續幀的不同塊采用臨時存放的方法,這樣,只需對連續幀中有改變的部分進行編碼。該算法采用運動預測和運動補償來完成。對某些特定的塊,在一個或多個已經進行了編碼的幀執行搜索來決定塊的運動向量,并由此在后面的編碼和解碼中預測主塊。
- 采用剩余空間冗余技術,對視頻幀里的殘留塊進行編碼。例如:對于源塊和相應預測塊的不同,再次采用轉換、優化和熵編碼。
具體優勢表現為:
?
- 低碼流:和MPEG2和MPEG4 ASP等壓縮技術相比,在同等圖像質量下,采用H.264技術壓縮后的數據量只有MPEG2的1/8,MPEG4的1/3。顯然,H.264壓縮技術的采用將大大節省用戶的下載時間和數據流量收費。
- 高質量的圖象:H.264能提供連續、流暢的高質量圖象(DVD質量)。
- 容錯能力強:H.264提供了解決在不穩定網絡環境下容易發生的丟包等錯誤的必要工具。
- 網絡適應性強:H.264提供了網絡適應層, 使得H.264的文件能容易地在不同網絡上傳輸(例如互聯網,CDMA,GPRS,WCDMA,CDMA2000等)。
H.264和以前的標準一樣,也是DPCM加變換編碼的混合編碼模式。但它采用“回歸基本”的簡潔設計,不用眾多的選項,獲得比H.263++好得多的壓縮性能;加強了對各種信道的適應能力,采用“網絡友好”的結構和語法,有利于對誤碼和丟包的處理;應用目標范圍較寬,以滿足不同速率、不同解析度以及不同傳輸(存儲)場合的需求。
H.264標準的關鍵技術
?
1?幀內預測編碼
幀內編碼用來縮減圖像的空間冗余。為了提高H.264幀內編碼的效率,在給定幀中充分利用相鄰宏塊的空間相關性,相鄰的宏塊通常含有相似的屬性。因此,在對一給定宏塊編碼時,首先可以根據周圍的宏塊預測(典型的是根據左上角的宏塊,因為此宏塊已經被編碼處理),然后對預測值與實際值的差值進行編碼,這樣,相對于直接對該幀編碼而言,可以大大減小碼率。
?
2幀間預測編碼
幀間預測編碼利用連續幀中的時間冗余來進行運動估計和補償。H.264的運動補償支持以往的視頻編碼標準中的大部分關鍵特性,而且靈活地添加了更多的功能,除了支持P幀、B幀外,H.264還支持一種新的流間傳送幀——SP幀,如圖3所示。碼流中包含SP幀后,能在有類似內容但有不同碼率的碼流之間快速切換,同時支持隨機接入和快速回放模式。
?
3整數變換
在變換方面,H.264使用了基于4×4像素塊的類似于DCT的變換,但使用的是以整數為基礎的空間變換,不存在反變換,因為取舍而存在誤差的問題,變換矩陣如圖5所示。與浮點運算相比,整數DCT變換會引起一些額外的誤差,但因為DCT變換后的量化也存在量化誤差,與之相比,整數DCT變換引起的量化誤差影響并不大。此外,整數DCT變換還具有減少運算量和復雜度,有利于向定點DSP移植的優點。
?
4量化
H.264中可選32種不同的量化步長,這與H.263中有31個量化步長很相似,但是在H.264中,步長是以12.5%的復合率遞進的,而不是一個固定常數。
在H.264中,變換系數的讀出方式也有兩種:之字形(Zigzag)掃描和雙掃描,如圖6所示。大多數情況下使用簡單的之字形掃描;雙掃描僅用于使用較小量化級的塊內,有助于提高編碼效率。
?
5熵編碼
視頻編碼處理的最后一步就是熵編碼,在H.264中采用了兩種不同的熵編碼方法:通用可變長編碼(UVLC)和基于文本的自適應二進制算術編碼(CABAC)。
在H.263等標準中,根據要編碼的數據類型如變換系數、運動矢量等,采用不同的VLC碼表。H.264中的UVLC碼表提供了一個簡單的方法,不管符號表述什么類型的數據,都使用統一變字長編碼表。其優點是簡單;缺點是單一的碼表是從概率統計分布模型得出的,沒有考慮編碼符號間的相關性,在中高碼率時效果不是很好。
因此,H.264中還提供了可選的CABAC方法。算術編碼使編碼和解碼兩邊都能使用所有句法元素(變換系數、運動矢量)的概率模型。為了提高算術編碼的效率,通過內容建模的過程,使基本概率模型能適應隨視頻幀而改變的統計特性。內容建模提供了編碼符號的條件概率估計,利用合適的內容模型,存在于符號間的相關性可以通過選擇目前要編碼符號鄰近的已編碼符號的相應概率模型來去除,不同的句法元素通常保持不同的模型。
H.264在實時視頻聊天中的應用
目前,H.264已被廣泛應用于實時視頻應用中,相比以往的方案使得在同等速率下,H.264能夠比H.263減小50%的碼率。也就是說,用戶即使是只利用 384kbit/s的帶寬,就可以享受H.263下高達 768kbit/s的高質量視頻服務。H.264 不但有助于節省龐大開支,還可以提高資源的使用效率,同時令達到商業質量的實時視頻服務擁有更多的潛在客戶。
網易云信,你身邊的即時通訊和音視頻技術專家,了解我們,請戳網易云信官網
想要行業洞察和技術干貨,請關注網易云信博客
本文轉載自52im,作者:JackJiang
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的即时通讯音视频开发(五):认识主流视频编码技术H.264的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 即时通讯音视频开发(三):视频编解码之编
- 下一篇: 即时通讯音视频开发(六):如何开始音频编