音视频处理入门基础知识(一)
- mp4/mkv這些格式有什么區別,哪個畫質好?
- 視頻的碼率是怎么算的,為啥同樣是1080p視頻,有些體積大有些體積小?
- 視頻存儲的圖像信息是啥格式的,和顯示器一樣的紅綠藍嗎?
- 8bit/10bit到底指的什么,為啥說8bit顯示器還有必要看10bit視頻?
- yuv420是啥意思?
- 線條,平面以及紋理是什么意思,視頻的高頻和低頻指的是啥?
- 碼率越高畫質越好嗎?清晰度與分辨率是一回事嗎?
- 當我們在談論畫質的時候,我們到底在談論什么?
一. 視頻封裝格式(MP4/MKV…) vs 視頻編碼格式(H.264/FLAC/AAC…)
什么是影片?其實就是一張張圖片,時間間隔很小的連續展示出來。人們就覺得畫面中的人物在動,這就是影片。也就是說,電影的實質就是N多張圖片的集合。那每張圖片和幀又有什么關系呢?
事實上,如果一部影片里面的圖片,我們原封不動的全部存起來,空間會很大很大很大。但是,如果通過一定的算法,把每一張圖片編碼一下變成幀,再把幀連起來變成流,再把不同的流放到某個容器里面,這就是我們平常看見的電影文件了。
MP4和MKV是你下載的視頻文件最常見的種類。這些文件其實類似一個包裹,它的后綴則是包裹的包裝方式。這些包裹里面,包含了視頻(只有圖像)、音頻(只有聲音)、字幕等。當播放器在播放的時候,首先對這個包裹進行拆包(專業術語叫demux), 把其中的視頻、音頻等拿出來,再進行解碼播放。
既然它們只是一個包裹,就意味著這個后綴不能保證里面的東西是啥,也不能保證到底有多少東西。包裹里面的每一件物品,我們稱之為 軌道(track),一般有這么些:
- 視頻(Video): 一般來說肯定都有,但是也有例外,比如mka格式的外掛音軌,其實就是沒視頻的mkv。注意我們說到視頻的時候,是不包括聲音的。
- 音頻(audio):一般來說也肯定有,但是有些情況是靜音的,就沒必要帶了。
- 章節(Chapter): 藍光原盤中自帶的分段信息。如果文件帶上了,那么你可以在播放器中看到帶章節的效果:potplayer右鍵畫面,選項-播放-在進度條上顯示書簽/章節標記;mpc-hc 右鍵畫面,選項-調節-在進度條顯示章節標記。
- 字幕(Subtitles):有些時候文件自帶字幕,并且字幕并非是直接整合于視頻的硬字幕,那么就是一起被打包在封裝容器中。
其他可能還有附件等,不一一列舉。每個類型也不一定只有一條軌道,比如經常見到帶多音軌的MKV。
每個軌道,都有自己的格式。比如大家常說的,視頻是H.264,音頻是AAC,這些就是每個軌道的格式。視頻的格式,常見的有H.264(可以細分為8bit/10bit),H.265(當前也有8bit/10bit之分),RealVideo(常見于早期rm/rmvb),VC-1(微軟主導的,常見于wmv)。基本上,H.264=AVC=AVC1, H.265=HEVC。音頻的格式,常見的有 FLAC/ALAC/TrueHD/DTS-HD MA這四種無損,和AAC/MP3/AC3/DTS(Core)這四種有損。
MKV vs MP4,主要的區別在于:
mkv與mp4的區別在于:
除此之外,這兩個格式很大程度上可以互相代替。比如,它們都支持封裝AVC和HEVC,包括8bit/10bit的精度。所以MP4畫質不如MKV好,這種論斷是非常無知的——它們完全可以封裝一樣的視頻呀。
為什么會有這樣的分歧,就是歷史原因了。MKV是民間研發,為了代替古老的AVI,從而更好地支持H264,它開發和修改的靈活度使得它可以兼容flac/ass這類非工業標準的格式;而MP4則是出生豪門,作為工業標準,替代更古老的MPG,作為新一代視頻/音頻封裝服務的。
二. 視頻的基礎參數:分辨率,幀率和碼率
視頻是由連續的圖像構成的。每一張圖像,我們稱為一幀(frame)。圖像則是由像素(pixel)構成的。一張圖像有多少像素,稱為這個圖像的分辨率。比如說1920×1080的圖像,說明它是由橫縱1920×1080個像素點構成。視頻的分辨率就是每一幀圖像的分辨率。
一個視頻,每一秒由多少圖像構成,稱為這個視頻的幀率(frame-rate)。常見的幀率有24000/1001=23.976, 30000/1001=29.970, 60000/1001=59.940, 25.000, 50.000等等。這個數字是一秒鐘內閃過圖像的數量。比如23.976,就是1001秒內,有24000張圖像。視頻的幀率是可以是恒定的(cfr, Const Frame-Rate),也可以是變化的(vfr, Variable Frame-Rate)。
碼率的定義是視頻文件體積除以時間,單位一般是Kbps(Kbit/s)或者Mbps(Mbit/s)。注意,1B(Byte)=8b(bit)。所以一個24分鐘,900MB的視頻:
體積:900MB = 900MByte = 7200Mbit 時間:24min = 1440s 碼率:7200/1440 = 5000 Kbps = 5Mbps- 1
- 2
- 3
當視頻文件的時間基本相同的時候(比如現在一集番大概是24分鐘),碼率和體積基本上是等價的,都是用來描述視頻大小的參數。長度分辨率都相同的文件,體積不同,實際上就是碼率不同。
碼率也可以解讀為單位時間內,用來記錄視頻的數據總量。碼率越高的視頻,意味著用來記錄視頻的數據量越多,潛在的解讀就是視頻可以擁有更好的質量。注意,僅僅是潛在,后文我們會分析為什么高碼率不一定等于高畫質。
三. 色深
色深(bit-depth),就是我們通常說的8bit和10bit,是指每個通道的精度。8bit就是每個通道用一個8bit整數(0~255)代表,10bit就是用10bit整數(0~1023)來顯示,16bit則是(0~65535)。注意,上文的表述是不嚴謹的,視頻在編碼的時候,并非一定能用到0~255的所有范圍,而是可能有所保留,只用到一部分,比如16~235。這我們就不詳細展開了。
你的顯示器是8bit的,代表它能顯示RGB每個通道0~255所有強度。但是視頻的色深是YUV的色深,播放的時候,YUV需要通過計算轉換到RGB。因此,10bit的高精度是間接的,它使得運算過程中精度增加,以讓最后的顏色更細膩。
如何理解8bit顯示器,播放10bit是有必要的呢:
一個圓的半徑是12.33m, 求它的面積,保留兩位小數。
半徑的精度給定兩位小數,結果也要求兩位小數,那么圓周率精度需要給多高呢?也只要兩位小數么?
取pi=3.14, 面積算出來是477.37平方米
取pi=3.1416,面積算出來是477.61平方米
取pi精度足夠高,面積算出來是477.61平方米。所以取pi=3.1416是足夠的,但是3.14就不夠了。
換言之,即便最終輸出的精度要求較低,也不意味著參與運算的數字以及運算過程,可以保持較低的精度。在最終輸出是8bit RGB的前提下,10bit YUV比起8bit YUV依舊具有精度優勢的原因就在這里。事實上,8bit YUV轉換后,覆蓋的精度大概相當于8bit RGB的26%,而10bit轉換后的精度大約可以覆蓋97%——你想讓你家8bit顯示器發揮97%的細膩度么? 看10bit吧。
8bit精度不足,主要表現在亮度較低的區域,容易形成色帶:
注意這圖右邊那一圈圈跟波浪一樣的效果,這就是顏色精度不足的表現。10bit的優勢不只在于顯示精度的提高,在提高視頻壓縮率,減少失真方面,相對8bit也有優勢。這方面就不展開了。
四. 圖像的表示方法:RGB模型 vs YUV模型
光的三原色是紅(Red)、綠(Green)、藍(Blue)。現代的顯示器技術就是通過組合不同強度的三原色,來達成任何一種可見光的顏色。圖像儲存中,通過記錄每個像素紅綠藍強度來記錄圖像的方法,稱為RGB模型 (RGB Model)。常見的圖片格式中,PNG和BMP這兩種就是基于RGB模型的。
比如說原圖:
分別只顯示R G B通道的強度,效果如下:
三個通道下,信息量和細節程度不一定是均勻分布的。比如說,可以注意南小鳥臉上的紅暈,在3個平面上的區分程度就不同——紅色平面下幾乎無從區分,造成區別的主要是綠色和藍色的平面。外圍白色的臉頰,三色都近乎飽和;但是紅暈部分,只有紅色飽和,綠色和藍色不飽和。這是造成紅色凸顯的原因。
除了RGB模型,還有一種廣泛采用的模型,稱為YUV模型,又被稱為亮度-色度模型(Luma-Chroma)。它是通過數學轉換,將RGB三個通道轉換為一個代表亮度的通道(Y,又稱為Luma),和兩個代表色度的通道(UV,并成為Chroma)。
舉個形象點的例子:一家養殖場飼養豬和牛,一種記數方式是:(豬的數量,牛的數量)。但是也可以這么記錄:(總數量=豬的數量+牛的數量,相差=豬的數量-牛的數量)。兩種方法之間有數學公式可以互轉。
YUV模型干的是類似的事兒。通過對RGB數據的合理轉換,得到另一種表示方式。YUV模型下,還有不同的實現方式。舉個用的比較多的YCbCr模型: 它把RGB轉換成一個亮度(Y),和 藍色色度(Cb) 以及 紅色色度(Cr)。 轉換背后復雜的公式大家不需要了解,只需要看看效果:
只有亮度通道:
只有藍色色度:
只有紅色色度:
在圖像視頻的加工與儲存中,YUV格式一般更受歡迎,理由如下:
幾乎所有的視頻格式,以及廣泛使用的JPEG圖像格式,都是基于YCbCr模型的。播放的時候,播放器需要將YCbCr的信息,通過計算,轉換為RGB,這個步驟稱為渲染(Rendering)。
每個通道的記錄,通常是用整數來表示。比如RGB24,就是RGB各8個bit,用0~255 (8bit的二進制數范圍)來表示某個顏色的強弱。YUV模型也不例外,也是用整數來表示每個通道的高低。
五. 色度半采樣
在YUV模型的應用中,Y和UV的重要性是不等同的。圖像視頻的實際儲存和傳輸中,通常將Y以全分辨率記錄,UV以減半甚至1/4的分辨率記錄。 這個手段被稱為色度半采樣(Chroma Sub-Sampling)。色度半采樣可以有效減少傳輸帶寬,和加大UV平面的壓縮率,但是不可避免的會損失UV平面的有效信息。
我們平常的視頻,最常見的是420采樣。配合YUV格式,常常被寫作yuv420。這種采樣是Y保留全部,UV只以(1/2) x (1/2)的分辨率記錄。比如說1920×1080的視頻,其實只有亮度平面是1920×1080,兩個色度平面都只有960×540的分辨率。
當然了,你也可以選擇不做縮減。這種稱為444采樣,或者yuv444。YUV三個平面全是滿分辨率。
在做YUV->RGB的時候,首先需要將縮水的UV分辨率拉升到Y的分辨率(madVR中允許自定義算法,在Chroma Upscaling當中),然后再轉換到RGB。做RGB->YUV的轉換,也是先轉換到444(YUV的分辨率相同),再將UV分辨率降低。
一般能拿到的片源,包括所有藍光原盤,都是420采樣的。所以,成品一般也保留420采樣。所以yuv420就表示這個視頻是420采樣的yuv格式。將420做成444格式,需要自己手動將UV分辨率拉升2×2倍。在今天madVR等渲染器可以很好地拉升UV平面的情況下,這種做法無異于毫無必要的拉升DVD做成偽高清。
當然了,有時候也需要在444/RGB平面下做處理和修復,常見的比如視頻本身RGB平面不重疊(比如摩卡少女櫻),這種修復過程首先要將UV分辨率拉升,然后轉RGB,做完修復再轉回YUV。修復后的結果相當于全新構圖,這種情況下保留444格式就是有理由,有必要的。
H264格式編碼444格式,需要High 4:4:4 Predictive Profile(簡稱Hi444pp)。所以看到Hi444pp/yuv444 之類的標示,你就需要去找壓制者的陳述,為什么他要做這么個拉升。如果找不到有效的理由,你應該默認作者是在瞎做。
六. 空間上的低頻與高頻:平面,紋理和線條
在視頻處理中,空間(spatial)的概念指的是一幀圖片以內(你可以認為就是一張圖所呈現的二維空間/平面)。跟時間(temporal)相對,時間的概念就強調幀與幀之間的變換。于是我們重新來看這張亮度的圖:
亮度變化較快,變動幅度大的區域,我們稱之為高頻區域。否則,亮度變化緩慢且不明顯的區域,我們稱為低頻區域。
圖中的藍圈就是一塊典型的低頻區域,或者就叫做平面(平坦的部分)。亮度幾乎沒有變化。
綠圈中,亮度呈現跳躍式的突變,這種高頻區域我們稱之為線條。
紅圈中,亮度頻繁變化,幅度有高有低,這種高頻區域我們稱為紋理。
有時候,線條和紋理(高頻區域)統稱為線條,平面(低頻區域)又叫做非線條。
這是亮度平面。色度平面、高頻低頻、線條等概念也同樣適用,就是描述色度變化的快慢輕重。一般我們所謂的“細節”,就是指圖像中的高頻信息。
一般來說,一張圖的高頻信息越多,意味著這張圖信息量越大,所需要記錄的數據量就越多,編碼所需要的運算量也越大。如果一個視頻包含的空間性高頻信息很多(通俗點說就是每一幀內細節很多),意味著這個視頻的空間復雜度很高。
記錄一張圖片,編碼器需要決定給怎樣的部分多少碼率。碼率在一張圖內不同部分的分配,叫做碼率的空間分配。分配較好的時候,往往整幅圖目視觀感比較統一;分配不好常見的后果,就是線條紋理尚可,背景平面區域出現大量色帶色塊(碼率被過分的分配給線條);或者背景顏色過渡自然,紋理模糊,線條爛掉(碼率被過分的分配給非線條)。
七. 時間上的低頻與高頻:動態
在視頻處理中,時間(temporal)的概念強調幀與幀之間的變換,跟空間(spatial)相對。
動態的概念無需多解釋,就是幀與幀之間圖像變化的強弱,變化頻率的高低。一段視頻如果動態很高,變化劇烈,我們稱為時間復雜度較高,時域上的高頻信息多。否則,如果視頻本身舒緩多靜態,我們稱為時間復雜度低,時域上的低頻信息多。
一般來說,一段視頻的時域高頻信息多,動態的信息量就大,所需要記錄的數據量就越多,編碼所需要的運算量也越大。但是另一方面,人眼對高速變化的場景,敏感度不如靜態的圖片來的高(你沒有時間去仔細觀察細節),所以動態場景的優先度可以低于靜態場景。 如何權衡以上兩點去分配碼率,被稱為碼率的時間分配。分配較好的時候,看視頻無論動態還是靜態效果都較好;分配不好的時候往往是靜態部分看著還行,動態部分糊爛掉;或者動態部分效果過分的好,浪費了大量碼率,造成靜態部分欠碼,瑕疵明顯。
很多人喜歡看靜止的截圖對比,來判斷視頻的畫質。從觀看的角度,這種做法其實并不完全科學——如果你覺得比較爛的一幀其實是取自高動態場景,那么這一幀稍微爛點無可厚非,反正觀看的時候你注意不到,將碼率省下來給靜態部分會更好。
八. 清晰度與畫質簡述
我們經常討論,一個視頻清晰度如何,畫質好不好。但是如何給這兩個術語做定義呢?
經常看到的說法:“這個視頻清晰度是1080p的”。其實看過上文你就應該知道,1080p只是視頻的分辨率,它不能直接代表清晰度——比如說,我可以把一個480p的dvd視頻拉升到1080p,那又怎樣呢?它的清晰度難道就提高了么?
一個比較接近清晰度的概念,是上文所講述的,空間高頻信息量,就是一幀內的細節。一張圖、一個視頻的細節多,它的清晰度就高。分辨率決定了高頻信息量的上限;就是它最清晰能到什么地步。1080p之所以比480p好,是因為它可以允許圖像記錄的高頻信息多。這個說法看樣子很靠譜,但是,有反例:
右圖的高頻信息遠比左圖多——它的線條很銳利,有大量致密的噪點(注意噪點完全符合高頻信息的定義;它使得圖像變化的非常快)。
但是你真的覺得右圖清晰度高么?
事實上,右圖完全是通過左圖加工而來。通過過度銳化+強噪點,人為的增加無效的高頻信息。
所以清晰度的定義我更傾向于這樣一個說法:圖像或視頻中,原生、有效的高頻信息。原生,強調這種清晰度是非人工添加的;有效;強調細節本身有意義,而不是毫無意義的噪點特效。
值得一提的是,人為增加的高頻信息不見得完全沒有幫助。有的時候適度銳化的確能夠起到不錯的目視效果:
這是一幅適度銳化后的效果。如果有人覺得右圖更好,至少某些部分更好,相信我,你不是一個人。所以適度銳化依舊是視頻和圖像處理中,可以接受的一種主觀調整的手段,一定的場合下,它確實有助于提高目視效果。
以上是清晰度的概述。注意,== 清晰度只是空間方面(就是一幀以內)。如果再考慮到動態效果的優秀與否(視頻是不是那種一動起來就糊成一團的,或者動起來感覺卡頓明顯的,常見于早起RMVB),空間和時間上優秀的觀看效果共同定義了畫質。==所以我們說madVR/svp那些倍幀效果有助于提高畫質,實際上它們增強了時間上的觀看效果。
好的畫質,是制作者和觀眾共同追求的。怎么樣的視頻會有好的畫質呢?是不是碼率越高的視頻畫質越好呢?真不見得。視頻的畫質,是由以下幾點共同決定的:
俗話說的好,上梁不正下梁歪。如果源的畫質本身很差,那么再如何折騰都別指望畫質好到哪去。所以壓制者往往會選擇更好的源進行壓制——舉個栗子,BDRip一般都比TVRip來的好,哪怕是720p。藍光也分銷售地區,一般日本銷售的日版,畫質上比美版、臺版、港版啥的都來得好,所以同樣是BDRip,選取更好的源,就能做到畫質上優先一步。
觀眾是否用了足矣支持高畫質播放的硬件和軟件。這就是為啥我們在發布Rip的同時大力普及好的播放器;有時候一個好的播放器勝過多少在制作方面的精力投入。
視頻的時間和空間復雜度,并稱為編碼復雜度。編碼復雜度高的視頻,往往細節多,動態高(比如《魔法少女小圓劇場版 叛逆的物語》),這樣的視頻天生需要較高的碼率去維持一個優秀的觀看效果。
相反,有些視頻編碼復雜度低(比如《請問今天要來點兔子么》,動態少,線條細節柔和),這種視頻就是比較節省碼率的。
同樣多的碼率,能起到怎樣好的效果,被稱為效率。比如H264就比之前的RealVideo效率高;10bit比8bit效率高;編碼器先進,參數設置的比較合理,編碼器各種高端參數全開(通常以編碼時間作為代價),碼率效率就高。合理度就是碼率在時空分配方面合理與否,合理的分配,給觀眾的觀看效果就比較統一協調。 碼率分配的效率和合理度,是對制作者的要求,要求制作者對片源分析,參數設置有比較到位的理解。
這里再多提一句,至少在這個時間點,也就是此文發布的2014年年底,HEVC相對于AVC可以提高50%的效率,依舊是一個紙面上的理論值。 實際操作中,因為HEVC編碼器的成熟度遠不及經過了十幾年發展的AVC編碼器,導致現在HEVC的潛力遠沒有能發揮出來,特別是高畫質下甚至不如。
對于目前主流的,定位收藏畫質的BDRip,同樣碼率下x265的畫質相對于x264沒有優勢;所以在近期,大家不用優先的去下載HEVC版作為收藏目的,更不必迷信什么“碼率降低一半”。再強調一次,這個時間點;如果一年后以上陳述被不斷進步的HEVC編碼器推翻,我毫不驚訝。就比如目前4K就開始使用改編碼方式了。
本文轉載自小奶嘴的帖子 https://www.4k123.com/thread-8194-1-1.html
總結
以上是生活随笔為你收集整理的音视频处理入门基础知识(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 窗口句柄 小知识
- 下一篇: 同济版《线性代数》再遭口诛笔伐,网友:它