x264里的2pass指的是什么意思? x264源代码分析2.encode()
A:x264里的2pass指的是什么意思?另外stat是什么意思, 比如有個(gè)參數(shù)--stats <string> ?? ??? Filename for 2 pass stats [/"%s/"]/n", defaults->rc.psz_stat_out );
stats在這是什么意思?
2pass是2次編碼的意思,stats是統(tǒng)計(jì)文檔的名稱,記錄了1pass中的信息.2次編碼就相當(dāng)于2次轉(zhuǎn)換這么做雖然轉(zhuǎn)換時(shí)間會(huì)漫長,但壓出的片子會(huì)有更好的畫質(zhì),畫面細(xì)節(jié)更好,而且體積會(huì)更小
2-pass主要是針對(duì)非實(shí)時(shí)的視頻編碼(如文件)來說的,通俗的說就是需要二次編碼,第一次編碼是先對(duì)整個(gè)文件進(jìn)行掃描,記錄一些統(tǒng)計(jì)信息,第二次編碼時(shí)根據(jù)前面記錄的統(tǒng)計(jì)信息再進(jìn)行編碼,這樣的好處是可以提高編碼的質(zhì)量。
A:那個(gè)達(dá)人能簡(jiǎn)單說說x264中 rc 部分 1pass 和 2pass的思路?
就此問題在 x264 開發(fā)郵件列表里問過。沒有得到一個(gè)明確的結(jié)論。
我看代碼的過程中,首先關(guān)注的是 1pass ,得到的一點(diǎn)經(jīng)驗(yàn)大概可以這樣描述:
首先 x264 中將 QP 通過一個(gè)確定的公式變換為 QScale 。其主要就是針對(duì)于 QS 作分析和控制/約束變化的。
x264 的碼率控制接口是以幀為單位的,而支持的宏塊級(jí)變化只到宏塊行。
編碼一個(gè)宏塊行之前調(diào)用接口函數(shù)以得到欲使用的 QP 。
它預(yù)測(cè)某個(gè) gomb (宏塊組) 的耗費(fèi)碼流的大小,利用在漏桶模型上,以之權(quán)衡 QP 是否需要改變并如何進(jìn)行改變。
預(yù)測(cè)的時(shí)候是使用兩種預(yù)測(cè)求平均的方法,見 predict_row_size() 函數(shù)。
它的預(yù)測(cè)方程一個(gè)比較引起混淆的是它對(duì)歷史數(shù)據(jù)有個(gè)衰減的過程。
而且,這些衰減概念,應(yīng)用在不同地方所用的幾個(gè)方程上。
它的 RC 核心函數(shù)是 rate_estimate_qscale() 。
其中一個(gè) QS 的推導(dǎo)是一個(gè)需要解析的輸入表達(dá)式字符串,也因此在內(nèi)部實(shí)現(xiàn)了一個(gè)表達(dá)式解析器,也許會(huì)產(chǎn)生一點(diǎn)晦澀感。
一時(shí)就想到這些。
E.????? 然后進(jìn)入x264_encoder_encode( h, &nal, &i_nal, pic )函數(shù),該函數(shù)定義在/Enc/encoder.c中.
開始進(jìn)入比較復(fù)雜的地方了.
這個(gè)函數(shù)前面有一段注釋(如下):
****************************************************************************
* x264_encoder_encode:
* XXX: i_poc?? : is the poc of the current given picture
*?????? i_frame : is the number of the frame being coded
* ex: type frame poc
*?????? I????? 0?? 2*0//poc是實(shí)際的幀的位置.
*?????? P????? 1?? 2*3//frame是編碼的順序.
*?????? B????? 2?? 2*1
*?????? B????? 3?? 2*2
*?????? P????? 4?? 2*6
*?????? B????? 5?? 2*4
*?????? B????? 6?? 2*5
****************************************************************************/
要搞清poc和frame的區(qū)別.
假設(shè)一個(gè)視頻序列如下:
I B??? B??? P??? B???? B???? P
我們編碼是按I P B B P B B的順序,這就是frame的編號(hào).
而我們視頻序列的播放序號(hào)是POC的序號(hào),這里是乘以了2.
函數(shù)中先定義了如下三個(gè)參數(shù):
int???? i_nal_type;
nal存放的數(shù)據(jù)類型, 可以是sps,pps等多種.??????????????????
int???? i_nal_ref_idc;
nal的優(yōu)先級(jí),nal重要性的標(biāo)志位.
前面兩個(gè)參數(shù)雖然簡(jiǎn)單,但如果不參照標(biāo)準(zhǔn),也不容易理解,所以標(biāo)準(zhǔn)中的句法表是很重要的,可以說是最關(guān)鍵的.
int???? i_slice_type;
slice的類型,在x264中我的感覺好像一幀只有一個(gè)slice.如果確定了幀的類型,slice的類型也就確定了.
?
我們來看看編碼器是如何區(qū)分讀入的一幀是I幀,P幀,或者B幀,這個(gè)過程需要好好理解.
還以I?????? B B P B?? B???? P為例.
?
if( h->i_frame % (h->param.i_iframe * h->param.i_idrframe) == 0 ){
確定這是立即刷新片.
}
???????? 這里很好理解.
但到了if( h->param.i_bframe > 0 )//可以B幀編碼時(shí).
就有問題了.
注意我們編完I幀后碰到了一個(gè)B幀,這時(shí)我們先不對(duì)它進(jìn)編碼.而是采用frame = x264_encoder_frame_put_from_picture( h, h->frame_next, pic )函數(shù)將這個(gè)B幀放進(jìn)h->frame_next中.
好,這里出現(xiàn)了h->frame_next,在h中同時(shí)定義了下面幾個(gè)幀數(shù)組用以實(shí)現(xiàn)幀的管理.
x264_frame_t?? *bframe_current[X264_BFRAME_MAX]; /* store the sequence of b frame being encoded */
??? x264_frame_t??? *frame_next[X264_BFRAME_MAX+1];?? /* store the next sequence of frames to be encoded *///搞清意義,下一個(gè)幀,而不一定是B幀.
??? x264_frame_t??? *frame_unused[X264_BFRAME_MAX+1]; /* store unused frames */
注意區(qū)分這3個(gè)數(shù)組.
同時(shí)還有下面4個(gè)函數(shù)(定義在/ENCODER/encoder.c中).
x264_encoder_frame_put_from_picture();
x264_encoder_frame_put();
x264_encoder_frame_get();
x264_frame_copy_picture();
這3個(gè)數(shù)組和4個(gè)函數(shù)可以說完成了整個(gè)幀的類型的判定問題.這個(gè)里面if ,else語句較多,容易使人迷惑.但我們只要把握下面一個(gè)觀點(diǎn)就可以看清實(shí)質(zhì):在不對(duì)P幀進(jìn)行編碼之前,我們不對(duì)B幀進(jìn)行編碼,只是把B幀放進(jìn)緩沖區(qū)(就是前面提到的數(shù)組).
比如視頻序列:I???? B B P B B P
先確立第一個(gè)幀的類型,然后進(jìn)行編碼.然后是2個(gè)B幀,我們把它放進(jìn)緩沖區(qū)數(shù)組.然后是P幀,我們可以判定它的類型并進(jìn)行編碼.同時(shí),我們將緩沖區(qū)的B幀放進(jìn)h->bframe_current[i],不過這時(shí)P幀前的兩個(gè)B幀并沒有編碼.當(dāng)讀到P幀后面的第一個(gè)B幀時(shí),我們實(shí)際上才將h->bframe_current數(shù)組中的第一個(gè)B幀編碼,也就是將在I幀后面的第一個(gè)B幀(說成P幀前面的第一個(gè)B幀容易誤解J)編碼.
依此類推,把握好上面4個(gè)函數(shù)的調(diào)用流程和指針操作的用法,就可以將幀的類型判定這個(gè)問題搞明白了.
F.????? 然后是速率控制(先不說這個(gè),因?yàn)樗鼘?duì)編碼的流程影響不大),看看建立參考幀列表的操作,也就是
x264_reference_build_list( h, h->fdec->i_poc ); (定義在/ENCODER/encoder.c中).
光看這個(gè)函數(shù)是不行的,它是和后面的這個(gè)函數(shù)(如下)一起配合工作的.
if( i_nal_ref_idc != NAL_PRIORITY_DISPOSABLE )//B幀時(shí).
??? {
??????? x264_reference_update( h );
}
???? If條件是判斷當(dāng)前幀是否是B幀,如果是的話就不更新參考列表,因?yàn)锽幀本來就不能作為參考幀嘛!如果是I幀或P幀的話,我們就更新參考幀列表.
我們看到了一個(gè)for循環(huán),兩個(gè)do—while循環(huán).這是實(shí)現(xiàn)的關(guān)鍵,具體看代碼,不好用語言說明白.
G.???? 進(jìn)入另一個(gè)復(fù)雜的領(lǐng)域:寫slice的操作,剛開使挺簡(jiǎn)單,如我下面的注釋.
/* ---------------------- Write the bitstream -------------------------- */
??? /* Init bitstream context */
??? h->out.i_nal = 0;//out的聲明在bs.h中.
??? bs_init( &h->out.bs, h->out.p_bitstream, h->out.i_bitstream );//空出8位.
?
??? /* Write SPS and PPS */
??? if( i_nal_type == NAL_SLICE_IDR )//不是每次都要寫SPS and PPS,只有碰見立即刷新片時(shí)才寫.
??? {
??????? /* generate sequence parameters */
??????? x264_nal_start( h, NAL_SPS, NAL_PRIORITY_HIGHEST );
??????? x264_sps_write( &h->out.bs, h->sps );
??????? x264_nal_end( h );
?
??????? /* generate picture parameters */
??????? x264_nal_start( h, NAL_PPS, NAL_PRIORITY_HIGHEST );
??????? x264_pps_write( &h->out.bs, h->pps );
??????? x264_nal_end( h );
}
不過看下面那個(gè)函數(shù)(就進(jìn)入了復(fù)雜的領(lǐng)域).
H.???? x264_slice_write()(定義在/ENCODER/encoder.c中),這里面是編碼的最主要部分,下面仔細(xì)分析.
前面不說,看下面這個(gè)循環(huán),它是采用for循環(huán)對(duì)一幀圖像的所有塊依次進(jìn)行編碼.
for( mb_xy = 0, i_skip = 0; mb_xy < h->sps->i_mb_width * h->sps->i_mb_height; mb_xy++ )//h->sps->i_mb_width指的是從寬度上說有多少個(gè)宏快.對(duì)于寬度也就是288 / 16 = 18
??? {
??????? const int i_mb_y = mb_xy / h->sps->i_mb_width;
??????? const int i_mb_x = mb_xy % h->sps->i_mb_width;//這兩個(gè)變量是定義宏塊的位置.而不是指宏塊中元素的位置.
?
??????? /* load cache */
??????? x264_macroblock_cache_load( h, i_mb_x, i_mb_y );//是把當(dāng)前宏塊的up宏塊和left宏塊的intra4x4_pred_mode,non_zero_count加載進(jìn)來,放到一個(gè)數(shù)組里面,這個(gè)數(shù)組用來直接得到當(dāng)前宏塊的左側(cè)和上面宏塊的相關(guān)值.要想得到當(dāng)前塊的預(yù)測(cè)值,要先知道上面,左面的預(yù)測(cè)值,它的目的是替代getneighbour函數(shù).
/* analyse parameters
???????? * Slice I: choose I_4x4 or I_16x16 mode
???????? * Slice P: choose between using P mode or intra (4x4 or 16x16)
???????? * */
??????? TIMER_START( i_mtime_analyse );
??????? x264_macroblock_analyse( h );//定義在analyse.h中.
??????? TIMER_STOP( i_mtime_analyse );
?
??????? /* encode this macrobock -> be carefull it can change the mb type to P_SKIP if needed */
??????? TIMER_START( i_mtime_encode );
??????? x264_macroblock_encode( h );//定義在Enc/encoder.c中.
??????? TIMER_STOP( i_mtime_encode );
截止到這就已經(jīng)完成編碼的主要過程了,后面就是熵編碼的過程了(我也沒看到那,但認(rèn)為前面才是編碼的主要過程).下面對(duì)這個(gè)過程進(jìn)行分析.
A.???? x264_macroblock_cache_load( h, i_mb_x, i_mb_y );它是將要編碼的宏塊的周圍的宏塊的值讀進(jìn)來, 要想得到當(dāng)前塊的預(yù)測(cè)值,要先知道上面,左面的預(yù)測(cè)值,它的作用相當(dāng)于jm93中的getneighbour函數(shù).
B.????? 進(jìn)入x264_macroblock_analyse( h )函數(shù)(定義在/Enc/analyse.c中,這里涉及到了函數(shù)指針數(shù)組,需要好好復(fù)習(xí),個(gè)人認(rèn)為這也是x264代碼最為復(fù)雜的一個(gè)地方了).既然已經(jīng)將該宏塊周圍的宏塊的值讀了出來,我們就可以對(duì)該宏塊進(jìn)行分析了(其實(shí)主要就是通過計(jì)算sad值分析是否要將16*16的宏塊進(jìn)行分割和采用哪種分割方式合適).
看似很復(fù)雜,但我們只要把握一個(gè)東西就有利于理解了:
舉個(gè)生活中的例子來說:
如果你有2元錢,你可以去買2袋1元錢的瓜子,也可以買一袋2元錢的瓜子,如果2袋1元錢的瓜子數(shù)量加起來比1袋2元錢的瓜子數(shù)量多,你肯定會(huì)買2袋1元的.反之你會(huì)去買那2元1袋的.
具體來說,對(duì)于一個(gè)16*16的塊,
如果它是I幀的塊,我們可以將它分割成16個(gè)4*4的塊,如果這16個(gè)塊的sad加起來小于按16*16的方式計(jì)算出來的sad值,我們就將這個(gè)16*16的塊分成16個(gè)4*4的塊進(jìn)行編碼(在計(jì)算每個(gè)4*4的塊的最小sad值時(shí)已經(jīng)知道它采用何種編碼方式最佳了),否則采用16*16的方式編碼(同樣我們也已知道對(duì)它采用哪種編碼方式最為合適了.
如果它是P幀或B幀的塊,同樣是循環(huán)套循環(huán),但更為復(fù)雜了,可以看我在analyse.c中的注釋.
這里還要注意的是提到了
x264_predict_t????? predict_16x16[4+3];
typedef void (*x264_predict_t)( uint8_t *src, int i_stride );
這是函數(shù)指針數(shù)組,有很多對(duì)它的調(diào)用.
C.???? 退出x264_macroblock_analyse( h )函數(shù),進(jìn)入x264_macroblock_encode( )函數(shù)(定義在/ENCODER/macroblock.c中).
我拿宏塊類型為I_16*16為例.
if( h->mb.i_type == I_16x16 )
??? {
??????? const int i_mode = h->mb.i_intra16x16_pred_mode;
??????? /* do the right prediction */
??????? h->predict_16x16[i_mode]( h->mb.pic.p_fdec[0], h->mb.pic.i_fdec[0] );//這兩個(gè)參數(shù)的關(guān)系.
?????????????????????????????????????????????????????????????????? //涉及到x264_predict_t(函數(shù)指針數(shù)組),聲明在core/predict.h中,core/predict.c里有不同定義.
??????? /* encode the 16x16 macroblock */
??????? x264_mb_encode_i16x16( h, i_qscale );//
/* fix the pred mode value */
?????? …???? }
我們看到h->predict_16x16[i_mode]( h->mb.pic.p_fdec[0], h->mb.pic.i_fdec[0] );只調(diào)用了一次,這是因?yàn)樵趚264_macroblock_analyse( )中我們已經(jīng)確定了采用4種方式中的哪種最合適.而在x264_macroblock_analyse( )中判定一個(gè)塊是否為I_16*16,我們調(diào)用了四次.這是因?yàn)楫?dāng)時(shí)我們需要拿最小的sad值進(jìn)行比較.
繼續(xù),是x264_mb_encode_i16x16( h, i_qscale )函數(shù)(定義在/ENCODER/macroblock.c中).在這個(gè)函數(shù)中我們就可以看到量化,zig-掃描等函數(shù)了,這些都是直來直去的,需要的只是我們的細(xì)心和對(duì)數(shù)學(xué)知識(shí)的掌握了
c)?????? 到這里還沒完,我們接著看
void x264_macroblock_encode( x264_t *h ){
…….前面省略.
執(zhí)行到下面這條語句,看看下面是干啥的.
?
??? /* encode chroma */
??? i_qscale = i_chroma_qp_table[x264_clip3( i_qscale + h->pps->i_chroma_qp_index_offset, 0, 51 )];
??? if( IS_INTRA( h->mb.i_type ) )
??? {
??????? const int i_mode = h->mb.i_chroma_pred_mode;
??????? /* do the right prediction */
??????? h->predict_8x8[i_mode]( h->mb.pic.p_fdec[1], h->mb.pic.i_fdec[1] );
??????? h->predict_8x8[i_mode]( h->mb.pic.p_fdec[2], h->mb.pic.i_fdec[2] );
?
??????? /* fix the pred mode value */
??????? h->mb.i_chroma_pred_mode = x264_mb_pred_mode8x8_fix[i_mode];
??? }
?
??? /* encode the 8x8 blocks */
x264_mb_encode_8x8( h, !IS_INTRA( h->mb.i_type ), i_qscale );//對(duì)色度塊進(jìn)行編碼了.
到這我們可以看到原來我們?cè)谶@前面是對(duì)宏塊中的亮度系數(shù)進(jìn)行了編碼,我們到上面那個(gè)函數(shù)才開始對(duì)色度系數(shù)進(jìn)行編碼.進(jìn)入x264_mb_encode_8x8()函數(shù)看到for循環(huán)里面有個(gè)2可以證明是對(duì)2個(gè)色度系數(shù)進(jìn)行編碼,想法沒錯(cuò).
那下面這些又是干啥的呢?它們是計(jì)算cbp系數(shù)看需要對(duì)殘差(包括ac,dc)中的哪個(gè)系數(shù)進(jìn)行傳輸?shù)?
?
??? /* Calculate the Luma/Chroma patern and non_zero_count */
??? if( h->mb.i_type == I_16x16 )
??? {
??????? h->mb.i_cbp_luma = 0x00;
??????? for( i = 0; i < 16; i++ )
??????? {
??????????? const int nz = array_non_zero_count( h->dct.block[i].residual_ac, 15 );
??????????? h->mb.cache.non_zero_count[x264_scan8[i]] = nz;
??????????? if( nz > 0 )
??????????? {
??????????????? h->mb.i_cbp_luma = 0x0f;
??????????? }
??????? }
??? }
??? else
??? {
??????? h->mb.i_cbp_luma = 0x00;
??????? for( i = 0; i < 16; i++ )
??????? {
??????????? const int nz = array_non_zero_count( h->dct.block[i].luma4x4, 16 );//統(tǒng)計(jì)非0個(gè)數(shù).
??????????? h->mb.cache.non_zero_count[x264_scan8[i]] = nz;
??????????? if( nz > 0 )
??????????? {
??????????????? h->mb.i_cbp_luma |= 1 << (i/4);// %16的意義.
??????????? }
??????? }
??? }
?
??? /* Calculate the chroma patern *///色度的cbp有3種方式.
??? h->mb.i_cbp_chroma = 0x00;
??? for( i = 0; i < 8; i++ )
??? {
??????? const int nz = array_non_zero_count( h->dct.block[16+i].residual_ac, 15 );
??????? h->mb.cache.non_zero_count[x264_scan8[16+i]] = nz;
??????? if( nz > 0 )??????????????????????
??????? {
??????????? h->mb.i_cbp_chroma = 0x02;??? /* dc+ac (we can't do only ac) */
??????? }
??? }
??? if( h->mb.i_cbp_chroma == 0x00 &&
??????? ( array_non_zero_count( h->dct.chroma_dc[0], 4 ) > 0 || array_non_zero_count( h->dct.chroma_dc[1], 4 ) ) > 0 )
??? {
??????? h->mb.i_cbp_chroma = 0x01;??? /* dc only */
??? }
?
??? if( h->param.b_cabac )
??? {
??????? if( h->mb.i_type == I_16x16 && array_non_zero_count( h->dct.luma16x16_dc, 16 ) > 0 )
??????????? i_cbp_dc = 0x01;
??????? else
??????????? i_cbp_dc = 0x00;
?
??????? if( array_non_zero_count( h->dct.chroma_dc[0], 4 ) > 0 )
??????????? i_cbp_dc |= 0x02;
??????? if( array_non_zero_count( h->dct.chroma_dc[1], 4 ) > 0 )
??????????? i_cbp_dc |= 0x04;
??? }
?
??? /* store cbp */
h->mb.cbp[h->mb.i_mb_xy] = (i_cbp_dc << 8) | (h->mb.i_cbp_chroma << 4) | h->mb.i_cbp_luma;
?
到這,基本上x264_macroblock_encode( h )(定義在Enc/encoder.c)基本上就分析完了.剩下的就是熵編碼的部分了.以后的部分更需要的應(yīng)該是耐心和數(shù)學(xué)知識(shí)吧,相對(duì)前面來說應(yīng)該簡(jiǎn)單些.
?
l?????? 總結(jié):
1. 我對(duì)代碼的理解應(yīng)該還算比較深入,把代碼的主線已經(jīng)分析了出來,對(duì)代碼中幾個(gè)最難理解的地方(最難理解的地方就是幀的類型的判定,參考幀是如何管理的,一個(gè)16*16的塊是采用到底需不需要分割,分割的話分成什么大小的,子塊又采用何種預(yù)測(cè)方式,這些實(shí)際上就是整個(gè)編碼的主線.)基本上已經(jīng)明白,但有些過分復(fù)雜的函數(shù)的實(shí)現(xiàn)(或者涉及數(shù)學(xué)知識(shí)較多的地方)還有待深入研究,但我相信沿著這條主線應(yīng)該能夠繼續(xù)深入下去,自己需要的是更多的時(shí)間和耐心. 自己需要的是更多的時(shí)間和耐心,爭(zhēng)取以后能寫出更詳細(xì)更準(zhǔn)確的流程分析,并盡量思考能改進(jìn)的地方.
2.層次性,就像網(wǎng)絡(luò)的7層結(jié)構(gòu)一樣,每一幀圖像也可以分成很多層,只有對(duì)每層的語法結(jié)構(gòu)(具體來說就是各個(gè)結(jié)構(gòu)體中變量的意思)有了很好的理解,才有可能真正認(rèn)清代碼,這需要對(duì)標(biāo)準(zhǔn)認(rèn)真研習(xí).比如說量化參數(shù),就在3個(gè)地方有定義,不讀標(biāo)準(zhǔn)根本不會(huì)明白意思.
3. 很多過分復(fù)雜的東西不容易在本文中表達(dá)出來(比如說預(yù)測(cè)部分),只有通過自己的鉆研才能真正悟到,直覺也很重要,還有就是信心了.看這種程序的收獲就好像是真地肉眼看到了原子那樣.
4.由于代碼過分復(fù)雜,對(duì)某些函數(shù)的實(shí)現(xiàn)過程還沒能徹底理解,比如說x264_macroblock_cache_load()函數(shù)的具體實(shí)現(xiàn)過程,我只是知道它的功能,實(shí)現(xiàn)過程還有待認(rèn)真理解.dct變換是如何實(shí)現(xiàn)的,是如何計(jì)算殘差的等等,這些都需要很多功夫,當(dāng)然這里也需要大家的共同學(xué)習(xí)和交流.實(shí)現(xiàn)分工閱讀不同代碼部分并進(jìn)行交流,才有可能對(duì)代碼做到徹底的理解.
總結(jié)
以上是生活随笔為你收集整理的x264里的2pass指的是什么意思? x264源代码分析2.encode()的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: H264白皮书
- 下一篇: CABAC之手把手教你编码