采集音频和摄像头视频并实时H264编码及AAC编码
0. 前言
我在前兩篇文章中寫了DirectShow捕獲音視頻然后生成avi,再進行264編碼的方法。那種方法有一些局限性,不適合實時性質的應用,如:視頻會議、視頻聊天、視頻監控等。本文所使用的技術,適用于這種實時性的應用,通過處理采集出來的音視頻的每一幀,實現實時編碼,實時輸出。這是我做直播系列應用的一部分,目前的情況是輸入端采用DirectShow技術捕獲音視頻,然后對視頻進行h.264編碼,對音頻進行aac編碼,輸出端則是生成文件,接下來還要進一步擴展輸入端和輸出端,以支持文件、桌面輸入,RTSP、RTMP、HTTP等流式協議輸出。
?
1. 簡單介紹
首先是捕獲,這里采用了DirectShow的方式,對它進行了一定程度的封裝,包括音視頻。好處是直接使用native api,你可以做想做的任何修改,壞處是,不能跨平臺,采集音視頻這種應用,linux平臺也是需要滴呀。有跨平臺的做法,對視頻,可以使用OpenCV,對音頻,可以使用OpenAL或PortAudio等,這樣就行了。
編碼可以選擇的余地比較大,對視頻來講,有H264, MPEG-4, WebM/VP8, Theora等,音頻有Speex,?AAC,?Ogg/Vorbis等,它們都有相應的開源項目方案,我采用的是x264進行H264編碼,libfaac進行aac編碼,之后是否更改編碼方案,等具體項目需求再說了。這里提一下WebM,Google牽頭的項目,完全開放和自由,使用VP8和Vorbis編碼,webm(mkv)封裝,有多家巨頭支持,目的是想要取代當前的H264視頻編碼,號稱比后者更加優秀,我沒有測試過實際效果。不過有商業公司牽頭就是不一樣,各項支持都很全面,有時間了關注一下。
?
2. 邏輯和流程
基本的思想是實現dshow?ISampleGrabberCB接口,通過回調來保存每一個buffer。除了界面線程和dshow自己的線程之外,我們啟動了兩個線程,AudioEncoderThread和VideoEncoderThread,分別從SampleGrabber中取出數據,調用編碼器進行編碼,編碼后的文件可以直接輸出。看圖:
? ? ?
程序是用VS2010構建的,看張工程截圖:
? ? ??
Base下面的是對系統API的一些簡單封裝,主要是線程和鎖。我這里簡單也封裝的了一下dshow的捕獲過程,包括graph builder的創建,filter的連接等。directshow是出了名的難用,沒辦法,難用也得用。因為是VS2010,調用的Windows SDK 7.1中的dshow,沒有qedit.h這個文件,而它正式定義ISampleGrabberCB的。不急,系統中還是有qedit.dll的,我們要做的就是從Windows SDK 6.0中,把它拷過來,然后在stdafx.h中加入這幾行代碼,就可以了
1 #pragma include_alias( "dxtrans.h", "qedit.h" ) 2 #define __IDxtCompositor_INTERFACE_DEFINED__ 3 #define __IDxtAlphaSetter_INTERFACE_DEFINED__ 4 #define __IDxtJpeg_INTERFACE_DEFINED__ 5 #define __IDxtKey_INTERFACE_DEFINED__ 6 #include "qedit.h"
?
3. 音視頻編碼
相關文件:
? ? ??
Encoder下就是音視頻編碼相關的代碼。X264Encoder封裝了調用x264編碼器的操作,FAACEncoder封裝了調用libfaac編碼器的操作,VideoEncoderThread和AudioEncoderThread負責主要的流程。下面我把關鍵代碼貼出來,大家可以參考一下。
A. 視頻編碼線程
主要流程是首先初始化x264編碼器,然后開始循環調用DSVideoGraph,從SampleGrabber中取出視頻幀,調用x264進行編碼,流程比較簡單,調用的頻率就是你想要獲取的視頻幀率。要注意的一點是,x264進行編碼比較耗時,在計算線程Sleep時間時,要把這個過程消耗的時間算上,以免采集的視頻幀率錯誤。
B. 音頻編碼線程
主要流程和視頻編碼線程相同,也是初始化FAAC編碼器,然后循環調用DSAudioGraph,從SampleGrabber中取出視頻幀,調用faac進行編碼。和視頻不同的是,音頻的sample的頻率是非常快的,所以幾乎要不斷的進行采集,但前提是SampleGrabber中捕獲到新數據了才行,不然你的程序cpu就100%了,下面代碼中IsBufferAvailaber()就是做這個檢測的。
調用faac進行編碼的時候,有點需要注意,大家特別注意下,不然編碼出來的音頻會很不正常,搞不好的話會很頭疼的。先看下faac.h的相關接口
1 faacEncHandle FAACAPI faacEncOpen(unsigned long sampleRate, unsigned int numChannels, 2 unsigned long *inputSamples, unsigned long *maxOutputBytes); 3 4 int FAACAPI faacEncEncode(faacEncHandle hEncoder, int32_t * inputBuffer, unsigned int samplesInput, 5 unsigned char *outputBuffer, unsigned int bufferSize);
faacEncEncode第三個參數指的是傳入的sample的個數,這個值要和調用faacEncOpen返回的inputSamples相等。要做到這點,就要在dshow中設置好buffsize,公式是:
BufferSize = aac_frame_len * channels * wBytesPerSample // aac_frame_len = 1024
?
4. 程序界面
運行中
? ? ?
捕獲完成后生成aac 和 264文件
? ? ?
生成的aac文件用MediaInfo讀出來的編碼格式
? ? ?
生成的264文件用MediaInfo讀出來的編碼格式
? ? ?
用mp4box封裝一下,把264和aac存放到mp4容器文件中,就可以在播放器中播放了
? ? ?
轉載于:https://www.cnblogs.com/zjoch/archive/2013/05/17/3083023.html
總結
以上是生活随笔為你收集整理的采集音频和摄像头视频并实时H264编码及AAC编码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《梦仙》第二十句是什么
- 下一篇: python __setattr__ ,