即时通讯音视频开发(六):如何开始音频编解码技术的学习
前言
即時通訊應(yīng)用中的實(shí)時音視頻技術(shù),幾乎是IM開發(fā)中的最后一道高墻。原因在于:實(shí)時音視頻技術(shù) = 音視頻處理技術(shù) + 網(wǎng)絡(luò)傳輸技術(shù) 的橫向技術(shù)應(yīng)用集合體,而公共互聯(lián)網(wǎng)不是為了實(shí)時通信設(shè)計(jì)的。
系列文章
- 《即時通訊音視頻開發(fā)(四):視頻編解碼之預(yù)測技術(shù)介紹》
- 《即時通訊音視頻開發(fā)(五):認(rèn)識主流視頻編碼技術(shù)H.264》
說說音頻編解碼技術(shù)學(xué)習(xí)方法
總是有人問我研究音頻編解碼要看什么書,其實(shí)這是一個很難回答的問題,原因有很多:
?
- 做工程首先一個問題就是和課本學(xué)習(xí)不同,不是看書能解決的。
- 音頻編解碼技術(shù)在國內(nèi)研究的人很少,包括總體的音頻技術(shù)國外也研究不多。(從中國的潛艇噪聲技術(shù)一直解決不好就能看出一二)。
- 音頻編解碼技術(shù)是一種應(yīng)用,而一般的書籍都是講理論基礎(chǔ)。
只看理論書籍會和應(yīng)用脫離太多,沒有實(shí)踐會忘記。我當(dāng)初看書也是從工程入手,就是在實(shí)際工作中和個人興趣中看了大量的標(biāo)準(zhǔn),然后對不懂的地方找論文,再找書籍補(bǔ)知識,這是典型的逆向?qū)W習(xí)。通常研究生是“課本->看論文->做工程”這樣一個學(xué)習(xí)方法和流程。
我們可以按照什么樣的思路去找書籍或論文呢?
音頻編解碼技術(shù)是一種比較復(fù)雜的應(yīng)用,而普通的書籍是一種理論書籍,尤其是在中國。音頻編解碼技術(shù)和一般的音頻技術(shù)不同,比如AEC,HRTF,后者分別是語音和音頻的應(yīng)用技術(shù),應(yīng)該說是一種具體的應(yīng)用技術(shù),相對來說查資料還是容易有的放矢。
具體來說,其實(shí)音頻編解碼技術(shù)也是一種具體的應(yīng)用技術(shù),但是可能系統(tǒng)相對復(fù)雜,目的相對基礎(chǔ)。它是信源編解碼技術(shù)的一個分支,目的就是壓縮數(shù)據(jù)。
那么音頻編解碼技術(shù)包括哪些方面呢?既然他是一種信源編解碼器技術(shù)(Source Coding Technology)那么信源編解碼技術(shù)的書籍都可以看,當(dāng)做是理論基礎(chǔ)學(xué)習(xí)。
另外其實(shí)我把音頻編解碼技術(shù)分為5大技術(shù),簡稱為:EQTPM。E-熵編碼、Q-量化編碼、T-變換編碼、P-預(yù)測編碼、M-音頻建模(感知建模,BCC建模,正弦建模等)。相對的,學(xué)習(xí)時我們可以按照這些技術(shù)進(jìn)行相關(guān)書籍的查閱和學(xué)習(xí)。
具體的書籍可以分成以下4類
?
1語音編解碼書籍
因?yàn)閲鴥?nèi)講寬帶音頻編解碼的書籍很少,所以可以看些語音編解碼的書籍,里面也有講EQTP技術(shù)。例如:《語音處理技術(shù)》,《語音編碼》,《低碼率音頻編碼》,《數(shù)字語音編碼原理》,《變速率語音編碼》《低速率語音編碼》《數(shù)字語音編碼》《數(shù)據(jù)壓縮》。
《JPEG2000 圖像壓縮基礎(chǔ)》:我認(rèn)為這本書講的還是不錯的,翻譯的也不錯,很多基本原理講的比較透徹。
?
2理論基礎(chǔ)書籍
《信息論與編碼》,《信號與系統(tǒng)》,高數(shù)這類我就不但列出來了,但是也要常番。
?
3國外的寬音頻編碼書籍
例如我認(rèn)為很經(jīng)典的ANDREAS SPANIAS的《Audio Signal Processing and Coding 》。以及他的63頁的論文,《Perceptual Coding of Digital Audio》。
其他可看的書籍包括:
- MP3之父——K. Brandenburg的:
《Applications of Digital Signal Processing to Audio and Acoustics》
《A Digital Signal Processing Primer, with Applications to Digital Audio and Computer Music》
《Auditory Perception and the MPEG Audio Standard》
《Foundation and Evolution of Standardized Coders (Wiley,2003)(ISBN 0471373125)(578s)》 - 漢堡聯(lián)邦國防軍大學(xué)Udo Zolzer教授的:
《Digital Audio Signal Processing》
《High-Fidelity Multichannel Audio Coding》
《Speech Coding Algorithms》
我強(qiáng)烈推薦把SPANIAS的書讀一下。至少把SPANIAS的那個論文仔細(xì)看一下。這樣會對你理解音頻編碼有很大的幫助。但是里面會將很多關(guān)于耳朵的生理詞語,要拿著字典慢慢翻。這個論文我是煩爛了的,使我受益匪淺。
后面的書籍我還沒有系統(tǒng)看過,但都有PDF版本,我也是偶爾翻一下。因?yàn)檫@些經(jīng)典書籍你不花大時間理解,會造成假象是乍看起來都講得類似,但實(shí)際理解起來發(fā)現(xiàn)是對不同細(xì)節(jié)的闡述。
?
4其他類書籍
專項(xiàng)技術(shù)書籍:
- 如《自適應(yīng)信號處理》,因?yàn)橐纛l編碼也好其他音頻技術(shù)也好,自適應(yīng)技術(shù)是經(jīng)常使用的。
例如:無損編碼的Wavpack,MPEG4 ALS,都使用了自適應(yīng)技術(shù)。 - 濾波器設(shè)計(jì)的相關(guān)書籍。
- 《多抽樣率數(shù)字信號處理理論及其應(yīng)用》:講解Transform技術(shù)。
- HE-AAC和ATRAC3,使用的QMF,
- MP3 使用的PQF
- AAC,MP3使用的MDCT
- AC3使用的TDAC(MDCT)
- WMA和G722.1的(MLT)
都是為什么,選擇這些變換工具。有什么區(qū)別。如果你能看看Vaidyananthan PP的書,會更有幫助。
一些開創(chuàng)性的研究論文也可以讀一讀
除了這些書籍,建議大家多看看論文,很多國外的大學(xué)都有專門的論文和PPT教學(xué)。
?
1會議論文
有的講的很有點(diǎn)概況,有的有些對原理公式還是講的比較清楚,還有一些強(qiáng)調(diào)系統(tǒng)性和介紹的。例如:倫敦學(xué)院的《A Survey of Packet Loss Recovery Techniques for Streaming Audio》 對PLC技術(shù)做了系統(tǒng)歸納L Daudet的《A review on techniques for the extraction of transients in musical signals》對瞬態(tài)信號提取技術(shù)做了歸納。
?
2畢業(yè)論文
這里我舉2個例子,文章太多我就截屏解釋吧。
經(jīng)典PPT
很多大學(xué)和機(jī)構(gòu)開放課程會有一些經(jīng)典PPT。例如:德國Fraunhofer的主頁就有很多獎MPEG系列音頻編碼技術(shù)的PPT。非常好,非常推薦。
結(jié)語
當(dāng)然除了書籍、論文以外,我們還可以看一些常用的網(wǎng)址,我就給一個好了,超經(jīng)典的斯坦福大學(xué) Julius Orion Smith III 教授的主頁:https://ccrma.stanford.edu/~jos/,見下圖哦。
不說了,自己看吧,引用里面的介紹–(1GB of on-line publications, sound examples, and software )。總之,饅頭要一口一口吃,耐心些,開始吧!?
網(wǎng)易云信,你身邊的即時通訊和音視頻技術(shù)專家,了解我們,請戳網(wǎng)易云信官網(wǎng)
想要行業(yè)洞察和技術(shù)干貨,請關(guān)注網(wǎng)易云信博客
本文轉(zhuǎn)載自52im,作者:JackJiang
總結(jié)
以上是生活随笔為你收集整理的即时通讯音视频开发(六):如何开始音频编解码技术的学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 即时通讯音视频开发(五):认识主流视频编
- 下一篇: 即时通讯音视频开发(七):音频基础及编码