由1078引申出的音视频开发(一)之我们如何看到声音
我們如何看見聲音
-
1 聲音是什么
聲音是一個波,一個連續的波,由波的特性,我們知道連續的波可以通過圖形化的方式進行表達
這樣我們就可以“看見”聲音了。
-
2 聲音的采集
1.模擬信號:音頻信號是典型的連續信號,在時間和幅度上都是連續的。在任何一個特定的時間點都有一個對應是幅值。我們把時間和幅度上都是連續的信號稱為模擬信號。
2.數字信號:在某些特定的時刻對這種模擬信號進行測量叫做采樣。在有限個特點時間的采樣得到的信號叫做離散時間信號。采到的幅值是一個實數,因此幅度還是一個連續的值,當我們將幅值限定為有限個數值,就稱為離散數值信號。我們把時間和幅值都用離散的值表示的時候,此時表示的信號就是數字信號。可以看出數字信號是離散的。
-
采樣頻率:
單位時間內對模擬信號的采樣次數。采樣頻率越高,聲音的還原就越真實越自然,當然數據量就越大(在不考慮存儲和傳輸的情況下)。8KHz - 電話所用采樣率, 對于人的說話已經足夠(部標1078設備),11,025 Hz-AM調幅廣播所用采樣率,22.05KHz能達到FM廣播的聲音品質,44.1KHz是CD音質
(個人理解 就是在1秒內我們要獲取到圖3中點的個數 44.1KHz就是44100,就是圖上橫坐標)
ps:常用采樣評率如下:
5kHz的采樣率僅能達到人們講話的聲音質量。
11kHz的采樣率是播放小段聲音的最低標準,是CD音質的四分之一。
22kHz采樣率的聲音可以達到CD音質的一半,目前大多數網站都選用這樣的采樣率。
44kHz的采樣率是標準的CD音質,可以達到很好的聽覺效果 -
采樣位數
聲卡的位是指聲卡在采集和播放聲音文件時所使用數字聲音信號的二進制位數。聲卡的位客觀地反映了數字聲音信號對輸入聲音信號描述的準確程度。8位代表2的8次方——256,16位則代表2的16次方——64K。比較一下,一段相同的音樂信息,16位聲卡能把它分為65536個精度單位進行處理,而8位聲卡只能處理256個精度單位,由于精度的大幅度降低,那么聲音的效果(音色)顯然也會有很大的折扣(就是波峰最高點到波谷最低點的差值,這個過程也可以叫量化,就是圖上縱坐標)。
這樣我們就可以計算一波音頻的存儲空間了,立體聲雙聲道采樣頻率為44.1kHz,量化位數為8位,一分鐘這樣的音樂所需要的存儲空間如何計算呢?
每秒鐘 44.1k 次采樣,即產生 44.1 x 1000 個數據
量化位數 8 位,即每個采樣數據需要占用 8 位 = 1 個字節
立體聲雙聲道,所以等于是儲存兩份聲音,儲存空間翻倍
一分鐘,即 60 秒.
所以:
44.1 (khz) x 1000 x 8 (bits) x 2 (立體聲) x 60 (s) / 8 (一字節是8位)
即:44.1 x 1000 x 8 x 2 x 60 / 8 字節 -
3 音頻的編碼格式
- PCM編碼
PCM(Pulse Code Modulation),即脈沖編碼調制,指模擬音頻信號只經過采樣、模數轉換直接形成的二進制序列,未經過任何編碼和壓縮處理。PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。碼率指的是比特率:聲音中的比特率是指將模擬聲音信號轉換成數字聲音信號后,單位時間內的二進制數據量,是間接衡量音頻質量的一個指標(聲道、采樣位數和采樣頻率就決定了碼率) - G711A
g711a輸入的是13位(S16的高13位),這種格式是經過特別設計的,便于數字設備進行快速運算。
1.取符號位并取反得到s
2.獲取強度位eee,獲取方法如下圖所示
3.獲取高位樣本位wxyz
4.組合為seeewxyz,將seeewxyz逢偶數位取補數,編碼就完成了
A-law如下表計算,第一列是采樣點,共13bit,最高位為符號位。對于前兩行,折線斜率均為1/2,跟負半段的相應區域位于同一段折線上,對于3到8行,斜率分別是1/4到1/128,共6段折線,加上負半段對應的6段折線,總共13段折線,這就是所謂的A-law十三段折線法。
接下來做個簡單的算法步驟演示:獲取到數值為1234的pcm數據
二進制表示為:0000 0100 1101 0010
二進制變換下排列組合方式:0 00001 0011 010010
1.取符號位取反得到 s=1
2.獲取強度位00001 查上表得到eee=011
3.獲取高位樣本位wxyz:0011
4.組合為seeewxyz就是10110011,逢偶取反為:11100110。編碼完成
- PCM編碼
-
AAC
Advanced Audio Coding 是一個有損壓縮的音頻編碼集(其實新的編碼工具也支持無損)。壓縮率高,視頻直播的時候常用這種音頻編碼。光規格就有9種,是為了干掉mp3而出來的一個編碼。 AACLC編碼是低配版AAC (低復雜度) -
MP4
MP4最初是一種音頻格式,和MPE-4沒有太大的關系,就像MIP3和MPE-3沒有關系樣。M3是MIE-1 Audio Layer3的縮寫;而M4是MPEC-2AC,完完全全是一種音頻壓縮格式,增加了諸如對立體聲的完美再現、多媒體控制、降噪等新特性
相關資源軟件連接
總結
以上是生活随笔為你收集整理的由1078引申出的音视频开发(一)之我们如何看到声音的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: itx机箱尺寸_银欣推出能塞入全规格显卡
- 下一篇: Python多元线性回归、机器学习、深度