数字语音信号处理学习笔记——语音信号的短时时域分析(1)
版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。?? ?https://blog.csdn.net/u013538664/article/details/25392889
3.1 概述
????語(yǔ)音信號(hào)是一種非平穩(wěn)的時(shí)變信號(hào),它攜帶著各種信息。在語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和語(yǔ)音增強(qiáng)等語(yǔ)音處理中都需要提取語(yǔ)音中包含的各種信息。一般而言語(yǔ)音處理的目的有兩種:一種是對(duì)語(yǔ)音信號(hào)進(jìn)行分析,提取特征參數(shù),用于后續(xù)處理;另一種是加工語(yǔ)音信號(hào),例如在語(yǔ)音增強(qiáng)中對(duì)含噪語(yǔ)音進(jìn)行背景噪聲抑制,以獲得相對(duì)“干凈”的語(yǔ)音;在語(yǔ)音合成方中需要對(duì)分段語(yǔ)音進(jìn)行拼接平滑,獲得主觀音質(zhì)較高的合成語(yǔ)音,這方面的應(yīng)用同樣是建立在分析并提取語(yǔ)音信號(hào)信息的基礎(chǔ)上的。總之,語(yǔ)音信號(hào)分析的目的就在于方便有效地提取并表示語(yǔ)音信號(hào)所攜帶的信息。
???????根據(jù)所分析的參數(shù)類(lèi)型,語(yǔ)音信號(hào)分析可以分成時(shí)域分析和變換域(頻域、倒譜域)分析。其中時(shí)域分析方法是最簡(jiǎn)單、最直觀的方法,它直接對(duì)語(yǔ)音信號(hào)的時(shí)域波形進(jìn)行分析,提取的特征參數(shù)主要有語(yǔ)音的短時(shí)能量和平均幅度、短時(shí)平均過(guò)零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)等。
3.2 語(yǔ)音信號(hào)的預(yù)處理?
???????實(shí)際的語(yǔ)音信號(hào)是模擬信號(hào),因此在對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字處理之前,首先要將模擬語(yǔ)音信號(hào)s(t)以采樣周期T采樣,將其離散化為s(n),采用周期的選取應(yīng)根據(jù)模擬語(yǔ)音信號(hào)的帶寬(依奈奎斯特采樣定理)來(lái)確定,以避免信號(hào)的頻域混疊失真。在對(duì)離散后的語(yǔ)音信號(hào)進(jìn)行量化處理過(guò)程中會(huì)帶來(lái)一定的量化噪聲和失真。
???????有了語(yǔ)音數(shù)據(jù)文件后,對(duì)語(yǔ)音的預(yù)處理包括:預(yù)加重和加窗分幀等。
3.2.1 語(yǔ)音信號(hào)的預(yù)加重處理
???????對(duì)輸入的數(shù)字語(yǔ)音信號(hào)進(jìn)行預(yù)加重,其目的是為了對(duì)語(yǔ)音的高頻部分進(jìn)行加重,去除口唇輻射的影響,增加語(yǔ)音的高頻分辨率。一般通過(guò)傳遞函數(shù)為的一階FIR高通數(shù)字濾波器來(lái)實(shí)現(xiàn)預(yù)加重,其中a為預(yù)加重系數(shù),。設(shè)n時(shí)刻的語(yǔ)音采樣值為x(n),經(jīng)過(guò)預(yù)加重處理后的結(jié)果為,這里a=0.98。
???????以下是預(yù)加重前和預(yù)加重后的一段濁音信號(hào)及頻譜,可以看出,預(yù)加重后的頻譜在高頻部分的幅度得到了提升。
???????
3.2.2 語(yǔ)音信號(hào)的加窗處理
進(jìn)行預(yù)加重?cái)?shù)字濾波處理后,接下來(lái)進(jìn)行加窗分幀處理。語(yǔ)音信號(hào)是一種隨時(shí)間而變化的信號(hào),主要分為濁音和清音兩大類(lèi)。濁音的基音周期、清濁音信號(hào)幅度和聲道參數(shù)等都隨時(shí)間而緩慢變化。由于發(fā)聲器官的慣性運(yùn)動(dòng),可以認(rèn)為在一小段時(shí)間里(一般為10~30ms)語(yǔ)音信號(hào)近似不變,即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性。這樣,可以把語(yǔ)音信號(hào)分為一些短段(稱(chēng)為分析幀)來(lái)進(jìn)行處理。語(yǔ)音信號(hào)的分幀是采用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)的。一般每秒的幀數(shù)為33~100幀,視實(shí)際情況而定。分幀雖然可以采用連續(xù)分段的方法,但一般要采用交疊分段的方法,這是為了使幀與幀之間平滑過(guò)渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱(chēng)為幀移,幀移與幀長(zhǎng)的比值一般取0~1/2。
常用的窗有兩種,一種是矩形窗,窗函數(shù)如下:
????????
???????
另一種是漢明(Hamming)窗,窗函數(shù)如下:
???
????
注:矩形窗的主瓣寬度小于漢明窗,具有較高的頻譜分辨率,但是矩形窗的旁瓣峰值較大,因此其頻譜泄漏比較嚴(yán)重。相比較,雖然漢明窗的主瓣寬度較寬,約大于矩形窗的一倍,但是它的旁瓣衰減較大,具有更平滑的低通特性,能夠在較高的程度上反映短時(shí)信號(hào)的頻率特性。
???????在確定了窗函數(shù)以后,對(duì)語(yǔ)音信號(hào)的分幀處理,實(shí)際上就是對(duì)各幀進(jìn)行某種變換或運(yùn)算。設(shè)這種變換或運(yùn)算用T[]表示,x(n)為輸入語(yǔ)音信號(hào),w(n)為窗序列,h(n)是與w(n)有關(guān)的濾波器,則各幀經(jīng)處理后的輸出可以表示為:
???????
???????
????
---------------------?
作者:JameJuZhang?
來(lái)源:CSDN?
原文:https://blog.csdn.net/jojozhangju/article/details/25392889?
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上博文鏈接!
總結(jié)
以上是生活随笔為你收集整理的数字语音信号处理学习笔记——语音信号的短时时域分析(1)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 数字语音信号处理学习笔记——语音信号的数
- 下一篇: php开发工具 debug,php开发性