當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数字语音信号处理学习笔记——语音信号的短时时域分析（1）

發(fā)布時(shí)間：2025/3/12 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了数字语音信号处理学习笔记——语音信号的短时时域分析（1）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

版權(quán)聲明：本文為博主原創(chuàng)文章，未經(jīng)博主允許不得轉(zhuǎn)載。?? ?https://blog.csdn.net/u013538664/article/details/25392889
3.1 概述

????語(yǔ)音信號(hào)是一種非平穩(wěn)的時(shí)變信號(hào)，它攜帶著各種信息。在語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和語(yǔ)音增強(qiáng)等語(yǔ)音處理中都需要提取語(yǔ)音中包含的各種信息。一般而言語(yǔ)音處理的目的有兩種：一種是對(duì)語(yǔ)音信號(hào)進(jìn)行分析，提取特征參數(shù)，用于后續(xù)處理；另一種是加工語(yǔ)音信號(hào)，例如在語(yǔ)音增強(qiáng)中對(duì)含噪語(yǔ)音進(jìn)行背景噪聲抑制，以獲得相對(duì)“干凈”的語(yǔ)音；在語(yǔ)音合成方中需要對(duì)分段語(yǔ)音進(jìn)行拼接平滑，獲得主觀音質(zhì)較高的合成語(yǔ)音，這方面的應(yīng)用同樣是建立在分析并提取語(yǔ)音信號(hào)信息的基礎(chǔ)上的。總之，語(yǔ)音信號(hào)分析的目的就在于方便有效地提取并表示語(yǔ)音信號(hào)所攜帶的信息。

???????根據(jù)所分析的參數(shù)類(lèi)型，語(yǔ)音信號(hào)分析可以分成時(shí)域分析和變換域（頻域、倒譜域）分析。其中時(shí)域分析方法是最簡(jiǎn)單、最直觀的方法，它直接對(duì)語(yǔ)音信號(hào)的時(shí)域波形進(jìn)行分析，提取的特征參數(shù)主要有語(yǔ)音的短時(shí)能量和平均幅度、短時(shí)平均過(guò)零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)等。

3.2 語(yǔ)音信號(hào)的預(yù)處理?

???????實(shí)際的語(yǔ)音信號(hào)是模擬信號(hào)，因此在對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字處理之前，首先要將模擬語(yǔ)音信號(hào)s(t)以采樣周期T采樣，將其離散化為s(n)，采用周期的選取應(yīng)根據(jù)模擬語(yǔ)音信號(hào)的帶寬（依奈奎斯特采樣定理）來(lái)確定，以避免信號(hào)的頻域混疊失真。在對(duì)離散后的語(yǔ)音信號(hào)進(jìn)行量化處理過(guò)程中會(huì)帶來(lái)一定的量化噪聲和失真。

???????有了語(yǔ)音數(shù)據(jù)文件后，對(duì)語(yǔ)音的預(yù)處理包括：預(yù)加重和加窗分幀等。

3.2.1 語(yǔ)音信號(hào)的預(yù)加重處理

???????對(duì)輸入的數(shù)字語(yǔ)音信號(hào)進(jìn)行預(yù)加重，其目的是為了對(duì)語(yǔ)音的高頻部分進(jìn)行加重，去除口唇輻射的影響，增加語(yǔ)音的高頻分辨率。一般通過(guò)傳遞函數(shù)為的一階FIR高通數(shù)字濾波器來(lái)實(shí)現(xiàn)預(yù)加重，其中a為預(yù)加重系數(shù)，。設(shè)n時(shí)刻的語(yǔ)音采樣值為x(n)，經(jīng)過(guò)預(yù)加重處理后的結(jié)果為，這里a=0.98。

???????以下是預(yù)加重前和預(yù)加重后的一段濁音信號(hào)及頻譜，可以看出，預(yù)加重后的頻譜在高頻部分的幅度得到了提升。

???????

3.2.2 語(yǔ)音信號(hào)的加窗處理

進(jìn)行預(yù)加重?cái)?shù)字濾波處理后，接下來(lái)進(jìn)行加窗分幀處理。語(yǔ)音信號(hào)是一種隨時(shí)間而變化的信號(hào)，主要分為濁音和清音兩大類(lèi)。濁音的基音周期、清濁音信號(hào)幅度和聲道參數(shù)等都隨時(shí)間而緩慢變化。由于發(fā)聲器官的慣性運(yùn)動(dòng)，可以認(rèn)為在一小段時(shí)間里（一般為10~30ms）語(yǔ)音信號(hào)近似不變，即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性。這樣，可以把語(yǔ)音信號(hào)分為一些短段（稱(chēng)為分析幀）來(lái)進(jìn)行處理。語(yǔ)音信號(hào)的分幀是采用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)的。一般每秒的幀數(shù)為33~100幀，視實(shí)際情況而定。分幀雖然可以采用連續(xù)分段的方法，但一般要采用交疊分段的方法，這是為了使幀與幀之間平滑過(guò)渡，保持其連續(xù)性。前一幀和后一幀的交疊部分稱(chēng)為幀移，幀移與幀長(zhǎng)的比值一般取0~1/2。

常用的窗有兩種，一種是矩形窗，窗函數(shù)如下：

????????

???????

另一種是漢明（Hamming）窗，窗函數(shù)如下：

???

????

注：矩形窗的主瓣寬度小于漢明窗，具有較高的頻譜分辨率，但是矩形窗的旁瓣峰值較大，因此其頻譜泄漏比較嚴(yán)重。相比較，雖然漢明窗的主瓣寬度較寬，約大于矩形窗的一倍，但是它的旁瓣衰減較大，具有更平滑的低通特性，能夠在較高的程度上反映短時(shí)信號(hào)的頻率特性。

???????在確定了窗函數(shù)以后，對(duì)語(yǔ)音信號(hào)的分幀處理，實(shí)際上就是對(duì)各幀進(jìn)行某種變換或運(yùn)算。設(shè)這種變換或運(yùn)算用T[]表示，x(n)為輸入語(yǔ)音信號(hào)，w(n)為窗序列，h(n)是與w(n)有關(guān)的濾波器，則各幀經(jīng)處理后的輸出可以表示為：

???????

????

---------------------?
作者：JameJuZhang?
來(lái)源：CSDN?
原文：https://blog.csdn.net/jojozhangju/article/details/25392889?
版權(quán)聲明：本文為博主原創(chuàng)文章，轉(zhuǎn)載請(qǐng)附上博文鏈接！

總結(jié)

以上是生活随笔為你收集整理的数字语音信号处理学习笔记——语音信号的短时时域分析（1）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：数字语音信号处理学习笔记——语音信号的数
下一篇： php开发工具 debug,php开发性