ASR声学特征
聲學特征類型
聲學特征類型包括:Fbank (FilterBank) 特征、梅爾頻率倒譜系數MFCCs (Mel-Frequency Cepstral Coefficeitns) 特征、PLP特征。目前更為常見的是使用Fbank和MFCCs特征,下表是兩種特征的對比。
| Fbank | 分幀->傅立葉變換FFT->梅爾濾波組 | NN模型(NN-HMM/CTC/RNNT/LAS等) | 40/80 |
| MFCCs | Fbank->離散余弦變換DCT | GMM-HMM模型 | 13 |
MFCCs是在Fbank的基礎上做了離散余弦變化DCT (Discrete Cosine Transform),DCT的作用是去掉特征維間的相關性,由于NN模型能夠對特征維間的相關性建模,所以在使用NN建模時,一般采用Fbank特征,使用傳統GMM-HMM建模時常采用MFCCs特征。
Fbank特征提取
通過命令compute-fbank-feats提取Fbank特征,compute-mfcc-feats提取MFCCs特征,通過–config傳入配置參數文件
compute-fbank-feats/compute-mfcc-feats --config featrue.conf其中配置文件featrue.conf文件如下,dither默認值為1,作用是在計算濾波器系數能量時加入隨機擾動,防止能量為0的情況出現,會導致同一條音頻的輸出特征前后不一致。如果需要保持一致,要在配置文件中設置–dither=0。
--use-energy=false --num-mel-bins=40 --num-ceps=40 --low-freq=20 --high-freq=-400 --dither=1總結
- 上一篇: python协程等待执行完成_异步等待的
- 下一篇: 《基于slam算法的超视距小车》调研分析