声纹识别:自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni
聲明:平時(shí)看些文章做些筆記分享出來(lái),文章中難免存在錯(cuò)誤的地方,還望大家海涵。搜集一些資料,方便查閱學(xué)習(xí):http://yqli.tech/page/speech.html。語(yǔ)音合成領(lǐng)域論文列表請(qǐng)?jiān)L問(wèn)http://yqli.tech/page/tts_paper.html,語(yǔ)音識(shí)別領(lǐng)域論文統(tǒng)計(jì)請(qǐng)?jiān)L問(wèn)http://yqli.tech/page/asr_paper.html。開(kāi)源語(yǔ)音數(shù)據(jù)查詢?http://yqli.tech/page/data.html。如何查找語(yǔ)音資料請(qǐng)參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有轉(zhuǎn)載,請(qǐng)注明出處。歡迎關(guān)注微信公眾號(hào):低調(diào)奮進(jìn)。
Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition?
本文為哈爾濱工業(yè)大學(xué)和微軟在2022.04.27更新的文章,主要研究無(wú)監(jiān)督訓(xùn)練的模型對(duì)聲紋識(shí)別的影響因素,具體的文章鏈接
https://arxiv.org/pdf/2204.12765.pdf
(本文章主要實(shí)驗(yàn)論證,我盡可能的寫(xiě)的短,讓讀者2分鐘知道該論文做了什么,效果怎樣即可)
自監(jiān)督訓(xùn)練的模型不僅僅使語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率提升,該模型同樣可以使聲紋識(shí)別受益。使用自監(jiān)督模型進(jìn)行聲紋識(shí)別的架構(gòu)如圖1所示。為了探究自監(jiān)督學(xué)習(xí)的模型如何影響聲紋識(shí)別,該文章主要圍繞以下三個(gè)問(wèn)題進(jìn)行試驗(yàn)總結(jié)
1,?有監(jiān)督的 ASR 模型是否也可以使?聲紋識(shí)別SV 任務(wù)受益嗎?
2.? ?自監(jiān)督學(xué)習(xí)SSL 對(duì) SV 任務(wù)有什么好處?
3.? ?SV?任務(wù)的最佳 SSL 設(shè)置是什么?
???
1,?有監(jiān)督的 ASR 模型是否也可以使?聲紋識(shí)別SV 任務(wù)受益嗎?
答:本部分實(shí)驗(yàn)對(duì)比直接預(yù)訓(xùn)練模型HuBERT和使用CTC訓(xùn)練有監(jiān)督的ASR模型提取的特征與FBank特征作為聲紋識(shí)別輸入的結(jié)果可知(table 1),有監(jiān)督訓(xùn)練的ASR模型不能使聲紋識(shí)別任務(wù)受益。
2.? ?自監(jiān)督學(xué)習(xí)SSL 對(duì) SV 任務(wù)有什么好處?
答:由table 1和 table 2實(shí)驗(yàn)可知,自監(jiān)督模型HuBert和wav2vec2.0都好于Fbank,因此自監(jiān)督學(xué)習(xí)利于聲紋識(shí)別?。
3. SV?任務(wù)的最佳 SSL 設(shè)置是什么?
?答?:??剩余實(shí)驗(yàn)都是尋找自監(jiān)督學(xué)習(xí)模型影響聲紋識(shí)別的因素
? ?? ? ? ??a)?table 2主要對(duì)比訓(xùn)練自監(jiān)督學(xué)習(xí)模型的目標(biāo)函數(shù)對(duì)結(jié)果的影響,其結(jié)果顯示Bubert的pseudo?label?prediction loss 比?contrastive loss 和?MSE loss好。
? ? ? ???b)?自監(jiān)督模型HuBERT使用不同方法生成pseudo?label對(duì)結(jié)果的影響,不同的聚類(lèi)算法對(duì)最終聲紋?結(jié)果不同。
? ? ? ? c)?table 4對(duì)比數(shù)據(jù)規(guī)模大小和自監(jiān)督學(xué)習(xí)模型大小對(duì)聲紋任務(wù)的影響?。數(shù)據(jù)多和參數(shù)多效果也會(huì)?變好。
?? ? ? ? ??d )?圖2展示了自監(jiān)督模型每層輸出對(duì)聲紋?識(shí)別的影響。其中(a)顯示不做微調(diào)的自監(jiān)督模型淺層對(duì)聲紋識(shí)別較大。語(yǔ)音識(shí)別模型淺層關(guān)注speaker信息,深層關(guān)注語(yǔ)義內(nèi)容信息。?自監(jiān)督的模型相比監(jiān)督學(xué)習(xí)的模型,較深層也關(guān)注speaker信息,因此自監(jiān)督模型利于聲紋識(shí)別任務(wù);(b)更新聲紋模型的同時(shí)更新自監(jiān)督模型,可以使深層關(guān)注speaker?信息。?圖3展示無(wú)監(jiān)督模型對(duì)聲紋識(shí)別任務(wù)的loss?可視化。
??
?
總結(jié)
以上是生活随笔為你收集整理的声纹识别:自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 莴苣姑娘
- 下一篇: 索尼xz1c 日版融卡扩容经验分享(无需