當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

探秘身份认证利器——声纹识别！

發(fā)布時(shí)間：2025/3/15 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了探秘身份认证利器——声纹识别！小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在這個(gè)移動(dòng)互聯(lián)網(wǎng)大行其道的年代，人們不用互相見面就可以完成很多事情，比如社交、購物、網(wǎng)上開店、金融交易等等，但是如何驗(yàn)證身份變成了人和人在不見面的情況下最難的事情。傳統(tǒng)的解決方案就是密碼或者秘鑰，它需要你記住或者存起來，容易忘又容易丟，還容易被黑客利用各種手段攻擊。有多少人使用“123456“這種簡單密碼在網(wǎng)絡(luò)上行走，他們就是黑客們最喜歡的目標(biāo)；你家的路由器是不是還在用”admin”這種默認(rèn)密碼，這就是物聯(lián)網(wǎng)領(lǐng)域中安全最薄弱的環(huán)節(jié)。不過，好在我們每個(gè)人身上都長滿了“活密碼”，指紋、臉、聲音、眼睛等等，都是人和人之間相互區(qū)分的獨(dú)一無二的標(biāo)識(shí)，我們稱之為“生物特征”。聲音就是這種一種可以反映人身份的生物特征，參考“指紋”的命名方式，我們可以叫它“聲紋”。

各種生物特征比較

聲紋是指人類語音中攜帶言語信息的聲波頻譜，它同指紋一樣，具備獨(dú)特的生物學(xué)特征，具有身份識(shí)別的作用，不僅具有特定性，而且具有相對(duì)的穩(wěn)定性。聲音信號(hào)是一維連續(xù)信號(hào)，將它進(jìn)行離散化后，就可以得到我們現(xiàn)在常見的計(jì)算機(jī)可以處理的聲音信號(hào)。

計(jì)算機(jī)可以處理的離散聲音信號(hào)

聲紋識(shí)別（也稱說話人識(shí)別）技術(shù)也如同現(xiàn)在在智能手機(jī)上應(yīng)用十分廣泛的指紋識(shí)別技術(shù)一樣，從說話人發(fā)出的語音信號(hào)中提取語音特征，并據(jù)此對(duì)說話人進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù)。每個(gè)人都具有獨(dú)一無二的聲紋，這是由我們的發(fā)聲器官在成長過程中逐漸形成的特征。無論別人對(duì)我們的說話模仿的多么相似，聲紋其實(shí)都是具有顯著區(qū)別的。

現(xiàn)實(shí)生活中的“未見其人，先聞其聲”就是人類通過聲音去識(shí)別另一個(gè)人身份的真實(shí)描述，你媽甚至通過你電話里的一個(gè)“喂”字就知道是你，而不是隔壁老王家的兒子打的電話，這是我們?nèi)祟惤?jīng)過長期進(jìn)化所獲得到的超常的能力。雖然目前計(jì)算機(jī)還做不到通過一個(gè)字就判斷出人的身份，但是利用大量的訓(xùn)練語音數(shù)據(jù)，可以學(xué)出一個(gè)“智商”還不錯(cuò)的“聲紋”大腦，它在你說出8-10個(gè)字的情況下可以判斷出是不是你在說話，或者在你說1分鐘以上的話后，就可以準(zhǔn)確地判斷出你是否是給定的1000人中的一員。這里面其實(shí)包含了大部分生物識(shí)別系統(tǒng)都適用的重要概念：1:1 和 1:N，同時(shí)也包含了只有在聲紋識(shí)別技術(shù)中存在的獨(dú)特的概念：內(nèi)容相關(guān)和內(nèi)容無關(guān)。

工作原理

對(duì)于一個(gè)生物識(shí)別系統(tǒng)而言，如果它的工作模式是需要你提供自己的身份（賬號(hào)）以及生物特征，然后跟之前保存好的你本人的生物特征進(jìn)行比對(duì)，確認(rèn)兩者是否一致（即你是不是你），那么它是一個(gè)1:1的識(shí)別系統(tǒng)（也可以叫說話人確認(rèn)，Speaker Verification）；如果它只需要你提供生物特征，然后從后臺(tái)多條生物特征記錄中搜尋出哪個(gè)是你（即你是誰），或者哪個(gè)都不是你，那么它是一個(gè)1:N的識(shí)別系統(tǒng)（也可以叫辨認(rèn)，Speaker Identification），見圖1。技術(shù)上，簡單的聲紋識(shí)別的系統(tǒng)工作流程圖來見圖2。

圖1 說話人確認(rèn)和說話人辨認(rèn)

圖2 聲紋識(shí)別工作流程圖

對(duì)于聲紋識(shí)別系統(tǒng)而言，如果從用戶所說語音內(nèi)容的角度出發(fā)，則可以分為內(nèi)容相關(guān)和內(nèi)容無關(guān)兩大類技術(shù)。顧名思義，“內(nèi)容相關(guān)”就是指系統(tǒng)假定用戶只說系統(tǒng)提示內(nèi)容或者小范圍內(nèi)允許的內(nèi)容，而“內(nèi)容無關(guān)”則并不限定用戶所說內(nèi)容。前者只需要識(shí)別系統(tǒng)能夠在較小的范圍內(nèi)處理不同用戶之間的聲音特性的差異就可以，由于內(nèi)容大致類似，只需要考慮聲音本身的差異，難度相對(duì)較小；而后者由于不限定內(nèi)容，識(shí)別系統(tǒng)不僅需要考慮用戶聲音之間的特定差異，還需要處理內(nèi)容不同而引起的語音差異，難度較大。

目前有一種介于兩者之間的技術(shù)，可以稱之為“有限內(nèi)容相關(guān)”，系統(tǒng)會(huì)隨機(jī)搭配一些數(shù)字或符號(hào)，用戶需正確念出對(duì)應(yīng)的內(nèi)容才可識(shí)別聲紋，這種隨機(jī)性的引入使得文本相關(guān)識(shí)別中每一次采集到的聲紋都有內(nèi)容時(shí)序上的差異，這種特性正好與互聯(lián)網(wǎng)上廣泛存在的短隨機(jī)數(shù)字串（如數(shù)字驗(yàn)證碼）相契合，可以用來校驗(yàn)身份，或者和其他人臉等生物特征結(jié)合起來組成多因子認(rèn)證手段。

具體到聲紋識(shí)別算法的技術(shù)細(xì)節(jié)，在特征層面，經(jīng)典的梅爾倒譜系數(shù)MFCC，感知線性預(yù)測系數(shù)PLP、深度特征Deep?Feature、以及能量規(guī)整譜系數(shù)PNCC?等，都可以作為優(yōu)秀的聲學(xué)特征用于模型學(xué)習(xí)的輸入，但使用最多的還是MFCC特征，也可以將多種特征在特征層面或者模型層面進(jìn)行組合使用。在機(jī)器學(xué)習(xí)模型層面，目前還是N.Dehak在2009年提出的iVector框架一統(tǒng)天下，雖然在深度學(xué)習(xí)大紅大紫的今天，聲紋領(lǐng)域也難免被影響，在傳統(tǒng)的UBM-iVector框架下衍化出了DNN-iVector，也僅僅是使用DNN（或者BN）提取特征代替MFCC或者作為MFCC的補(bǔ)充，后端學(xué)習(xí)框架依然是iVector。

圖3示出了一個(gè)完整的聲紋識(shí)別系統(tǒng)的訓(xùn)練和測試流程，可以看到在其中iVector模型的訓(xùn)練以及隨后的信道補(bǔ)償模型訓(xùn)練是最重要的環(huán)節(jié)。在特征階段，可以使用BottleNeck特征取代或者補(bǔ)充MFCC特征，輸入到iVector框架中訓(xùn)練模型，如圖4所示。

圖3 聲紋識(shí)別算法的完整訓(xùn)練和識(shí)別框架

圖4 使用BottleNeck特征訓(xùn)練iVector模型

在系統(tǒng)層面，不同的特征及模型，可以從不同的維度刻畫說話人的聲音特征，加上有效的分?jǐn)?shù)規(guī)整，將各子系統(tǒng)融合能有效的提高系統(tǒng)的整體性能。

在此次的阿里聚安全攻防挑戰(zhàn)賽，參賽選手便可以真實(shí)的感受這一過程。由阿里巴巴集團(tuán)安全部主辦的“阿里聚安全攻防挑戰(zhàn)賽”即日起在天池平臺(tái)開始報(bào)名。據(jù)了解此類比賽已成功舉辦過兩屆，并逐漸成為安全行業(yè)經(jīng)典賽事品牌，主要是讓參賽選手真實(shí)的挑戰(zhàn)阿里巴巴移動(dòng)安全和業(yè)務(wù)安全的防御。

本屆挑戰(zhàn)賽的最大亮點(diǎn)之一就是聲紋身份驗(yàn)證攻防。參賽者可以嘗試用聲音攻擊一套聲紋驗(yàn)證系統(tǒng)，通過設(shè)計(jì)攻擊用的音頻騙過聲紋驗(yàn)證系統(tǒng)，讓系統(tǒng)驗(yàn)證成功。

賽事官方網(wǎng)址：https://tianchi.shuju.aliyun.com/mini/aliJuActivity.htm

作者：王炎@阿里聚安全，更多安全類技術(shù)文章，請?jiān)L問阿里聚安全博客

總結(jié)

以上是生活随笔為你收集整理的探秘身份认证利器——声纹识别！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：基于机器学习的web异常检测
下一篇：科普 | 你必须了解的漏洞利用缓解及对抗