dynamo怎样由线生成体_语音生成效果评价不再逐句进行:谷歌提出长文本语音生成评价新系统...
選自googleblog,作者:Tom Kenter,機(jī)器之心編譯,參與:高璇。
自動(dòng)生成的語音無處不在,從駕駛中的人聲導(dǎo)航,到手機(jī)上的虛擬助手,還有家中的智能揚(yáng)聲器設(shè)備。雖然為了使生成語音更加逼真而進(jìn)行了大量研究與實(shí)驗(yàn),例如為低資源語言(low-resource language,LRL)生成語音以及使用 Tacotron 2 創(chuàng)建模仿人類的語音,但如何評(píng)價(jià)生成的語音呢?找出答案的最好方法是詢問那些能分辨出聲音是否「以假亂真」的專業(yè)人士。
在語音生成領(lǐng)域,受試者常被要求聽生成語音的樣本并對(duì)其進(jìn)行評(píng)分。然而截止目前,對(duì)生成語音效果的評(píng)價(jià)一直是基于單獨(dú)的語句。但人們往往更想知道某一段生成語音的效果,例如新聞報(bào)道中的段落或一段對(duì)話。這就有趣了,因?yàn)橛泻芏喾椒梢杂脕碓u(píng)價(jià)以自然語序呈現(xiàn)的句子,并且令人驚訝的是,這些不同的方法之間尚未進(jìn)行過嚴(yán)格的比較。這反過來又會(huì)阻礙依賴生成語音的產(chǎn)品的研究進(jìn)展。
為了應(yīng)對(duì)這一挑戰(zhàn),谷歌在 SSW10 上發(fā)表了名為《Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs》的論文。研究人員在論文中對(duì)比了評(píng)價(jià)多行文本生成語音的幾種方法。研究發(fā)現(xiàn),當(dāng)一個(gè)句子被評(píng)定為包含多個(gè)句子的長文本的一部分時(shí),音頻樣本呈現(xiàn)給評(píng)價(jià)者的方式會(huì)對(duì)評(píng)價(jià)結(jié)果產(chǎn)生影響。例如,當(dāng)句子單獨(dú)出現(xiàn)時(shí),人們給出的評(píng)級(jí)通常與他們?cè)谀承┣榫诚侣犕痪湓挄r(shí)所給出的評(píng)級(jí)大不相同(上下文不需要進(jìn)行評(píng)級(jí))。
論文地址:https://ai.google/research/pubs/pub48349
評(píng)價(jià)自動(dòng)生成的語音
確定語音信號(hào)質(zhì)量的通常做法是,讓幾個(gè)評(píng)價(jià)者對(duì)某一樣本給出 1 到 5 的評(píng)級(jí)。該樣本既可以是自動(dòng)生成的,也可以是自然語音(即真人大聲念出的句子)。對(duì)評(píng)價(jià)特定語音樣本的所有人員給出的分?jǐn)?shù)求平均值,然后得出 MOS。
截止目前,MOS 評(píng)級(jí)通常是逐句進(jìn)行的,即評(píng)價(jià)者在聽取獨(dú)立的句子后給出他們的意見。研究人員提出以三種不同的方式將語音樣本呈現(xiàn)給評(píng)價(jià)者——有上下文和無上下文——證明每種方法都會(huì)產(chǎn)生不同的結(jié)果。
- 第一種方法是單獨(dú)呈現(xiàn)句子,這是該領(lǐng)域通常采用的默認(rèn)方法;
- 另一種方法是為句子提供完整的上下文,即包括句子所屬的整個(gè)段落,并對(duì)整體進(jìn)行評(píng)級(jí);
- 最后一種方法是提供一個(gè)上下文激勵(lì)對(duì)。此時(shí)不提供完整的上下文,僅提供部分上下文,例如來自最初段落的前一句話。
有趣的是,即使在評(píng)價(jià)自然語音時(shí),這三種不同的語音呈現(xiàn)方法也會(huì)產(chǎn)生不同的結(jié)果。
具體結(jié)果如下圖所示,三種顏色分別代表使用三種不同方法評(píng)價(jià)自然語音樣本的 MOS 分?jǐn)?shù)。盡管接受評(píng)級(jí)的句子相同,但由于上下文的不同,相應(yīng)得分也有所不同。
新聞報(bào)道 MOS 結(jié)果來自新聞數(shù)據(jù)集中的自然語音。雖然差異不大,但不同條件下的差異還是很重要(系數(shù)α= 0.05 的雙尾 t 檢驗(yàn))。
從上圖可以看出,即使是錄制的真實(shí)人聲,評(píng)價(jià)者也很少給出最高分(5 分)。然而,這是在句子評(píng)價(jià)研究中會(huì)出現(xiàn)的典型結(jié)果,這可能與一種常見的行為模式有關(guān),即無論任務(wù)或設(shè)置怎樣,人們往往避免給出極端評(píng)價(jià)。
在評(píng)價(jià)生成語音時(shí),差異更明顯。
同一新聞報(bào)道數(shù)據(jù)集的生成語音 MOS 結(jié)果。除非另有說明,否則以上均為生成語音。
為了查看上下文的呈現(xiàn)方式是否對(duì)評(píng)價(jià)結(jié)果產(chǎn)生影響,研究人員嘗試了幾種不同的方法:在要評(píng)價(jià)的句子前添加一至兩個(gè)作為生成或真實(shí)語音的句子。當(dāng)添加上下文時(shí),分?jǐn)?shù)變得更高(上圖左側(cè)四個(gè)藍(lán)色條);若呈現(xiàn)的上下文是真實(shí)語音,則分?jǐn)?shù)下降(上圖最右側(cè)藍(lán)色條)。研究人員假設(shè)這與錨定效應(yīng)(anchoring effect)有關(guān)——如果上下文非常好(真實(shí)語音),則生成語音相比之下就不太自然。
預(yù)測(cè)段落得分
當(dāng)播放完整的生成語音段落(上圖黃色條)時(shí),會(huì)被認(rèn)為較其他語音設(shè)定不自然。研究人員最初假設(shè)存在一個(gè)最薄弱的關(guān)聯(lián)論證——評(píng)級(jí)結(jié)果可能與該段中最差的句子保持一致。如果是這種情況,應(yīng)該很容易通過參照其中單個(gè)句子的評(píng)級(jí)來預(yù)測(cè)整個(gè)段落的評(píng)級(jí),也許只采用最小值即可得到段落評(píng)級(jí)。然而事實(shí)證明,這種方法行不通。
最薄弱關(guān)聯(lián)假設(shè)的失敗可能是因?yàn)槭褂眠@種簡單方法難以梳理更細(xì)節(jié)的因素。為了驗(yàn)證這一點(diǎn),研究人員還訓(xùn)練了機(jī)器學(xué)習(xí)算法來基于單個(gè)句子預(yù)測(cè)段落得分。但是,這種方法也無法成功預(yù)測(cè)段落得分。
結(jié)論
當(dāng)涉及多個(gè)句子時(shí),生成語音的評(píng)價(jià)并不容易。單獨(dú)評(píng)定句子的傳統(tǒng)方法并不能給出全面的解讀,并且在提供上下文的情況下評(píng)價(jià)者應(yīng)注意錨定效應(yīng)。因此,對(duì)完整段落進(jìn)行評(píng)價(jià)可能是最保守的方法。研究人員希望他們的研究結(jié)果有助于推進(jìn)長篇語音生成領(lǐng)域未來的研究,例如有聲讀物和會(huì)話智能體。
原文鏈接:https://ai.googleblog.com/2019/09/assessing-quality-of-long-form.html
總結(jié)
以上是生活随笔為你收集整理的dynamo怎样由线生成体_语音生成效果评价不再逐句进行:谷歌提出长文本语音生成评价新系统...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ASP.NET 3.5 Extensio
- 下一篇: 古文韵味