當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICASSP 2022 语音合成和语音识别简报

發(fā)布時間：2024/1/8 编程问答 54 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICASSP 2022 语音合成和语音识别简报小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

語音合成領域統(tǒng)計列表請訪問http://yqli.tech/page/tts_paper.html，語音識別領域論文統(tǒng)計請訪問http://yqli.tech/page/asr_paper.html。開源語音數(shù)據(jù)查詢 http://yqli.tech/page/data.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。讀者有什么建議可以直接給我發(fā)消息，我將不斷修改該統(tǒng)計。如有轉載，請注明出處。歡迎關注微信公眾號：低調奮進。

ICASSP?2022有1906篇文章，ICASSP?2021有1757篇文章，文章數(shù)量較多，本文的統(tǒng)計不保證完全正確，讀者可參考性?閱讀。

ICASSP 2022?文章鏈接

https://docs.google.com/spreadsheets/d/1YgWCNhQTWlmx7HGq3W74OuPGVN-ThTRC92TIiyoNd8U/edit?usp=sharing

ICASSP 2021?文章鏈接

https://docs.google.com/spreadsheets/d/1hUV7dUoI4HMkhrcsU8O4rPUscrXfy8AXHHQ9GP0CfjU/edit?usp=sharing

一語音合成篇

以下表一給出具體分類說明。圖一為icassp 2021和2022文章總數(shù)，2021有63篇文章，2022有?89篇文章。表二和圖二為icassp 2021和2022語音合成每個研究方向的文章分布狀況以及對比，由此可知聲學模型、聲音轉換、情感合成系統(tǒng)、聲碼器和歌唱等占據(jù)絕對的?優(yōu)勢。

表一? 語音合成分類說明

分類	說明
前端	多音字，韻律，g2p等等。
聲學模型	語言特征轉聲學特征，attention工作，多說話人以及雙重學習
聲碼器	波形生成
個性化	少數(shù)據(jù)，臟數(shù)據(jù)應用等自適應
多語言	多語言模型
歌唱合成	歌唱和音樂合成
情感	風格和情感
多模態(tài)	主要搜集talking head文章
聲音轉換	基于GAN方案和特征解耦方案
S2S	?speech-to-speech
其它	基于EEG合成，開源數(shù)據(jù)，MOS評測以及語音合成的應用

圖1?語音合成論文總數(shù)

表二??語音合成論文分布情況

	icassp 2021	icassp?2022
前端	3	6
聲學模型	18	18
聲碼器	6	6
個性化	3	4
多語言	2	4
歌唱合成	4	6
情感風格	6	11
多模態(tài)	2	3
聲音轉換	14	23
其它	5	8
total	63	89

圖2?語音合成論文分布情況餅狀圖和柱狀圖

ICASSP 2022?文章鏈接

https://docs.google.com/spreadsheets/d/1YgWCNhQTWlmx7HGq3W74OuPGVN-ThTRC92TIiyoNd8U/edit?usp=sharing

二?語音識別篇

語音識別的文章分類參照表三說明。ICASSP 2022的語音識別文章有146篇，具體的文章分布參見表4和圖3的餅狀圖和柱狀圖?。（去年沒統(tǒng)計識別，所以不做對比）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表三? 語音識別分類說明

分類	說明
general	包括傳統(tǒng)、混合語音識別，以及對asr的優(yōu)化
ctc	ctc優(yōu)化
rnn-t	rnn-t的優(yōu)化
aed	aed優(yōu)化
dataset	開源數(shù)據(jù)庫
data aug	數(shù)據(jù)增廣
lm	語言模型研究
multilingual	多語音系統(tǒng)以及code-switch
personal	少數(shù)據(jù)量自適應以及個性化ASR
rescoring	多種模型聯(lián)合打分
unsupervised	無監(jiān)督或者自監(jiān)督學習
accent?,dialect	口音和方言
other	其它方向研究，包括系統(tǒng)評價標準等等
robust	魯棒性
speaker diarization	speaker diarization
multichannel	多通道
speech translation	語音翻譯
multi-modal	多模態(tài)

? ? ? ? ? ? ? ? ? ? ? ? ?表4?語音識別研究方向分布情況

general	28
ctc	4
rnn-t	6
aed	4
dataset	3
data augmentation	3
lm	4
multilingual	6
personal \| adaptation	9
rescoring	6
unsupervised	18
accent	1
multichannel	4
robust	4
other	29
speaker diarization	9
speech translation	2
multimodal	6
total	146

? ? ? ? ? ???? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ????圖3?語音識別研究方向餅狀圖和柱狀圖

? ? ??

ICASSP 2022?文章鏈接

https://docs.google.com/spreadsheets/d/1YgWCNhQTWlmx7HGq3W74OuPGVN-ThTRC92TIiyoNd8U/edit?usp=sharing

總結

以上是生活随笔為你收集整理的ICASSP 2022 语音合成和语音识别简报的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：弘辽科技：拼多多里有top是什么意思？如
下一篇：【个人随笔】留下第一个脚印