ICASSP 2022 语音合成和语音识别简报
語音合成領域統(tǒng)計列表請訪問http://yqli.tech/page/tts_paper.html,語音識別領域論文統(tǒng)計請訪問http://yqli.tech/page/asr_paper.html。開源語音數(shù)據(jù)查詢 http://yqli.tech/page/data.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。讀者有什么建議可以直接給我發(fā)消息,我將不斷修改該統(tǒng)計。如有轉載,請注明出處。歡迎關注微信公眾號:低調奮進。
ICASSP?2022有1906篇文章,ICASSP?2021有1757篇文章,文章數(shù)量較多,本文的統(tǒng)計不保證完全正確,讀者可參考性?閱讀。
ICASSP 2022?文章鏈接
https://docs.google.com/spreadsheets/d/1YgWCNhQTWlmx7HGq3W74OuPGVN-ThTRC92TIiyoNd8U/edit?usp=sharing
ICASSP 2021?文章鏈接
https://docs.google.com/spreadsheets/d/1hUV7dUoI4HMkhrcsU8O4rPUscrXfy8AXHHQ9GP0CfjU/edit?usp=sharing
一 語音合成篇
以下表一給出具體分類說明。圖一為icassp 2021和2022文章總數(shù),2021有63篇文章,2022有?89篇文章。表二和圖二為icassp 2021和2022語音合成每個研究方向的文章分布狀況以及對比,由此可知聲學模型、聲音轉換、情感合成系統(tǒng)、聲碼器和歌唱等占據(jù)絕對的?優(yōu)勢。
表一? 語音合成分類說明
| 分類 | 說明 |
| 前端 | 多音字,韻律,g2p等等。 |
| 聲學模型 | 語言特征轉聲學特征,attention工作,多說話人以及雙重學習 |
| 聲碼器 | 波形生成 |
| 個性化 | 少數(shù)據(jù),臟數(shù)據(jù)應用等自適應 |
| 多語言 | 多語言模型 |
| 歌唱合成 | 歌唱和音樂合成 |
| 情感 | 風格和情感 |
| 多模態(tài) | 主要搜集talking head文章 |
| 聲音轉換 | 基于GAN方案和特征解耦方案 |
| S2S | ?speech-to-speech |
| 其它 | 基于EEG合成,開源數(shù)據(jù),MOS評測以及語音合成的應用 |
圖1?語音合成論文總數(shù)
表二??語音合成論文分布情況
| icassp 2021 | icassp?2022 | |
| 前端 | 3 | 6 |
| 聲學模型 | 18 | 18 |
| 聲碼器 | 6 | 6 |
| 個性化 | 3 | 4 |
| 多語言 | 2 | 4 |
| 歌唱合成 | 4 | 6 |
| 情感風格 | 6 | 11 |
| 多模態(tài) | 2 | 3 |
| 聲音轉換 | 14 | 23 |
| 其它 | 5 | 8 |
| total | 63 | 89 |
圖2?語音合成論文分布情況餅狀圖和柱狀圖
ICASSP 2022?文章鏈接
https://docs.google.com/spreadsheets/d/1YgWCNhQTWlmx7HGq3W74OuPGVN-ThTRC92TIiyoNd8U/edit?usp=sharing
二?語音識別篇
語音識別的文章分類參照表三說明。ICASSP 2022的語音識別文章有146篇,具體的文章分布參見表4和圖3的餅狀圖和柱狀圖?。(去年沒統(tǒng)計識別,所以不做對比)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表三? 語音識別分類說明
| 分類 | 說明 |
| general | 包括傳統(tǒng)、混合語音識別,以及對asr的優(yōu)化 |
| ctc | ctc優(yōu)化 |
| rnn-t | rnn-t的優(yōu)化 |
| aed | aed優(yōu)化 |
| dataset | 開源數(shù)據(jù)庫 |
| data aug | 數(shù)據(jù)增廣 |
| lm | 語言模型研究 |
| multilingual | 多語音系統(tǒng)以及code-switch |
| personal | 少數(shù)據(jù)量自適應以及個性化ASR |
| rescoring | 多種模型聯(lián)合打分 |
| unsupervised | 無監(jiān)督或者自監(jiān)督學習 |
| accent?,dialect | 口音和方言 |
| other | 其它方向研究,包括系統(tǒng)評價標準等等 |
| robust | 魯棒性 |
| speaker diarization | speaker diarization |
| multichannel | 多通道 |
| speech translation | 語音翻譯 |
| multi-modal | 多模態(tài) |
? ? ? ? ? ? ? ? ? ? ? ? ?表4?語音識別研究方向分布情況
| general | 28 |
| ctc | 4 |
| rnn-t | 6 |
| aed | 4 |
| dataset | 3 |
| data augmentation | 3 |
| lm | 4 |
| multilingual | 6 |
| personal | adaptation | 9 |
| rescoring | 6 |
| unsupervised | 18 |
| accent | 1 |
| multichannel | 4 |
| robust | 4 |
| other | 29 |
| speaker diarization | 9 |
| speech translation | 2 |
| multimodal | 6 |
| total | 146 |
? ? ? ? ? ???? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ????圖3?語音識別研究方向餅狀圖和柱狀圖
? ? ??
ICASSP 2022?文章鏈接
https://docs.google.com/spreadsheets/d/1YgWCNhQTWlmx7HGq3W74OuPGVN-ThTRC92TIiyoNd8U/edit?usp=sharing
?
總結
以上是生活随笔為你收集整理的ICASSP 2022 语音合成和语音识别简报的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 弘辽科技:拼多多里有top是什么意思?如
- 下一篇: 【个人随笔】留下第一个脚印