當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2022年1月语音合成(TTS)和语音识别(ASR)论文月报

發(fā)布時間：2024/1/8 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 2022年1月语音合成(TTS)和语音识别(ASR)论文月报小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文統(tǒng)計每月更新一次，主要跟蹤語音合成和語音識別的發(fā)展?fàn)顩r(很多文章都是在會議后才發(fā)出，但不影響統(tǒng)計。統(tǒng)計過程難免存在疏漏，因此統(tǒng)計結(jié)果僅供參考。所有文章語音合成領(lǐng)域統(tǒng)計列表請訪問http://yqli.tech/page/tts_paper.html，語音識別領(lǐng)域論文統(tǒng)計請訪問http://yqli.tech/page/asr_paper.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。讀者有什么建議可以直接給我發(fā)消息，我將不斷修改該統(tǒng)計。如有轉(zhuǎn)載，請注明出處。歡迎關(guān)注微信公眾號：低調(diào)奮進(jìn)。

(2022年第一個月就寫簡單些）

一語音合成篇

表一給出具體分類說明。2022年1月的語音合成相關(guān)的文章有27篇。從表二的具體方向文章數(shù)量可知，聲學(xué)模型、歌唱和音樂合成、聲音轉(zhuǎn)化和多模態(tài)的文章較多，其中歌唱合成在一月份開源了一份高質(zhì)量的中文歌唱數(shù)據(jù)集，大家可以申請下載https://wenet.org.cn/opencpop/download/?。具體的文章詳細(xì)鏈接可參看文檔https://docs.google.com/spreadsheets/d/11YYOg6i6UXw19_g1JRaXGNhvt1zhG24RgOXCzZlqZGE/edit?usp=sharing

表一? 語音合成分類說明

分類	說明
前端	多音字，韻律，g2p等等。
聲學(xué)模型	語言特征轉(zhuǎn)聲學(xué)特征，attention工作，多說話人以及雙重學(xué)習(xí)
聲碼器	波形生成
個性化	少數(shù)據(jù)，臟數(shù)據(jù)應(yīng)用等自適應(yīng)
多語言	多語言模型
歌唱合成	歌唱和音樂合成
情感	風(fēng)格和情感
多模態(tài)	主要搜集talking head文章
聲音轉(zhuǎn)換	基于GAN方案和特征解耦方案
S2S	?speech-to-speech
其它	基于EEG合成，開源數(shù)據(jù)，MOS評測以及語音合成的應(yīng)用?

表二語音合成文章情況表（單位：篇）

	1月
前端	2
聲學(xué)模型	4
聲碼器	1
個性化	1
多語言	1
歌唱合成	5
情感風(fēng)格	2
多模態(tài)	4
聲音轉(zhuǎn)換	4
s2s	1
其它	2

語音合成的文章列表請訪問http://yqli.tech/page/tts_paper.html

2022.01月份的文章

二?語音識別篇

語音識別的文章分類參照表三說明。表四為每個方向的具體文章數(shù)據(jù)量和本月的文章總量，其中1月份ASR相關(guān)的文章有35篇

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表三? 語音識別分類說明

分類	說明
general	包括傳統(tǒng)、混合語音識別，以及對asr的優(yōu)化
ctc	ctc優(yōu)化
rnn-t	rnn-t的優(yōu)化
aed	aed優(yōu)化
dataset	開源數(shù)據(jù)庫
data aug	數(shù)據(jù)增廣
lm	語言模型研究
multilingual	多語音系統(tǒng)以及code-switch
personal	少數(shù)據(jù)量以及個性化ASR
rescoring	多種模型聯(lián)合打分
unsupervised	無監(jiān)督或者自監(jiān)督學(xué)習(xí)
accent?,dialect	口音和方言
other	其它方向研究，包括系統(tǒng)評價標(biāo)準(zhǔn)等等
robust	魯棒性
multichannel	多通道

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?表四? 語音識別文章數(shù)量統(tǒng)計（單位：篇）

	1月
general	12
ctc	1
rnn-t	3
aed	1
dataset	3
data augmentation	1
lm	2
multilingual	2
personal	0
rescoring	1
unsupervised	2
accent	1
multichannel	0
robust	0
other	6

語音識別的文章列表請訪問http://yqli.tech/page/asr_paper.html

2022.01月份語音識別具體文章

總結(jié)

以上是生活随笔為你收集整理的2022年1月语音合成(TTS)和语音识别(ASR)论文月报的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：怎么去除新装修房子的甲醛
下一篇：如何在Ubuntu 16.04上使用Pr