Chapter2-2_Voice Conversion(CycleGAN and StarGAN)
文章目錄
- 1 內(nèi)容簡(jiǎn)述
- 2 CycleGAN
- 3 StarGAN
本文為李弘毅老師【Voice Conversion - CycleGAN and StarGAN】的課程筆記,課程視頻youtube地址,點(diǎn)這里👈(需翻墻)。
下文中用到的圖片均來自于李宏毅老師的PPT,若有侵權(quán),必定刪除。
文章索引:
上篇 - 2-1 Feature Disentangle
下篇 - 3-1 Deep Clustering, PIT
總目錄
1 內(nèi)容簡(jiǎn)述
上一篇主要講了我們?cè)跊]有多個(gè)說話人說同一句話這樣的數(shù)據(jù)集的情況下,用feature disentangle來做voice conversion。這篇來講一下另一種direct transformation,也就只直接轉(zhuǎn)換的意思,不用像上一篇那樣要考慮content和speaker。而用到的方法就是圖像中的CycleGAN和StarGAN。
2 CycleGAN
假設(shè)我們現(xiàn)在有一堆李老師的音頻,又有一堆新垣結(jié)衣的音頻。我們希望李老師在給我們上課的時(shí)候,聽到的是新垣結(jié)衣的聲音。于是,我們就需要一個(gè)GX→YG_{X \rightarrow Y}GX→Y?來輸入李老師的聲音,吐出新垣結(jié)衣的聲音。然還需要一個(gè)DYD_YDY?來判斷輸出的聲音是不是新垣結(jié)衣說的。但是,這樣,我們并無法保證GX→YG_{X \rightarrow Y}GX→Y?出來的聲音的內(nèi)容是保持一致的,也許所有的XXX進(jìn)來,都變成了同一個(gè)YYY,這樣也可以騙過DYD_YDY?。
所以,我們需要cycle。
所謂的cycle就是說,我們現(xiàn)在有四個(gè)網(wǎng)絡(luò)GX→YG_{X \rightarrow Y}GX→Y?,GY→XG_{Y \rightarrow X}GY→X?,DXD_XDX?和DYD_YDY?,然后把speaker X說的話塞進(jìn)GX→YG_{X \rightarrow Y}GX→Y?之后,它會(huì)吐出一個(gè)Y^\hat{Y}Y^,我們會(huì)把$Y^\hat{Y}Y^塞進(jìn)DYD_YDY?中,企圖騙過DYD_YDY?,讓DYD_YDY?認(rèn)為這個(gè)是真的YYY。同時(shí),我們也會(huì)把Y^\hat{Y}Y^塞進(jìn)GY→XG_{Y \rightarrow X}GY→X?當(dāng)中,輸出X^\hat{X}X^,希望XXX和X^\hat{X}X^越接近越好。這就是下圖中上半部分的過程,下班過程也是如是,這里不贅述了。
這里還有一個(gè)訓(xùn)練時(shí)的技巧就是,我們也會(huì)把YYY塞進(jìn)GX→YG_{X \rightarrow Y}GX→Y?當(dāng)中,希望它吐出的Y^\hat{Y}Y^和YYY是一致的。
3 StarGAN
通過上文的敘述不難推測(cè)出,CycleGAN只能把X的聲音轉(zhuǎn)成Y的聲音,或者把Y的聲音轉(zhuǎn)成X的聲音,如果我們要有一個(gè)Z的話,這個(gè)方法就不靈了。理論上來說,如果有nnn個(gè)speaker的話,就需要n(n?1)n(n-1)n(n?1)個(gè)generator。那這種方法顯然在實(shí)際場(chǎng)景中是不適用的。為了解決這個(gè)問題,就需要StarGAN。
StarGAN是CycleGAN的進(jìn)階版。如下圖所示,StarGAN的generator(G)和Discriminator(D)都會(huì)多一個(gè)代表著是哪個(gè)speaker的輸入。這個(gè)speaker的輸入可以認(rèn)為和feature disentangle中的speaker encoder的輸出是一致的。
然后整個(gè)StarGAN的框架如下圖的下半部分所示,上半部分是CycleGAN,放在一起方便做一個(gè)直觀的比較。可以看出,本質(zhì)上就是多了一個(gè)表示speaker信息的輸入而已,但卻一下子可以轉(zhuǎn)換成任意一個(gè)speaker的聲音了。
總結(jié)
以上是生活随笔為你收集整理的Chapter2-2_Voice Conversion(CycleGAN and StarGAN)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机智的ensemble
- 下一篇: openpyxl 读写 excel