李宏毅2022hw2
生活随笔
收集整理的這篇文章主要介紹了
李宏毅2022hw2
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
任務介紹:
數據預處理:從原始波形中提取MFCC特征(TAs已經做了!)
分類:使用預先提取的MFCC特征進行幀級音素分類
任務:多級分類
從語音中進行基于框架的音素預測
數據:
由于每一幀只包含25毫秒的語音,因此單個幀不可能代表一個完整的音素
通常,一個音素會跨越幾個幀
將相鄰的音素連接起來進行訓練
?每一段是39長度的向量。 將相鄰的音素連接起來進行訓練,然后會給出前后五段的數據,也就是我們有11*39 = 429 維度的一個特征,根據這個特征去做分類 。
libriphone/
-
train_split.txt (train metadata)
-
train_labels.txt (train labels)
-
test_split.txt (test metadata)
-
feat/ (pt文件,張量)
-
train/
-
test/
-
1.修改參數
2.修改網絡,增加歸一化和dropout
總結
以上是生活随笔為你收集整理的李宏毅2022hw2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (1.5.1.3)编程之美:一摞烙饼的排
- 下一篇: node.js 从入门到?