WenetSpeech数据集的处理和使用
生活随笔
收集整理的這篇文章主要介紹了
WenetSpeech数据集的处理和使用
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
WenetSpeech數據集
10000+小時的普通話語音數據集,使用地址:PPASR
WenetSpeech數據集 包含了10000+小時的普通話語音數據集,所有數據均來自 YouTube 和 Podcast。采用光學字符識別(OCR)和自動語音識別(ASR)技術分別標記每個YouTube和Podcast錄音。為了提高語料庫的質量,WenetSpeech使用了一種新穎的端到端標簽錯誤檢測方法來進一步驗證和過濾數據。
- 所有數據分為 3 類,如下表所示:
| 數據分類 | 時長(小時) | 可信度 | 可用系統 |
|---|---|---|---|
| 強標簽 | 10005 | >=0.95 | 監督訓練 |
| 弱標簽 | 2478 | [0.6, 0.95] | 半監督或噪音訓練 |
| 無標簽 | 9952 | / | 無監督訓練或預訓練 |
| 總共 | 22435 | / | / |
- 領域、說話風格和場景將高標簽分為 10 組,如下表所示:
| 領域 | Youtube(小時) | Podcast(小時) | 全部(小時) |
|---|---|---|---|
| 有聲讀物 | 0 | 250.9 | 250.9 |
| 現場解說 | 112.6 | 135.7 | 248.3 |
| 紀錄片 | 386.7 | 90.5 | 477.2 |
| 戲劇 | 4338.2 | 0 | 4338.2 |
| 采訪 | 324.2 | 614 | 938.2 |
| 新聞 | 0 | 868 | 868 |
| 閱讀 | 0 | 1110.2 | 1110.2 |
| 討論 | 204 | 90.7 | 294.7 |
| 綜藝 | 603.3 | 224.5 | 827.8 |
| 其他 | 144 | 507.5 | 651.5 |
| 總共 | 6113 | 3892 | 10005 |
- 3個子集,即S,M并且L對不同的數據規模建設ASR系統
| 訓練數據 | 可信度 | 時長(小時) |
|---|---|---|
| L | [0.95, 1.0] | 10005 |
| M | 1.0 | 1000 |
| S | 1.0 | 100 |
- 評估測試數據
| 評估數據 | 時長(小時) | 來源 | 描述 |
|---|---|---|---|
| DEV | 20 | 互聯網 | 專為一些需要在訓練中設置交叉驗證的語音工具而設計 |
| TEST_NET | 23 | 互聯網 | 比賽測試 |
| TEST_MEETING | 15 | 會議 | 遠場、對話、自發和會議數據集 |
-
本教程介紹如何使用該數據集訓練語音識別模型,只是用強標簽的數據,主要分三步。下載并解壓WenetSpeech數據集,在官網 填寫表單之后,會收到郵件,執行郵件上面的三個命令就可以下載并解壓數據集了,注意這要500G的磁盤空間。
-
然后制作數據集,下載原始的數據是沒有裁剪的,我們需要根據JSON標注文件裁剪并標注音頻文件。在
tools目錄下執行create_wenetspeech_data.py程序就可以制作數據集了,注意此時需要3T的磁盤空間。--wenetspeech_json參數是指定WenetSpeech數據集的標注文件路徑,具體根據讀者下載的地址設置。
cd tools/
python create_wenetspeech_data.py --wenetspeech_json=/media/wenetspeech/WenetSpeech.json
- 最后創建訓練數據,跟普通使用一樣,在項目根目錄執行
create_data.py就能過生成訓練所需的數據列表,詞匯表和均值標準差文件。這一步結束后就可以訓練模型了,具體看訓練模型
python create_data.py
項目地址:https://github.com/yeyupiaoling/PPASR
總結
以上是生活随笔為你收集整理的WenetSpeech数据集的处理和使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MongoDB批量快速插入100万数据
- 下一篇: 苹果手机无互联网连接