當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

WenetSpeech数据集的处理和使用

發布時間：2023/12/1 综合教程 43 生活家

生活随笔收集整理的這篇文章主要介紹了 WenetSpeech数据集的处理和使用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

WenetSpeech數據集

10000+小時的普通話語音數據集，使用地址：PPASR

WenetSpeech數據集包含了10000+小時的普通話語音數據集，所有數據均來自 YouTube 和 Podcast。采用光學字符識別(OCR)和自動語音識別(ASR)技術分別標記每個YouTube和Podcast錄音。為了提高語料庫的質量，WenetSpeech使用了一種新穎的端到端標簽錯誤檢測方法來進一步驗證和過濾數據。

所有數據分為 3 類，如下表所示：

數據分類	時長（小時）	可信度	可用系統
強標簽	10005	>=0.95	監督訓練
弱標簽	2478	[0.6, 0.95]	半監督或噪音訓練
無標簽	9952	/	無監督訓練或預訓練
總共	22435	/	/

領域、說話風格和場景將高標簽分為 10 組，如下表所示：

領域	Youtube（小時）	Podcast（小時）	全部（小時）
有聲讀物	0	250.9	250.9
現場解說	112.6	135.7	248.3
紀錄片	386.7	90.5	477.2
戲劇	4338.2	0	4338.2
采訪	324.2	614	938.2
新聞	0	868	868
閱讀	0	1110.2	1110.2
討論	204	90.7	294.7
綜藝	603.3	224.5	827.8
其他	144	507.5	651.5
總共	6113	3892	10005

3個子集，即S，M并且L對不同的數據規模建設ASR系統

訓練數據	可信度	時長（小時）
L	[0.95, 1.0]	10005
M	1.0	1000
S	1.0	100

評估測試數據

評估數據	時長（小時）	來源	描述
DEV	20	互聯網	專為一些需要在訓練中設置交叉驗證的語音工具而設計
TEST_NET	23	互聯網	比賽測試
TEST_MEETING	15	會議	遠場、對話、自發和會議數據集

本教程介紹如何使用該數據集訓練語音識別模型，只是用強標簽的數據，主要分三步。下載并解壓WenetSpeech數據集，在官網填寫表單之后，會收到郵件，執行郵件上面的三個命令就可以下載并解壓數據集了，注意這要500G的磁盤空間。
然后制作數據集，下載原始的數據是沒有裁剪的，我們需要根據JSON標注文件裁剪并標注音頻文件。在tools目錄下執行create_wenetspeech_data.py程序就可以制作數據集了，注意此時需要3T的磁盤空間。--wenetspeech_json參數是指定WenetSpeech數據集的標注文件路徑，具體根據讀者下載的地址設置。

cd tools/
python create_wenetspeech_data.py --wenetspeech_json=/media/wenetspeech/WenetSpeech.json

最后創建訓練數據，跟普通使用一樣，在項目根目錄執行create_data.py就能過生成訓練所需的數據列表，詞匯表和均值標準差文件。這一步結束后就可以訓練模型了，具體看訓練模型

python create_data.py

項目地址：https://github.com/yeyupiaoling/PPASR

總結

以上是生活随笔為你收集整理的WenetSpeech数据集的处理和使用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： MongoDB批量快速插入100万数据
下一篇：苹果手机无互联网连接