當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音识别(ASR)论文优选：性能测试Wav2Vec2.0 on the Edge: Performance Evaluation

發布時間：2024/1/8 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别(ASR)论文优选：性能测试Wav2Vec2.0 on the Edge: Performance Evaluation 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明：平時看些文章做些筆記分享出來，文章中難免存在錯誤的地方，還望大家海涵。搜集一些資料，方便查閱學習：http://yqli.tech/page/speech.html。語音合成領域論文列表請訪問http://yqli.tech/page/tts_paper.html，語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有轉載，請注明出處。歡迎關注微信公眾號：低調奮進。

Wav2Vec2.0 on the Edge: Performance Evaluation

本文為Meta Inc在2022.02.12更新的文章，主要進行wav2vec2.0在邊緣設備上的性能測試，具體的文章鏈接

https://arxiv.org/pdf/2202.05993.pdf

（本文主要是實驗結果分享，我給總結成實驗報告形式，結果僅供參考）

1?實驗背景和目的

?Wav2Vec2.0?是通過無監督學習Self-supervised learning對音頻進行表征學習，其學習的表征信息供下游的語音識別等任務使用，如圖1所示。過往的研究還沒有對Wav2Vec2.0在邊緣設備上進行性能測試，因此本文主要分享該實驗成果。

2??實驗設置

本文實驗的整套方案是在PyTorch生態上進行，其量化等操作都是其生態api。該實驗的模型準備如圖2所示，圖3和圖4展示測試流程。實驗數據為LibriSpeech，實驗使用的lm為KenLM。實驗設備Raspberry Pi 的配置如table 1所示。實驗的指標包括

accuracy(WER), latency(RTF) and efficiency(CPU, memory and power consumption)。

3?實驗結果

首先看一下語音識別的WER指標如table 2所示，有了語言模型，WER 至少比沒有語言模型的 WER 好 30 %。beam size?100 至少有～3 %?的改進。使用量化語言模型WER 比不使用語言模型的好～25?%?。

接下來看一下RTF，核數越多rtf越小，但3核和4核差別不大?，都勉強實時。圖5到圖8展示了能量開銷，系統穩態為～ 3.1W，則每增加一核開銷～ 1.1W, ～ 1.7W, ～ 2.3W and ～ 2.9W??。圖9和圖10對比量化和?非量化模型的能源開銷。圖11和圖12為內存開銷和cpu占用情況，可以看到使用語言模型的內存占用增加?較大。

4?總結

本文評估在邊緣設備樹莓派上的?Wav2Vec?模型推理性能，其RTF勉強達到實時。?通過使用語言模型，模型的準確率提高了～30%，但增加了約 200%?內存成本。?通過使用量化語言模型，內存占用可以大大減少。?模型量化比未量化模型的能源開銷低約 27%。?

總結

以上是生活随笔為你收集整理的语音识别(ASR)论文优选：性能测试Wav2Vec2.0 on the Edge: Performance Evaluation的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：处理ArchLinux上各软件屏幕卡顿与
下一篇： SpringMVC中的拦截器介绍