语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation
聲明:平時看些文章做些筆記分享出來,文章中難免存在錯誤的地方,還望大家海涵。搜集一些資料,方便查閱學習:http://yqli.tech/page/speech.html。語音合成領域論文列表請訪問http://yqli.tech/page/tts_paper.html,語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有轉載,請注明出處。歡迎關注微信公眾號:低調奮進。
Wav2Vec2.0 on the Edge: Performance Evaluation
本文為Meta Inc在2022.02.12更新的文章,主要進行wav2vec2.0在邊緣設備上的性能測試,具體的文章鏈接
https://arxiv.org/pdf/2202.05993.pdf
(本文主要是實驗結果分享,我給總結成實驗報告形式,結果僅供參考)
1?實驗背景和目的
?Wav2Vec2.0?是通過無監督學習Self-supervised learning對音頻進行表征學習,其學習的表征信息供下游的語音識別等任務使用,如圖1所示。過往的研究還沒有對Wav2Vec2.0在邊緣設備上進行性能測試,因此本文主要分享該實驗成果。
2??實驗設置
本文實驗的整套方案是在PyTorch生態上進行,其量化等操作都是其生態api。該實驗的模型準備如圖2所示,圖3和圖4展示測試流程。實驗數據為LibriSpeech,實驗使用的lm為KenLM。實驗設備Raspberry Pi 的配置如table 1所示。實驗的指標包括
accuracy(WER), latency(RTF) and efficiency(CPU, memory and power consumption)。
3?實驗結果
首先看一下語音識別的WER指標如table 2所示,有了語言模型,WER 至少比沒有語言模型的 WER 好 30 %。beam size?100 至少有 ~3 %?的改進。使用量化語言模型WER 比不使用語言模型的好 ~25?%?。
接下來看一下RTF,核數越多rtf越小,但3核和4核差別不大?,都勉強實時。圖5到圖8展示了能量開銷,系統穩態為~ 3.1W,則每增加一核開銷~ 1.1W, ~ 1.7W, ~ 2.3W and ~ 2.9W??。圖9和圖10對比量化和?非量化模型的能源開銷。圖11和圖12為內存開銷和cpu占用情況,可以看到使用語言模型的內存占用增加?較大。
4?總結
本文評估在邊緣設備樹莓派上的?Wav2Vec?模型推理性能,其RTF勉強達到實時。?通過使用語言模型,模型的準確率提高了~30%,但增加了約 200%?內存成本。?通過使用量化語言模型,內存占用可以大大減少。?模型量化比未量化模型的能源開銷低約 27%。?
總結
以上是生活随笔為你收集整理的语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 处理ArchLinux上各软件屏幕卡顿与
- 下一篇: SpringMVC中的拦截器介绍