首次开源!一行代码轻松搞定中英文语音识别、合成、翻译核心功能!
導讀
要說生活里最常見的AI應用場景,語音合成與識別當屬大家最為耳熟能詳的場景之一了。
尋常到平時地圖導航的播報、微信語音轉文字、手機語音輸入,以及小度智能音箱,都離不開語音技術的加持。
語音技術到底是怎么實現的?有哪些現成可用的開源代碼可以快速集成到項目里?可以說是每一名開發者非常關心的問題。
那么,福利時間到了,今天這個集成了中英文語音識別、語音翻譯、語音合成、聲音分類能力,而且一行代碼輕松試驗效果的開源項目,你一定不能錯過!
項目介紹
話不多說,先來看項目中給出的效果展示。
語音識別
輸入音頻 1
識別結果 1
I knocked at the door on the ancient side of the?building.
輸入音頻 2
識別結果 2
我認為跑步最重要的就是給我帶來了身體健康。
語音翻譯(英譯中)
輸入音頻
識別結果
我 在 這棟 建筑 的 古老 門上?敲門。
語音合成
輸入文本 1
Life was like a box of chocolates, you never know what you're gonna get.
合成音頻 1
輸入文本 2
早上好,今天是2020/10/29,最低溫度是-3°C。
合成音頻 2
可以看到,無論是中英文的識別,還是中英文的合成,這個開源項目都有不錯的效果,特別的,項目中還包含了語音翻譯能力,可以實現英文語音同傳翻譯為中文字幕,這個確實太強大了。
傳送門:
GitHub 地址:
https://github.com/PaddlePaddle/PaddleSpeech
有讀者肯定想問,這么強大的語音能力,是不是想要用起來比較麻煩?
不得不說,這個項目在易用性上真的也是考慮得非常周到。
安裝測試效果
我們按照首頁的引導:
一行命令安裝:
一行命令快速開始使用:?
這里,小編抱著試一試的態度,在本機上安裝了這個項目,安裝完成之后,先使用語音合成試一下。
生成的效果大家可以聽一下~
然后,帶著好奇心,我們再把合成的結果送到語音識別試一下,看看效果:
最終輸出結果:
可以看到,這一套循環下來,效果非常不錯!
除了出色的效果,易用的體驗,我們再看看這個項目中還有什么寶藏可以挖掘,果然我們發現項目中還包含豐富的預訓練模型,并且語音識別和語音合成均支持自定義訓練。
豐富的預訓練模型
語音識別包含聲學模型和語言模型,詳情如下:
語音合成主要包含三個模塊:文本前端、聲學模型和聲碼器。聲學模型和聲碼器模型如下:
完善的文檔教程
并且開源以來,收到開發者的廣泛關注,已經有大量開發者投入到項目的建設中并且貢獻內容。
真·干貨滿滿!
別的不需要多說了,請大家訪問GitHub親自體驗吧:
https://github.com/PaddlePaddle/PaddleSpeech
如果大家滿意的話,歡迎點個小星星鼓勵下我們的工程師!
直播課程,大牛帶學
為了幫助大家了解更多語音技術前沿進展,玩轉開源項目,12月21日-24日每晚20:15-21:30,由百度研究院深度學習實驗室(美研)主任黃亮老師領銜,多位語音領域資深工程師為大家帶來一套精品技術直播課,詳解語音方向的核心技術。
掃碼報名直播課,加入技術交流群
精彩內容搶先看
PaddleSpeech項目地址:
GitHub: https://github.com/PaddlePaddle/PaddleSpeech
Gitee: https://gitee.com/paddlepaddle/PaddleSpeech
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的首次开源!一行代码轻松搞定中英文语音识别、合成、翻译核心功能!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 太极实业是做什么的
- 下一篇: 华为诺亚开源贝叶斯优化库:超参数调优河伯