【转】语音、音频的思考
14年的文章了,覺(jué)得算是業(yè)內(nèi)人士的話,沒(méi)那么水,摘自:http://www.cnblogs.com/welen/p/3790953.html
語(yǔ)音和圖像、視頻一樣,是人與人之間溝通的交流方式。
語(yǔ)音信號(hào)處理是一門(mén)綜合性的學(xué)科,它與語(yǔ)音學(xué)、心理學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)、模式識(shí)別等有著密切聯(lián)系。
語(yǔ)音技術(shù)一般可以分為三大類:
?
1.人與人之間的通信:語(yǔ)音增強(qiáng)、語(yǔ)音編碼、語(yǔ)音通信、VOIP等
簡(jiǎn)單的說(shuō),以網(wǎng)絡(luò)為載體,實(shí)現(xiàn)人與人之間的語(yǔ)音通信,涉及到語(yǔ)音前端去噪,增強(qiáng),語(yǔ)音壓縮編碼等。
? ? ?語(yǔ)音增強(qiáng)、語(yǔ)音去噪等, 主要解決的是前端問(wèn)題,單純的語(yǔ)音、音頻處理技術(shù)主要應(yīng)用在嵌入式方向。
? ? ?現(xiàn)在都有開(kāi)源,像Webrtc、Speex之類。
? ? ?VOIP、語(yǔ)音通信主要對(duì)網(wǎng)絡(luò)協(xié)議等需求更多一些,VOIP和傳統(tǒng)移動(dòng)語(yǔ)音通信相比,主要體現(xiàn)在價(jià)格上的優(yōu)勢(shì),通話質(zhì)量上和傳統(tǒng)相比還是有一定差距。 現(xiàn)在移動(dòng)運(yùn)營(yíng)商的收益也在逐漸減低,當(dāng)價(jià)格上有所調(diào)整時(shí),VOIP估計(jì)也很難生存了。
這一類崗位主要集中在芯片類、通信類、語(yǔ)音類、嵌入式、少數(shù)互聯(lián)網(wǎng)公司:高通、聯(lián)發(fā)科、展訊、科大訊飛、華為、思科、愛(ài)立信、哈曼、創(chuàng)新科技、微軟Skype、騰訊等。
? ? ?語(yǔ)音、音頻編碼,做標(biāo)準(zhǔn)的很少,單純做算法的也很少。主要需求集中圍繞著具體的芯片在代碼和性能做底層匯編優(yōu)化,一般很少能涉及到算法層面的優(yōu)化。
? ? ?開(kāi)源的像ffmpeg?等,未來(lái)安卓平臺(tái)也會(huì)像蘋(píng)果一樣,都支持硬解,所以這方面就業(yè)情況更窄。
? ? ?
2.語(yǔ)音合成:
簡(jiǎn)單的說(shuō),機(jī)器說(shuō)話給人聽(tīng),代替人把相關(guān)的信息繪聲繪色的念出來(lái)。
主要流程:
? ? 語(yǔ)音庫(kù) ?訓(xùn)練好模型
? ? 文本分析,上下文語(yǔ)義分析,韻律分析,輸出語(yǔ)音參數(shù)
? ? 語(yǔ)音合成器輸出
技術(shù)相對(duì)較為成熟,每一塊模塊都非常重要,都需要深入研究,才能合成出高質(zhì)量的語(yǔ)音,所以需要整個(gè)團(tuán)隊(duì)成員配合。
功能:由文本產(chǎn)生語(yǔ)音,解放了用戶的雙眼。
應(yīng)用:語(yǔ)音合成引擎,它的優(yōu)化在于大規(guī)模,任意文本組合發(fā)音,目前市場(chǎng)上有懶人說(shuō)書(shū)、聽(tīng)書(shū)之類的APP。
如果是小量的語(yǔ)音需求,完全用錄音就可以,成本低。
?
3.語(yǔ)音識(shí)別和理解:
簡(jiǎn)單的說(shuō),人說(shuō)話,機(jī)器能夠聽(tīng)懂,能夠按照人說(shuō)的內(nèi)容和指示,代替人完成相關(guān)的操作。相關(guān)的還有說(shuō)話人識(shí)別、情感識(shí)別、語(yǔ)種識(shí)別、語(yǔ)音測(cè)評(píng)、語(yǔ)義理解等。
?
行業(yè)現(xiàn)狀:
傳統(tǒng)的語(yǔ)音公司:Nuance、科大訊飛、捷通華聲等。
傳統(tǒng)的軟件類公司:微軟、IBM等。
互聯(lián)網(wǎng)公司:云知聲、百度等。
?
一方面語(yǔ)音識(shí)別是最難的語(yǔ)音技術(shù),搭建好識(shí)別平臺(tái)相對(duì)容易,有很多開(kāi)源的項(xiàng)目,但是本質(zhì)進(jìn)一步提高識(shí)別率并不簡(jiǎn)單。
它包含了許多個(gè)模塊技術(shù),門(mén)檻很高,數(shù)學(xué)功底深厚,這一類的人才更加稀少。
首先,必須要準(zhǔn)備好大量的語(yǔ)音庫(kù),做好訓(xùn)練和識(shí)別。
其次,就算你只深入到語(yǔ)音識(shí)別的某一項(xiàng)技術(shù),首先必須搭建一整套識(shí)別流程來(lái)檢測(cè)實(shí)驗(yàn)的效果。
再者,基本上各個(gè)模塊都能影響到識(shí)別率,特別是噪聲,所以也必須要熟悉這些模塊。
最后,還有更難的技術(shù)還在等著你,中文分詞、語(yǔ)言模型的訓(xùn)練和建立、以及后期的自然語(yǔ)言處理、語(yǔ)義識(shí)別、云端服務(wù)等。
?
另一方面,目前語(yǔ)音識(shí)別盈利模式還不是很明朗,所以也決定了投入這一塊的人力也很稀缺。?
早期做這一塊的微軟和IBM基本上也不靠這個(gè)盈利,Nuance的贏利點(diǎn)主要在車載、醫(yī)療轉(zhuǎn)錄等,最后也是與蘋(píng)果合作,做了款SIRI,火了一把。
國(guó)內(nèi)的科大訊飛,在識(shí)別方向盈利也很低。
http://www.huxiu.com/article/9885/1.html
該公司的營(yíng)收主要依靠傳統(tǒng)業(yè)務(wù)如普通話測(cè)評(píng)、英語(yǔ)測(cè)評(píng)、呼叫中心、嵌入式語(yǔ)音導(dǎo)航和毛利率很低的信息工程業(yè)務(wù)。
所以“科大訊飛”、云知聲開(kāi)放了自己的云平臺(tái),提供免費(fèi)API,給產(chǎn)品應(yīng)用公司提高效率,降低成本,侵占更大的市場(chǎng),將語(yǔ)音技術(shù)融入到互聯(lián)網(wǎng)當(dāng)中,勢(shì)必會(huì)有一些小語(yǔ)音公司或者團(tuán)隊(duì)將會(huì)解散。
?
盡管如此,語(yǔ)音識(shí)別仍然是解決用戶與機(jī)器交互體驗(yàn)性最好的方式,未來(lái)前景一片光明。
?
語(yǔ)音公司向來(lái)不依賴于員工規(guī)模,關(guān)鍵的是幾個(gè)技術(shù)大牛,所以語(yǔ)音公司或者部門(mén)人數(shù)比較少,令缺勿濫。
未來(lái)只有少數(shù)比較牛的團(tuán)隊(duì)才能生存下來(lái),其它的都會(huì)被Kill掉。
?
?
一方面,互聯(lián)網(wǎng)語(yǔ)音技術(shù),用戶肯定免費(fèi),所以未來(lái)語(yǔ)音公司可能向第三方公司收取費(fèi)用,也就是說(shuō),語(yǔ)音公司是給大多數(shù)公司提供解決方案,第三方公司給報(bào)酬。因此大公司BAT都有組建自己的語(yǔ)音團(tuán)隊(duì),不依賴第三方,效果據(jù)稱不錯(cuò)。
?
另一方面,語(yǔ)音技術(shù)公司未來(lái)可能會(huì)轉(zhuǎn)型,不單單給第三方公司提供語(yǔ)音技術(shù)支撐,將技術(shù)轉(zhuǎn)化成產(chǎn)品,語(yǔ)音公司也將會(huì)開(kāi)發(fā)直接面向用戶的產(chǎn)品,將盈利方式多樣化,所以未來(lái)應(yīng)用開(kāi)發(fā)的產(chǎn)品人員需求可能增多。
?
4.音樂(lè)技術(shù):
聽(tīng)音識(shí)曲,放個(gè)音樂(lè)片段,能檢索出歌曲的名稱。
哼唱識(shí)曲:哼唱音樂(lè)片段,能檢索出歌曲的名稱。
這個(gè)需求主要存在于互聯(lián)網(wǎng)音樂(lè)類軟件中,目前QQ、百度都有自己的模塊,其它主要依賴于音樂(lè)雷達(dá)。
?
從對(duì)語(yǔ)音、音頻技術(shù)來(lái)看整個(gè)技術(shù)行業(yè):
技術(shù)里面,掌舵好方向,提供解決方案的人才是最重要的。
技術(shù)一般依賴于團(tuán)隊(duì),一個(gè)人很難撐起。
技術(shù)能細(xì)化成很多單元,每個(gè)人精力有限,只是其中的一顆螺絲釘,只能深入一部分,了解整個(gè)全局。
不能夠單純搞技術(shù),技術(shù)的追求永遠(yuǎn)是無(wú)止境的。
技術(shù)更新是非常快的,特別是在開(kāi)源的大趨勢(shì)下,所以在年輕的時(shí)候必須淘到錢(qián)。
做技術(shù)要像醫(yī)生一樣,做些有積累性的技術(shù),應(yīng)用面、公司比較需求比較寬的技術(shù),這樣才會(huì)值錢(qián)。太窄的技術(shù)只會(huì)把人作死,除非是在大公司還可以換崗。
技術(shù)必須轉(zhuǎn)化成產(chǎn)品,必須有盈利才會(huì)持久。
做技術(shù)的同時(shí),結(jié)交各種各樣的人才,多多開(kāi)闊眼界,說(shuō)不定,有一天,你需要他們,或者他們需要你。
再感興趣的事情,干多了也會(huì)覺(jué)得沒(méi)啥意思,最后都是往錢(qián)看,特別是年齡越大的時(shí)候。
盡量接觸一些,面向用戶的技術(shù),能將自己的技術(shù)沉淀到產(chǎn)品中,開(kāi)發(fā)出一個(gè)自己的產(chǎn)品。
?
總而言之,技術(shù)是為了解決問(wèn)題而存在,問(wèn)題是因?yàn)橛脩粜枨笤?#xff0c;解決需求是因?yàn)橛绣X(qián)在推動(dòng)。
?
轉(zhuǎn)載于:https://www.cnblogs.com/xingshansi/p/6779925.html
總結(jié)
以上是生活随笔為你收集整理的【转】语音、音频的思考的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 程序员版本管理知识 Git 详细整理
- 下一篇: 二叉查找树(二叉排序树)创建,插入,删除