离线语音识别软件_从音乐识别软件起家,这家公司如何备战车载AI语音市场GGAI对话...
加入高工智能汽車專業行業群(自動駕駛5群,車聯網智能座艙3群,智能網聯商用車2群),加微信:17157613659,出示名片,僅限智能網聯汽車軟硬件供應商及OEM廠商。
早在2016年,亞馬遜推出的語音助手Alexa在科技圈掀起了一片滔天巨浪。很多人都以為,真正的智能語音時代已經拉開了序幕。但現實卻是,AI語音的落地場景很多,但用戶的使用率較低、體驗也不佳。
新的技術往往要經歷兩次出生,一次是新生,一次是重生。誠然,第二次更難!機器學習的演進,資金與人才的持續投入,使新晉的一些語音初創公司從技術上得以較快地趕上語音巨頭的腳步,但也由此走到了發展瓶頸。
智能語音距離真正的人機自由交流還有很大的差距,而現階段語音技術同質化的現狀只能迫使中小型公司靠打價格戰來維持市場份額。周而復始,惡性循環。
“語音在目前只是一個噱頭,并不是大眾生活的剛需,也沒有真正走進用戶的生活場景中。”Soundhound大中華首席代表劉碩對《高工智能汽車》表示,語音和其他公司的產品數據并沒有打通,無法實現更深入的開發,也自然不能實現使語音像移動支付一樣,為用戶打造出連貫的使用場景,成為用戶生活的必需品。
不過,場景的局限并沒有限制消費者的使用意愿。
劉碩表示,根據一些主機廠提供的用戶反饋來看,車載語音是反饋中占比最大,抱怨最多的部分。“這證明大家對于語音是有需求的。所以目前的狀況就是大家都想用,但這個技術又不夠好,這就給我們提供了很大的發展空間。有痛點才有機會!”
目前,車載語音技術存在的缺陷首先是識別系統對環境的依賴性強,特別在高噪音、有回聲的環境下,語音識別率就會大打折扣。其次,是識別速度、方言等細節問題。
“許多人問我方言應該怎么處理。我認為,如果目前有一種語音技術,或者一種語音場景,能做到讓說普通話的人可以高頻使用了,才需要再去考慮其他方言的問題。現在考慮方言價值不大。”劉碩強調。
源自聽音識曲的老品牌
Soundhound是一家專注于語音AI和智能對話的公司。其產品Houndify是一個獨立的AI平臺,提供人工智能驅動的語音技術服務,包括語音識別、自然語言理解、開發者工具、知識圖譜等。
公司由斯坦福的幾個學生于2005年成立,總部設在加州圣克拉拉,目前在中國設立了分公司,中文名字為“聲航”。
過去幾年,Soundhound從大眾熟知的音樂識別軟件躋身于全球前列的語音識別平臺,已拿到了包括英偉達、三星、奔馳、騰訊等行業巨頭的投資。目前公司將百分之九十的業務重點聚焦于汽車行業。
作為創業公司,Soundhound已經積累了較多的量產車經驗,包括奔馳、現代、起亞、雪鐵龍等。也許站到巨人的肩膀上看風景從來就不是容易的事情,但是明晰的發展思路也可以助力星星之火,以便成燎原之勢。
“Soundhound最大的優勢之一就是語音對車外場景的連通。”劉碩認為,智能語音經歷了對車機的控制,到車身的控制,再到整個生活服務等邊界的打開,意味著整個語音市場會發生比較大的變革。
比如,梅賽德斯·奔馳最新搭載的信息娛樂系統MBUX,就是由Soundhound研發的Houndify提供支持,可以讓用戶“足不出車”,便可以知道車外的信息。
駕駛者說出“嗨,梅賽德斯,我餓了,提供一些適合吃午飯的餐廳,要有免費Wi-Fi和停車場”,隨后MBUX就會列出了一些可供選擇的餐廳。
劉碩表示,“Soundhound是業界唯一一家研發出支持復雜多輪以及跨域對話的語音公司。”
多輪即多次的、有邏輯的、更多互動的對話。如果系統提供的餐廳不是用戶想要的,用戶便可以接著對系統提出更多的要求。比如,“這家餐廳有點遠,幫我找一家更近的”,“我不吃西餐,幫我找家中餐館”,“我想吃川菜”……直到系統提供出最完美的選項為止。
跨域即會話內容里包含兩個及兩個以上的域。比如用戶對車載語音說,“我要去廣州看恒大的球賽,什么時候出發?”這個問題需要體育和導航兩個域的數據。第一個域回答今天廣州恒大的比賽在什么時候,哪個體育場,第二個域告訴用戶前往目的地的路程需要多久。
“多輪與跨域是我們獨有的技術優勢,目前其他公司的產品只能識別簡單的語音,即便是推出了多輪對話的方案,也無法實現跨域。”劉碩表示。
對于產品未來的發展,他也有自己清晰的定位:“現在要考慮的不是去搶項目,或者低價拿項目。而是在三五年以后,能不能達到用戶的某一兩個使用場景是和我們密切相關的,是獨家的。”
語音到底能不能做成特別智能,對大眾特別有價值?我認為會有的,但一開始不是很通用型的,比如什么都可以問,什么都可以回答,這個短期肯定做不到。但我們可能會在某幾個點上做到突破,做出對用戶很有用的東西,這個就夠了。
Soundhound的一個獨特價值便是其獨立的AI平臺Houndify,它可實現開發人員和企業所有者能夠在任何地方部署,并保持對品牌和用戶的控制,同時實現差異化和創新。目前該平臺已吸引了6萬名開發者。
劉碩強調,Soundhound也有多語言的支持能力。“語音從架構上講,包括識別和理解兩大部分,他們有通用的核心引擎。但識別每種語言的模型是不一樣的,所以不同語言都要分別開發。而且不同國家對于內容的需求是不一樣的,比如印度熱衷于板球的內容。”
在劉碩看來,針對這些地域差異的細節需求,也要形成個性化的內容研發。對于國內的企業來說能做到這一點的非常的少,特別是在汽車行業。
建立差異化的技術優勢
識別是一門涉及面很廣的交叉學科,它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都有非常密切的關系。而智能語音除了識別與理解這兩個核心模塊,還有前端的麥克風陣列、降噪、TTS、內容等模塊,不同的語音廠商也都有各自擅長的地方。
在被問及是否會與競品公司合作時,劉碩表明了開放的心態:“我們可以作為某幾個模塊的提供商,讓其他競品公司來做另外模塊的提供商,大家形成優勢互補。目前在國內我們已經有了幾家簽約的合作伙伴。”
劉碩表示,公司目前進展比較順利,設于中國的分公司去年四月份開始招人,目前已有八個人的團隊,也拿下了國內一個主機廠的業務,同時在其他的非汽車的行業也有自己的業務版圖。
但是近兩三年并不急于拿下項目,而是規劃建立一個三十人的市場及研發團隊,吸納更多科技人才,深耕技術研發,爭取實現更多語音模塊的技術領先,造福更多車企。
SoundHound于2017和2018年融資將近2億美元?,投資方包括三星、KPCB, 美的、騰訊、現代等,估值超過10億美元。劉碩認為,充足的資金給了Soundhound更多時間與精力去做更長遠的事情,為語音界貢獻更多的力量。
除了得到了資金支持,也接觸到了更優質的客戶資源。他表示,在未來幾年中,Soundhound也有可能會從戰略合作的角度,通過融資的方式使投融資雙方達成更加密切的業務合作關系。
總結
以上是生活随笔為你收集整理的离线语音识别软件_从音乐识别软件起家,这家公司如何备战车载AI语音市场GGAI对话...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蜜桃的功效与作用、禁忌和食用方法
- 下一篇: 鸡翅的功效与作用、禁忌和食用方法