语音识别类产品的分类及应用场景
前言:本文作者@焦糖瑪奇朵,是我們“AI產品經理大本營”早期成員,下面是她分享的第1篇文章,歡迎更多有興趣“主動輸出”的朋友們一起加入、共同進步:)
音頻由公眾號“閃電配音”提供
媒體和AI巨頭們樂于給大眾描繪一幅幅精彩的未來生活藍圖:人工智能可以化身為你的愛車,在沙漠、森林或小巷中風馳電掣;可以是智慧公正的交警,控制紅綠燈、緩解交通的擁擠;還可以是給人以貼心照顧的小助理,熟悉你生活中的每一處小怪癖。
在看到這些美妙的暢想之后,作為一個嚴謹認真的AI產品經理,我不禁想去探索上述美好未來的實現路徑;今天,讓我們從人工智能中的感知智能開始——聊聊“語音識別類產品”。
1
定義
語音識別是將人類的聲音信號轉化為文字的過程。
語音識別、人臉識別和OCR等都屬于人工智能中的感知智能,其核心功能是將物理世界的信息轉化成可供計算機處理的信息,為后續的認知智能提供基礎。
2
語音識別能滿足或支撐的需求層次
1、人與人之間的信息同步
轉化成文字的語音信息,由于少了時間軸的約束,在同等量級的情況下,人類使用眼睛獲取的速度遠遠快于耳朵。當然,確實也損失掉了一些信息,比如情緒。
2、檢索 & 語義抽取
利用語義建模,對某些業務場景中比較關注的詞/語義進行檢索,或者將其抽取出來并進行結構化記錄。
3、人機交互
使用更自然的方式與機器/虛擬助理進行交互,實現擬人對話、對設備的操控或者問題答案的獲取。
4、數據挖掘
通過對數據的聚類或者與各維度數據體系打通,可以對個人/人群/特定領域的語義數據進行價值挖掘。
下面,我將以語音識別需求場景之“人機交互”為例,對業界的語音識別產品進行歸類和說明。如果大家比較感興趣,我后續文章可以再對其他的幾類需求層次進行進一步的分析。
3
分類
根據識別內容的范圍,語音識別可分為“封閉域識別”和“開放域識別”。
1、封閉域識別
識別范圍為預先指定的字/詞集合,即,算法只在開發者預先設定的封閉域識別詞的集合內進行語音識別,對范圍之外的語音會拒識。因此,可將其聲學模型和語言模型進行裁剪,使得識別引擎的運算量變小;并且,可將引擎封到嵌入式芯片或者本地化的SDK中,從而使識別過程完全脫離云端,擺脫對網絡的依賴,并且不會影響識別率。
業界廠商提供的引擎部署方式包括云端和本地化(如:芯片,模塊和純軟件SDK)。
產品形態:流式傳輸-同步獲取
典型的應用場景:不涉及到多輪交互和多種語義說法的場景,比如,對于簡單指令交互的智能家居和電視盒子,語音控制指令一般只有“打開窗簾”、“打開中央臺”等;或者語音喚醒功能“Alexa”。但是,一旦涉及到程序猿大大們在后臺配置識別詞集合之外的命令,如“給小編來一塊錢打賞唄”,識別系統將拒識這段語音,不會返回相應的文字結果,更不會做相應的回復或者指令動作。
2、開放域識別
無需預先指定識別詞集合,算法將在整個語言大集合范圍中進行識別。為適應此類場景,聲學模型和語音模型一般都比較大,引擎運算量也較大。如果將其封裝到嵌入式芯片或者本地化的SDK中,耗能較高并且影響識別效果。因此,業界廠商基本上都只以云端形式提供(云端包括公有云形式和私有云形式)。至于本地化形式,只提供帶服務器級別計算能力的嵌入式系統(如會議字幕系統)。
產品形態,按照音頻錄入和結果獲取方式可分為3種——
1)產品形態1:流式上傳-同步獲取,應用/軟件會對說話人的語音進行自動錄制,并將其連續上傳至云端,說話人在說完話的同時能實時地看到返回的文字。
語音云服務廠商的產品接口中,會提供音頻錄制接口和格式編碼算法,供客戶端邊錄制邊上傳,并與云端建立長連接,同步監聽并獲取中間(或者最終完整)的識別結果。
對于時長的限制,由語音云服務廠商自定義,一般有<1分鐘和<5小時兩種,兩者有可能會采用不同的模型(時長限制<5小時的模型會采用LSTM長時相關性建模)。
典型應用場景1:
A)主要在輸入場景,如輸入法、會議/法院庭審時的實時字幕上屏;
B)與麥克風陣列和語義結合的人機交互場景,如具備更自然交互形態的智能音響。比如用戶說“轉發小編這篇文章”,在無配置的情況下,識別系統也能夠識別這段語音,并返回相應的文字結果。
2)產品形態2:已錄制音頻文件上傳-異步獲取,音頻時長一般<3/5小時。用戶需自行調用軟件接口或是硬件平臺預先錄制好規定格式的音頻,并使用語音云服務廠商提供的接口進行音頻上傳,上傳完成之后便可以斷掉連接。用戶通過輪詢語音云服務器或者使用回調接口進行結果獲取。
由于長語音的計算量較大,計算時間較長,因此采取異步獲取的方式可以避免由于網絡問題帶來的結果丟失。也因為語音轉寫系統通常是非實時處理的,這種工程形態也給了識別算法更多的時間進行多遍解碼。而長時的語料,也給了算法使用更長時的信息進行長短期記憶網絡建模。在同樣的輸入音頻下,此類型產品形態犧牲了一部分實時率,花費了更高的資源消耗,但是卻可以得到最高的識別率。在時間允許的使用場景下,“非實時已錄制音頻轉寫”無疑是最推薦的產品形態。
典型應用場景2:
A)已經錄制完畢的音/視頻字幕配置;
B)實時性要求不高的客服語音質檢和UGC語音內容審查場景等。
3)產品形態3:已錄制音頻文件上傳-同步獲取,音頻時長一般小于<1分鐘。用戶需自行預先錄制好規定格式的音頻,并使用語音云服務廠商提供的接口進行音頻上傳。此時,客戶端與云端建立長連接,同步監聽并一次性獲取完整的識別結果。使用的模型會根據語音云廠商產品策略的不同,而跟隨采用上述兩/三種模型中的任意一種。
典型應用場景3:
作為前兩者的補充,適用于無法用音頻錄制接口進行實時音頻流上傳,或者結果獲取的實時性要求比較高的場景。
4
概念厘清
1、離線 VS 在線
在較多的客戶認知中,離/在線的區別在于“識別過程是否需要通過云端請求”,即“識別引擎是在云端還是本地”。而云計算中的離/在線產品的引擎都處在云端,區別在于“計算過程中,客戶端是否需要與云端進行實時數據交互”,即上述所述的“流式上傳-同步獲取”和“已錄制音頻文件上傳-異步獲取”方式。
兩者的定義在人工智能產品領域中有較多沖突,因此并不建議使用“離/在線”概念進行相關產品定義。
2、語音識別 VS 語義識別
語音識別為感知智能,語義識別為認知智能,前者為后者的前提基礎。語音識別將聲音轉化成文字,語義識別提取文字中的相關信息和相應意圖,再通過云端大腦決策,使用執行模塊進行相應的問題回復或者反饋動作。
注:一般來說,為了減少不必要的理解干擾,從業者更傾向于說“自然語言處理(NLP)”等概念,極少使用“語義識別”的說法。
結語
最后,結合一小丟丟NLP的人機交互場景栗子作為收尾——
“給小編這篇文章點個贊唄”,在無后臺配置的情況下,封閉域的語音識別系統會拒識這段語音,而開放域的識別系統卻能夠識別這段語音,返回相應的文字結果。
不過,現階段的開放域語義系統在大概率情況下,還是會回復得比較生硬,并且也不會自動識別出相應的意圖并做出指令。按照現有比較通用的方法,這個功能需要使用封閉域的NLP,在后臺預先配置相關答案,并且根據預先配置的信息抽取意圖,再根據意圖類別和槽位信息執行相應的動作——即調用微信的點贊接口(假設可以)進行相應的點贊操作。
聽起來好繞呀,是不是覺得還是自己手動點個贊簡單粗暴省事得多了呢?然而,一切現代人類做起來自然而然 & 毫不費力的動作,都是建構在經過了億萬年的學習進化、兆億次閉環重復練習的智力基因基礎上的;任何人工智能技術,也需要巨量的數據訓練和一定的演變周期。并且,在所有的科技發展進程中,率先取得突破并能在應用領域成熟的產品,往往都是在封閉域首先出現的。現在,NLP正處封閉域產品化階段(比如Amazon Echo、Google Home等),而語音識別的產品成熟化已經走過了封閉域、到達了開放域,正在向各行各業的應用場景輸送自己的洪荒之力!
附:腦圖 | 語音識別類產品的分類及應用場景
注:飯團“AI產品經理大本營” ,是黃釗hanniman建立的、行業內第一個“AI產品經理成長交流社區”,通過每天干貨分享、每月線下交流、每季職位內推等方式,幫助大家完成“AI產品經理成長的實操路徑”;詳情可點擊“閱讀原文”查看。
贊賞金額,會轉給本文原作者
---------------------
作者:黃釗hanniman,圖靈機器人-人才戰略官,前騰訊產品經理,5年AI實戰經驗,8年互聯網背景,微信公眾號/知乎/在行ID“hanniman”,飯團“AI產品經理大本營”,分享人工智能相關原創干貨,200頁PPT《人工智能產品經理的新起點》被業內廣泛好評,下載量1萬+。
總結
以上是生活随笔為你收集整理的语音识别类产品的分类及应用场景的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2018年开工大吉!
- 下一篇: python音乐的数据抓取与分析_pyt