google套件_Google 推出 3 款语音识别应用,想用 AI 帮语言障碍者说话
生活随笔
收集整理的這篇文章主要介紹了
google套件_Google 推出 3 款语音识别应用,想用 AI 帮语言障碍者说话
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
如何讓聽障人群接聽電話,如何讓語言障礙人群與外界對話?在腦機(jī)接口技術(shù)并不成熟的現(xiàn)階段,要想完成這種不可能之事,就要指望人工智能和機(jī)器學(xué)習(xí)了。▲Live Transcribe今年 2 月,Google 在 Android 手機(jī)上推出的 Live Transcribe 應(yīng)用程序,再到 5 月的 Google I/O,發(fā)布了能夠?qū)崟r轉(zhuǎn)錄語音 / 文字支持通話的 Live Relay,以及能夠為語言障礙者實現(xiàn)語音轉(zhuǎn)寫的 Project Euphonia 項目。在「幫助人們更好地溝通」這件事情上,這些應(yīng)該是人工智能目前最前沿,并且能廣泛應(yīng)用的進(jìn)展了。應(yīng)該是目前世界上最先進(jìn)的語音識別應(yīng)用產(chǎn)品Live TranscribeLive Transcribe 是 Google 針對耳聾及聽力障礙人群開發(fā)的一款免費 Android 無障礙服務(wù)。基于此前在自動語音識別技術(shù)(ASR)的研究,Live Transcribe 將自動生成字幕的功能引入了手機(jī)設(shè)備。▲較亮的內(nèi)部同心圓代表噪聲層,外部同心圓表示手機(jī)麥克風(fēng)對說話人聲音的接收狀況。使用 Live Transcribe 的場景是這樣的:打開 Live Transcribe 這個軟件后,它會實時讀取外界的語音,并實時講語音轉(zhuǎn)錄成為文字,在手機(jī)屏幕上顯示出來。即使是說話者大笑、吹口哨等細(xì)節(jié),也會有相應(yīng)的文字提示。也就是說只需一部聯(lián)網(wǎng)的手機(jī),便可實現(xiàn)實時的語音轉(zhuǎn)文字功能。目前該軟件已經(jīng)支持超過 70 種語言。但 Live Transcribe 的實時轉(zhuǎn)錄,不僅需要手機(jī)設(shè)備上的神經(jīng)網(wǎng)絡(luò)做聲音分類,還需要依賴云端的三個神經(jīng)網(wǎng)絡(luò)模型,去完成語音轉(zhuǎn)錄成為文字的過程。▲Sagar Savla 在展示 Live Transcribe在我們向 Google AI Research Group 產(chǎn)品經(jīng)理 Sagar Savla 問及,何時 Live Transcribe 才能實現(xiàn)完全在本地運行、不依賴云端網(wǎng)絡(luò)時,他告訴我們:我們正在做這樣的工作,但目前沒有準(zhǔn)確的時間表。比如像中文這個語種,需要很大的模型,要想把很大的模型融入到終端設(shè)備并且保證其準(zhǔn)確性,是很有挑戰(zhàn)的。Live RelayGoogle 在今年的開發(fā)者大會上展示了 Live Relay 的能力:如何在聽不到或者沒法開口說話的情況下,輕松地打電話。如果你因為語言障礙、社恐、拔牙等各種情況沒法開口說話,在 Live Relay 的頁面輸入單詞,這個文本會被迅速轉(zhuǎn)換為音頻,發(fā)到另一個人的手機(jī)上。如果你因為聽力障礙、身處噪音等情況沒法聽到聲音, Live Relay 也可以把通話對方的語音轉(zhuǎn)錄成為文本。目前 Live Relay 依然處于研究階段,只能在特定的 Pixel 手機(jī)上使用,并且暫時只支持英文。Live Relay 將完全在設(shè)備上運營,通過使用設(shè)備上的語音識別和文本到語音識別功能。借助即時響應(yīng)和預(yù)測性輸入建議(smart relay 和 smart compose),打字速度提高后是可以與電話呼叫保持同步的。在我看來,雖然 Live Relay 被歸類到 Google 的無障礙項目,尤其為聽障用戶提供幫助,但其實很多人也可能用得上。比如在開會時突然接到重要電話,沒法跑出去接聽,那么 Live Relay 就能派上用場了。Project Euphonia據(jù)統(tǒng)計,漸凍癥、多發(fā)性硬化癥、腦外傷、中風(fēng)等神經(jīng)系統(tǒng)疾病的患者,通常也會出現(xiàn)語言障礙,外界通常沒法理解這類人群說的話,以及表達(dá)方式。Euphonia 項目在為語言障礙人群建立語音識別模型,以及能夠識別手勢、眨眼、面部表情等基于計算機(jī)視覺的模型,幫助他們更好地與外界溝通表達(dá)。他們通過與漸凍癥組織合作,訓(xùn)練 AI 去學(xué)習(xí)和識別漸凍癥患者的聲音,從而實現(xiàn)對他們發(fā)音的轉(zhuǎn)錄。與此同時,他們還在正對特定的患者,訓(xùn)練個性化的 AI。比如被診斷患漸凍癥十多年的 Steve Saling,受特殊訓(xùn)練的模型可以識別出他看體育賽事時的臉部表情,從而確定他想要對外表達(dá)的情緒。在他想喝彩時,電腦會發(fā)出吹喇叭(airhorn)的聲音;喝倒彩時,則發(fā)出噓聲(boo)。Euphonia 項目的產(chǎn)品經(jīng)理 Julie Cattiau 表示,他們所面臨最大的困難是收集語音樣本。因為有語言障礙的人在人群中占比不高,并且經(jīng)常是有特定需求的,所以他們依然在招募尋找適合做這種語言識別研究的人。無障礙的新定義:確保每個用戶意圖都被理解尚有余力的科技公司,在產(chǎn)品設(shè)計、開發(fā)的時候都會或多或少地考慮信息無障礙(Accessibility)。某種程度而言,信息無障礙是智能產(chǎn)品交互設(shè)計中針對特殊人群的一個功能,它可以讓人們更加平等地享用產(chǎn)品在硬件和軟件上的各項功能。科技產(chǎn)品中的「無障礙」,相當(dāng)于互聯(lián)網(wǎng)世界中的盲道、扶手、助聽器、義肢。無論是 Android、iOS 系統(tǒng)中的無障礙功能菜單、讀屏功能、放大鏡功能、反差顏色設(shè)置,還是一些 app 接入了無障礙套件、為功能按鈕添加「標(biāo)簽」,這些都是很基礎(chǔ)的無障礙用戶體驗。基礎(chǔ)的無障礙用戶體驗,是為了讓用戶能夠更準(zhǔn)確接收到手機(jī)、電腦、app 等產(chǎn)品所發(fā)出的信息。而 Google 借助人工智能和機(jī)器學(xué)習(xí),讓無障礙從「用戶準(zhǔn)確接收機(jī)器信息」,向「確保用戶意圖被機(jī)器理解」進(jìn)化迭代。這也意味著,「無障礙」在未來將是一種新的人機(jī)交互方式。它可以為特定人群展示提供更多的信息,也在讓用戶更便捷迅速地操作,更重要的是向「讓我來幫助你完成」演化。技術(shù)的發(fā)展在重新定義「無障礙」,也對產(chǎn)品、科技公司提出了新的要求。一個能將無障礙體驗做好的產(chǎn)品,通常也能為普通用戶提供更好的體驗。
點一下,讓更多人知道??
總結(jié)
以上是生活随笔為你收集整理的google套件_Google 推出 3 款语音识别应用,想用 AI 帮语言障碍者说话的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化地板的价格是多少
- 下一篇: 青兰高速的起点和终点是哪里