當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

google套件_Google 推出 3 款语音识别应用，想用 AI 帮语言障碍者说话

發(fā)布時間：2024/9/19 ChatGpt 113 豆豆

生活随笔收集整理的這篇文章主要介紹了 google套件_Google 推出 3 款语音识别应用，想用 AI 帮语言障碍者说话小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

如何讓聽障人群接聽電話，如何讓語言障礙人群與外界對話？在腦機(jī)接口技術(shù)并不成熟的現(xiàn)階段，要想完成這種不可能之事，就要指望人工智能和機(jī)器學(xué)習(xí)了。▲Live Transcribe今年 2 月，Google 在 Android 手機(jī)上推出的 Live Transcribe 應(yīng)用程序，再到 5 月的 Google I/O，發(fā)布了能夠?qū)崟r轉(zhuǎn)錄語音 / 文字支持通話的 Live Relay，以及能夠為語言障礙者實現(xiàn)語音轉(zhuǎn)寫的 Project Euphonia 項目。在「幫助人們更好地溝通」這件事情上，這些應(yīng)該是人工智能目前最前沿，并且能廣泛應(yīng)用的進(jìn)展了。應(yīng)該是目前世界上最先進(jìn)的語音識別應(yīng)用產(chǎn)品Live TranscribeLive Transcribe 是 Google 針對耳聾及聽力障礙人群開發(fā)的一款免費 Android 無障礙服務(wù)。基于此前在自動語音識別技術(shù)(ASR)的研究，Live Transcribe 將自動生成字幕的功能引入了手機(jī)設(shè)備。▲較亮的內(nèi)部同心圓代表噪聲層，外部同心圓表示手機(jī)麥克風(fēng)對說話人聲音的接收狀況。使用 Live Transcribe 的場景是這樣的：打開 Live Transcribe 這個軟件后，它會實時讀取外界的語音，并實時講語音轉(zhuǎn)錄成為文字，在手機(jī)屏幕上顯示出來。即使是說話者大笑、吹口哨等細(xì)節(jié)，也會有相應(yīng)的文字提示。也就是說只需一部聯(lián)網(wǎng)的手機(jī)，便可實現(xiàn)實時的語音轉(zhuǎn)文字功能。目前該軟件已經(jīng)支持超過 70 種語言。但 Live Transcribe 的實時轉(zhuǎn)錄，不僅需要手機(jī)設(shè)備上的神經(jīng)網(wǎng)絡(luò)做聲音分類，還需要依賴云端的三個神經(jīng)網(wǎng)絡(luò)模型，去完成語音轉(zhuǎn)錄成為文字的過程。▲Sagar Savla 在展示 Live Transcribe在我們向 Google AI Research Group 產(chǎn)品經(jīng)理 Sagar Savla 問及，何時 Live Transcribe 才能實現(xiàn)完全在本地運行、不依賴云端網(wǎng)絡(luò)時，他告訴我們：我們正在做這樣的工作，但目前沒有準(zhǔn)確的時間表。比如像中文這個語種，需要很大的模型，要想把很大的模型融入到終端設(shè)備并且保證其準(zhǔn)確性，是很有挑戰(zhàn)的。Live RelayGoogle 在今年的開發(fā)者大會上展示了 Live Relay 的能力：如何在聽不到或者沒法開口說話的情況下，輕松地打電話。如果你因為語言障礙、社恐、拔牙等各種情況沒法開口說話，在 Live Relay 的頁面輸入單詞，這個文本會被迅速轉(zhuǎn)換為音頻，發(fā)到另一個人的手機(jī)上。

如果你因為聽力障礙、身處噪音等情況沒法聽到聲音， Live Relay 也可以把通話對方的語音轉(zhuǎn)錄成為文本。目前 Live Relay 依然處于研究階段，只能在特定的 Pixel 手機(jī)上使用，并且暫時只支持英文。Live Relay 將完全在設(shè)備上運營，通過使用設(shè)備上的語音識別和文本到語音識別功能。借助即時響應(yīng)和預(yù)測性輸入建議(smart relay 和 smart compose)，打字速度提高后是可以與電話呼叫保持同步的。在我看來，雖然 Live Relay 被歸類到 Google 的無障礙項目，尤其為聽障用戶提供幫助，但其實很多人也可能用得上。比如在開會時突然接到重要電話，沒法跑出去接聽，那么 Live Relay 就能派上用場了。

Project Euphonia據(jù)統(tǒng)計，漸凍癥、多發(fā)性硬化癥、腦外傷、中風(fēng)等神經(jīng)系統(tǒng)疾病的患者，通常也會出現(xiàn)語言障礙，外界通常沒法理解這類人群說的話，以及表達(dá)方式。Euphonia 項目在為語言障礙人群建立語音識別模型，以及能夠識別手勢、眨眼、面部表情等基于計算機(jī)視覺的模型，幫助他們更好地與外界溝通表達(dá)。他們通過與漸凍癥組織合作，訓(xùn)練 AI 去學(xué)習(xí)和識別漸凍癥患者的聲音，從而實現(xiàn)對他們發(fā)音的轉(zhuǎn)錄。與此同時，他們還在正對特定的患者，訓(xùn)練個性化的 AI。比如被診斷患漸凍癥十多年的 Steve Saling，受特殊訓(xùn)練的模型可以識別出他看體育賽事時的臉部表情，從而確定他想要對外表達(dá)的情緒。在他想喝彩時，電腦會發(fā)出吹喇叭(airhorn)的聲音；喝倒彩時，則發(fā)出噓聲(boo)。Euphonia 項目的產(chǎn)品經(jīng)理 Julie Cattiau 表示，他們所面臨最大的困難是收集語音樣本。因為有語言障礙的人在人群中占比不高，并且經(jīng)常是有特定需求的，所以他們依然在招募尋找適合做這種語言識別研究的人。無障礙的新定義：確保每個用戶意圖都被理解尚有余力的科技公司，在產(chǎn)品設(shè)計、開發(fā)的時候都會或多或少地考慮信息無障礙(Accessibility)。某種程度而言，信息無障礙是智能產(chǎn)品交互設(shè)計中針對特殊人群的一個功能，它可以讓人們更加平等地享用產(chǎn)品在硬件和軟件上的各項功能。科技產(chǎn)品中的「無障礙」，相當(dāng)于互聯(lián)網(wǎng)世界中的盲道、扶手、助聽器、義肢。無論是 Android、iOS 系統(tǒng)中的無障礙功能菜單、讀屏功能、放大鏡功能、反差顏色設(shè)置，還是一些 app 接入了無障礙套件、為功能按鈕添加「標(biāo)簽」，這些都是很基礎(chǔ)的無障礙用戶體驗。基礎(chǔ)的無障礙用戶體驗，是為了讓用戶能夠更準(zhǔn)確接收到手機(jī)、電腦、app 等產(chǎn)品所發(fā)出的信息。而 Google 借助人工智能和機(jī)器學(xué)習(xí)，讓無障礙從「用戶準(zhǔn)確接收機(jī)器信息」，向「確保用戶意圖被機(jī)器理解」進(jìn)化迭代。這也意味著，「無障礙」在未來將是一種新的人機(jī)交互方式。它可以為特定人群展示提供更多的信息，也在讓用戶更便捷迅速地操作，更重要的是向「讓我來幫助你完成」演化。技術(shù)的發(fā)展在重新定義「無障礙」，也對產(chǎn)品、科技公司提出了新的要求。一個能將無障礙體驗做好的產(chǎn)品，通常也能為普通用戶提供更好的體驗。

點一下，讓更多人知道??

總結(jié)

以上是生活随笔為你收集整理的google套件_Google 推出 3 款语音识别应用，想用 AI 帮语言障碍者说话的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。