中文语音识别系统ViaVoive使用实录
“一開始我感到很懷疑,但很快就變成了驚訝,擺脫了手敲鍵盤、眼盯屏幕的打字方式,我的所有注意力都集中到我想說想寫的東西上。”
雖然我們經常在影視和文學作品中看到那種聽得懂人話的機器,但對于自己辦公桌上的那臺方方正正的計算機卻從未產生過這樣的要求,似乎使用鼠標和鍵盤與計算機交流是天經地義的。顯然這種交流方式并非最佳,否則我們每個人身上都該拖著個鍵盤。
好在技術人員并不滿足于敲敲鍵盤,點點鼠標,他們一直在努力實現一種最自然的人機交流方式-語音識別。目前這項技術已經由科研領域走進日常應用,采用該技術的軟件產品出現在主流PC上。令人興奮的是連中文(大約是世界上最難的語言)的語音識別產品也已問世,這便是由IBM推出的中文語音識別系統-ViaVoice。
ViaVoice的成功之處在于它起點較高,采用了先進的非特定人的連續語音識別技術。所謂“非特定人”是指讓計算機能夠識別各種人的語音-無論男女老幼,語調高低,甚至有輕微口音。“連續語音”是相對“非連續語音”而言的,后者要求在語音輸入時詞匯間做有意識的停頓,而前者則不需要,可以完全按正常的說話方式錄入。由于中文的語言特點,“ 連續語音”的優勢更加明顯。
百聞不如一用。我一拿到ViaVoice(beta版),便迫不及待地把光盤插入了光驅中。ViaVoice 的安裝程序在Windows95下自動運行,按標準配置安裝后,創建一個名為 IBM ViaVoice的目錄。同時安裝程序還將向系統添加必要的信息以運行語音應用程序,其中很多屬性可以被改變以適應你的特定要求。由于需要使用聲卡和麥克風接收和處理輸入的聲音信息,所以對相關硬件的設置十分重要。ViaVoice提供了硬件設置向導程序,用來選擇端口,測試聲卡和麥克風,根據使用環境設置了音頻、音量。必須指出的是一個質量好的麥克風可以濾掉大部分背景噪音,并能在噪音較大的環境下有效地進行操作而不影響語音識別的準確率。一切準備就緒,可以試試對著計算機說話了!
運行ViaVoice組件中的主程序-語音板程序,進入一個類似寫字板的環境,在菜單中選擇“開始聽寫”,揚聲器里發出一句很簡短的提示:“Now begin dictating!”我對著話筒清晰而緩慢地說“你好”,屏幕上果然跳出“你好”兩個字。我不由發出幾聲驚嘆,沒想到屏幕上竟很敏感地出現了幾個象聲詞。接下去我又隨口說了幾句話,這回就沒有那么通順了-屏幕上顯示出來的聽寫結果,一個個短語還是對的,但其間還拼湊著一些莫名其妙的字,再試試,換了周圍的人(此時我的身邊圍了一大堆同事)來念,也有各種各樣的錯誤,或許這和我們的發音是否標準有關,也和軟件的識別方式有關。按照軟件中的幫助提示,應進行注冊。
所謂"注冊"是這樣一個過程:它通過讓ViaVoice學習你的發音樣式來提高你的聽寫識別率, ViaVo ice注冊程序將編輯你的語音信息,創立你的個人語音樣板,也就是說,這是學習過程。通過注冊,軟件分析各人不同的語音特征,用你的發音規律幫助判斷識別你的語音。而在注冊過程中,用戶也能親身體會到自己用什么樣的語速語調,能最順利最準確地被分析和接收。也算是個互相學習吧!注冊將大大改善語音識別效果。
注冊分為兩部分:對一套語句進行錄音;注冊訓練,分析錄好的聲音信息。運行組件中的注冊程序,出現用戶和注冊信息對話框。對于第一次注冊,按程序提供的步驟,先念出一些指定的詞語,比如“天空”、“海洋”,被程序成功地分析并接受后,就進入句子的注冊。由于注冊語句內容被巧妙地設計為ViaVoice軟件自身的知識,我從自己一絲不茍的注冊朗讀中了解很多使用ViaVoice的技巧和注意事項,比如每個標點都要讀出來-這使人想到相聲中的“領導,冒號”,還有一些如"換行"等簡單的格式安排命令也需要念給電腦聽;再比如對于詞句的間歇和停頓也很重要。一開始注冊時,很多錄入語句不能按正確內容被識別,但隨著自己的語氣逐漸平暢自然,通過率也就越來越高,錄到三四十句,基本上已經沒什么困難。ViaVoice開始適應我了-或者說我開始有點適應它了。全部注冊內容包括兩百多句話,整個過程大約需要一個多小時,幸好不必一次完成注冊中的全部錄音,可以采取逐次錄入。但每次注冊錄音至少需要錄入50條語句,之后的任何時間你都可以停止錄音進行訓練。
注冊后的訓練是指ViaVoice使用錄好的語句為你建立個人語音模型。訓練過程將持續半個小時到一個小時,具體時間將取決于你錄下的語句或短語數量和所用計算機的運行速度。計算機處理完注冊以后, ViaVoice就可以以更高的正確率對輸入的語音進行識別。另外,每天使用ViaVoice后,你的語音庫文件都會得到更新和擴充,因此,定期的備份有助于保存日趨增加的語音詞匯。
全部注冊完成后終于可以開始正規的聽寫了。在安靜的環境下,以標準而清晰的語音進行聽寫會取得較好的效果;對含混不清且語速過快的語音,識別結果往往讓人哭笑不得。看來對于電腦,有話要好好說。開始我對大聲讀出標點符號不太適應,總覺得平添了很多麻煩,時常忘記。然而這是語音錄入所必須的,其實標點符號說得越自然,ViaVoice越能馬上聽懂,尤其是一些念起來稍復雜的,像“左書名號”“右書名號”“左引號”“右引號”“破折號”,以及“換行”、“另起一行”、“另起一段”等格式命令。習慣之后,我發現如果沒有這些幫助手段,聽寫的文字便是一團亂麻。
ViaVoice在熟悉了我的語音模板后,聽寫正確率果然大有改觀。實際上,Via Voice之所以能接收和處理你的聲音,是在一個龐大的詞匯表數據庫中檢索你的語音。該詞匯表包含30000個常用辦公詞匯,大部分計算機命令也被收錄在內,此外,隨著使用也能將詞匯表擴充到65000個詞,Via Voice以基本詞匯表和用戶的個人語音詞匯表為標準來處理聽寫過程中接收的信息。當進行聽寫時,最后幾個詞是高亮顯示,聽寫后面的詞語時它們會發生變化。V ia Voice的這個特性被稱為語言模型,面向中文的ViaVoice帶有一個普通話樣板的語言模型,基于上下文,將有助于更加準確地識別你所念的詞。在我聽寫的幾篇文章中,有一篇講秘書工作的,由于其中大部分是辦公詞匯,聽寫了3 00多字,正確率竟高達100%。而且,通過不同人的實踐可以發現,在聽寫方面,女音占有一定的優勢,大概因為女音較細而清晰,容易被分析和識別。男音渾厚,很自然的帶有一些胸腔的共鳴,有時會影響軟件的分辨,但經認真注冊,也可做到比較準確。對于講方言、普通話不標準的人來說,則有一定的困難,這畢竟是普通話樣板的語言模型,但如果有需求倒是也可以開發針對各種方言的語言識別產品。
聽寫結束以后,回頭看看屏幕上的文字,不可避免地存在需要更改和修正的地方。用ViaVoice語音板聽寫,糾錯過程和其他字處理程序不同,主要因為ViaVoice有兩種糾錯方式-語音糾錯和文本編輯。
語音糾錯:當ViaVoice發生錯誤時使用語音糾錯。也就是說糾正那些ViaVoice識別錯誤的詞。語音糾錯將調整你的個人語音文件,從而使ViaVoice在以后“聽到”該詞時能將它識別出來。你的語音糾錯次數越多,你的語音識別率也就越高。當你進行糾錯時,將出現糾錯彈出菜單。將一個詞糾正為實際正確的發音后,ViaVoice會將這個詞加入到你的個人語音文件中。
文本編輯:當糾正自己所犯的文字、文法錯誤時使用文本編輯,換句話說就是ViaVoice的識別是正確的,而需要更改的是輸入的內容本身。文本編輯不影響個人語音文件,不會改變聲音和語言模型信息。例如,你念的是“小”,Vi aVoice也識別出是“小”字,但由于內容要求要改為“大”字,就應該采用文本編輯。
由于上述語音糾錯和文本編輯之間的區別關系到個人語音文件,分清何時該使用文本編輯改變一個識別正確的詞,何時候該使用語音糾錯糾正一個被誤識的詞是很重要的。兩種修改方法的混亂使用至少會造成以下兩種錯誤:屢教不改-不能從語音模型中根除誤識,以后遇到該詞還要犯相同錯誤;顛倒是非-把錯誤信息寫入語音模型,取代原先正確的部分。
開始用ViaVoice進行工作時,最好在每一段內容輸入完后就停止聽寫,馬上糾正所有的誤識詞。這樣Via Voice將跟隨你的工作進度進行學習,特別是當你需要引入一些新的術語時,這樣做更為重要-早一點將新詞匯教給電腦,并使其記住(修改個人語音模型),在以后的輸入中,電腦便能夠識別出來這些詞,從而降低誤識率。
當然,語音板也有相同于其他字處理程序的強大編輯功能。比如說,可以將文本從語音板的文檔窗口移至任何Win dows應用程序;在任何時候可以拖放文本和OLE對象進出語音板;可刪除修改文本;在語音板口述文本后,你可以使用缺省的郵件客戶應用程序通過網絡將其發送給任何人;以多種文件格式保存你的工作等等。
除此以外,ViaVoice可以面向多個用戶,注冊時使用不同的用戶名,軟件會自動針對不同的語音特征,建立不同的語音文件,所以聽寫時還有特別值得注意的事情,就是是否處于正確的用戶環境,如果發生錯誤,很可能不知不覺地修改了他人的語音文件,導致混亂而給語音識別帶來麻煩。利用多用戶管理這個特性,一個人也可以多次注冊,建立不同的語音文件,比如一個記者,有同等重要的室內和室外工作,他可以在安靜環境下和在嘈雜環境下,建立兩份語音文件,以適應不同的需要。
所幸的是,ViaVoice提供了強大的聯機幫助手冊,可以隨時利用索引查詢所遇到的問題,幫助文件列出了詳細的解決步驟和注意事項,使用戶獲得非常方便且及時的指導。
ViaVoice的功能還有很多,作為一個初試者,我只是窺豹一斑。國外已有很多學者和職員成為這一產品的積極用戶,他們的共同感覺就是一旦人們擺脫了手敲鍵盤、眼盯屏幕的輸入方式,讓源源不斷的思維通過語言直接表達,注意力就會更集中更有效地投入到精彩的創作中來,正如人類解放了雙手,才建設了今天的世界。試用過IBM ViaVoice 軟件后,雖然感覺到它還存在很多需要改進的地方,但我還是為這一語音識別方面的重大技術成果而興奮。從早期純文本命令行的操作方式,到用鼠標輕松點擊,再到人性化的語音輸入,人機交流不斷邁向新的高度。
?
轉載于:https://www.cnblogs.com/firetruck/archive/2009/04/24/1443074.html
總結
以上是生活随笔為你收集整理的中文语音识别系统ViaVoive使用实录的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python精美地理可视化绘制——以中国
- 下一篇: 华为要做视频?苏杰称只是配合终端不涉足内