科大讯飞语音引擎_科大讯飞的1024:语音技术进一步突破,发布专用芯片
生活随笔
收集整理的這篇文章主要介紹了
科大讯飞语音引擎_科大讯飞的1024:语音技术进一步突破,发布专用芯片
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
機(jī)器之心報(bào)道
作者:一鳴、蛋醬1024 作為程序員的節(jié)日被世人所知,而科大訊飛也會(huì)在每年這個(gè)時(shí)候舉辦開發(fā)者節(jié)日和相關(guān)活動(dòng)。在今年的開發(fā)者節(jié)上,科大訊飛發(fā)布了更多關(guān)于平臺(tái),產(chǎn)品和技術(shù)方面的信息。昨日,科大訊飛 1024 全球開發(fā)者節(jié)在合肥開幕。本屆開發(fā)者節(jié)的大會(huì)上,科大訊飛表示了繼續(xù)開源,賦能企業(yè)和百萬(wàn)開發(fā)者的決心,并在技術(shù)和產(chǎn)品生態(tài)發(fā)布會(huì)上展示了多項(xiàng)新技術(shù)和產(chǎn)品。在開幕致辭中,科大訊飛董事長(zhǎng)劉慶峰與大家分享了科大訊飛在 20 年創(chuàng)業(yè)經(jīng)驗(yàn)中,對(duì)人工智能未來(lái)發(fā)展的預(yù)判和感悟。他表示,人工智能到底處于什么樣的發(fā)展階段,要基于三個(gè)標(biāo)準(zhǔn)去判斷:人工智能不再只是個(gè)「概念」,要有看得見、摸得著的應(yīng)用案例;這些案例能不能規(guī)?;茝V;有沒(méi)有統(tǒng)計(jì)數(shù)據(jù)可以證明應(yīng)用效果。2019 年,各行各業(yè)不斷涌現(xiàn)的 AI 應(yīng)用落地足以證明,人工智能的紅利階段已經(jīng)到來(lái)。劉慶峰在演講中列舉了科大訊飛在 AI 領(lǐng)域的應(yīng)用落地。比如在教育方面,人工智能讓教育者有效縮短批卷時(shí)間,對(duì)學(xué)生的訓(xùn)練時(shí)間可以減少 50%,因此孔子在 2000 多年前提出的「因材施教」才真正得以實(shí)現(xiàn);在醫(yī)療方面,人工智能可以將診斷水平提升到 90 分,提高診斷效率,讓高端優(yōu)質(zhì)的醫(yī)療專家資源向重大疑難疾病傾斜。劉慶峰強(qiáng)調(diào),種種人工智能落地應(yīng)用說(shuō)明,AI 發(fā)展并非只是燒錢的玩具,人工智能可以解決人類的很多剛需問(wèn)題。不斷升級(jí),《1024 計(jì)劃》進(jìn)入 3.0 時(shí)代自 2017 年首屆全球 1024 開發(fā)者節(jié)正式推出《1024 計(jì)劃》以后,科大訊飛一直在從 A.I. 教引、A.I. 生態(tài)、A.I. 公益三個(gè)方面,輔導(dǎo)、賦能開發(fā)者,關(guān)注公益事業(yè)。作為 1024 開發(fā)者大會(huì)的重要環(huán)節(jié)之一,科大訊飛輪值總裁胡郁發(fā)布了全新升級(jí)的《1024 計(jì)劃》。他表示:「科大訊飛將繼續(xù)堅(jiān)定實(shí)行,共同打造去中心化的商業(yè)生態(tài)體系,通過(guò) A.I. Agent 與各產(chǎn)業(yè)領(lǐng)域深度結(jié)合共同構(gòu)建屬于不同領(lǐng)域生態(tài)的 Keystones。」在今年的版本中,A.I. 教引計(jì)劃、A.I. 生態(tài)計(jì)劃、A.I. 公益計(jì)劃分別升級(jí)到了 3.0 版本,希望能夠?qū)崿F(xiàn)輔導(dǎo)、賦能開發(fā)者的初衷,同時(shí)更加關(guān)注公益事業(yè)。始于兩年前的 1024 計(jì)劃,科大訊飛正在進(jìn)一步細(xì)化計(jì)劃內(nèi)容,使其變得更為開放多元。在 1024 的發(fā)布會(huì)上,胡郁公布了一組數(shù)據(jù):A.I. 大學(xué)逐漸發(fā)展成為國(guó)內(nèi)首個(gè)最大的 A.I. 在線學(xué)習(xí)平臺(tái),目前已擁有超過(guò) 31 萬(wàn)學(xué)員;A.I. 生態(tài)計(jì)劃形成了能力星云、iFLYOS & A.I.oT、解決方案三大生態(tài)產(chǎn)品矩陣,目前亦吸引了 160 萬(wàn)生態(tài)伙伴入駐;A.I. 公益的方言保護(hù)計(jì)劃則吸引 700 萬(wàn)人參與,科大訊飛還為助殘應(yīng)用免費(fèi)提供技術(shù)支持,賦能殘障者與世界無(wú)障礙溝通。胡郁表示,1024 計(jì)劃的最終目的是為了打造去中心化的混合正交商業(yè)生態(tài)系統(tǒng),形成圍繞 AI 技術(shù)和應(yīng)用的商業(yè)體系。語(yǔ)音領(lǐng)域仍有驚喜,新技術(shù)持續(xù)突破今年的 1024 開發(fā)者節(jié)現(xiàn)場(chǎng),科大訊飛著重進(jìn)行了多項(xiàng)新技術(shù)展示,主要分為語(yǔ)音(語(yǔ)音識(shí)別、語(yǔ)音合成)、自然語(yǔ)言處理(機(jī)器翻譯)等和開放平臺(tái)板塊。科大訊飛研究院常務(wù)副院長(zhǎng)劉聰介紹了科大訊飛在技術(shù)方面的主要突破。記憶增強(qiáng)的多通道全端到端語(yǔ)音識(shí)別框架在語(yǔ)音識(shí)別領(lǐng)域,科大訊飛雖然已經(jīng)積累了成熟的技術(shù)經(jīng)驗(yàn),但仍進(jìn)一步探索提升語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確性和可靠性。在語(yǔ)音識(shí)別中,考慮到過(guò)去的識(shí)別需要首先收音,然后進(jìn)行降噪處理再進(jìn)行識(shí)別的方式較為復(fù)雜,且管道式的流程降低識(shí)別準(zhǔn)確率的問(wèn)題,今年的科大訊飛開發(fā)了名為「記憶增強(qiáng)的多通道全端到端語(yǔ)音識(shí)別框架」,這是一種完全將前端語(yǔ)音處理過(guò)程深度學(xué)習(xí)化,使用深度卷積神經(jīng)網(wǎng)絡(luò)和后端識(shí)別模型進(jìn)行混合訓(xùn)練,進(jìn)行直接語(yǔ)音識(shí)別的算法。具體而言,該算法采用 Encoder-Decoder 的架構(gòu),使用深層次卷積和后端識(shí)別模型進(jìn)行混合訓(xùn)練,使得神經(jīng)網(wǎng)絡(luò)可以收音后進(jìn)行前端信號(hào)處理和后端識(shí)別工作。此外,由于深度學(xué)習(xí)模型對(duì)長(zhǎng)尾數(shù)據(jù)建模不夠理想,科大訊飛在該模型中引入了外部知識(shí)。例如,系統(tǒng)可以記錄下不同語(yǔ)種的熱詞,在語(yǔ)音識(shí)別的過(guò)程中讓模型進(jìn)行調(diào)用,從而矯正識(shí)別過(guò)程中的問(wèn)題。目前,科大訊飛在通用語(yǔ)音識(shí)別任務(wù)上的準(zhǔn)確率已達(dá)到 98%。在最近開始出現(xiàn)的多語(yǔ)種混合的語(yǔ)音識(shí)別任務(wù)上,科大訊飛也進(jìn)行了技術(shù)上的新研究。以中英混合輸入為例,通過(guò)采用 code-switching 的方案,使中英文混合輸入時(shí),英文的準(zhǔn)確性也達(dá)到了 90% 的水平。目前,在混合語(yǔ)音識(shí)別場(chǎng)景下,科大訊飛已實(shí)現(xiàn)了中英粵等多種語(yǔ)言方言的混合輸入技術(shù)。劉聰表示,雖然通用的語(yǔ)音識(shí)別技術(shù)能力已經(jīng)達(dá)到很高的水平,但在定制化的場(chǎng)景下,科大訊飛依然在進(jìn)行語(yǔ)音識(shí)別中更細(xì)分的技術(shù)研發(fā)工作。例如,在語(yǔ)音交互場(chǎng)景中,由于對(duì)識(shí)別實(shí)時(shí)性要求很高,模型需要根據(jù)設(shè)備進(jìn)行嵌入式設(shè)計(jì),這需要依賴專家知識(shí),也耗費(fèi)了很多研究者的精力。隨著近來(lái) AutoML 技術(shù)的興起,科大訊飛也在語(yǔ)音識(shí)別的網(wǎng)絡(luò)架構(gòu)搜索中使用了這項(xiàng)技術(shù)。搜索出的架構(gòu)類似于殘差網(wǎng)路,相比業(yè)界主流的模型性能提升了 15% 以上。基于聽感量化的統(tǒng)一語(yǔ)音合成框架在語(yǔ)音合成方面,科大訊飛也展示了其具有的技術(shù)實(shí)力。首先,在 AI 新生態(tài)產(chǎn)品發(fā)布會(huì)開始時(shí),特意讓劉聰變聲,使用主持人(女)的聲音和主持人進(jìn)行普通話、合肥話方言的互動(dòng) PK。此外,發(fā)布活動(dòng)中,科大訊飛將合成語(yǔ)音和電視臺(tái)主持人的圖像視頻結(jié)合,讓主持人開口唱《我和我的祖國(guó)》,同時(shí)保證了話音一致。這一技術(shù)的背后,離不開科大訊飛在語(yǔ)音合成方面進(jìn)一步的積累探索。據(jù)劉聰介紹,科大訊飛研發(fā)出了名為「基于聽感量化的統(tǒng)一框架」,可以在語(yǔ)音合成過(guò)程中同時(shí)實(shí)現(xiàn)合成和聲音的變化。在模型中,其可以對(duì)各類輸入語(yǔ)音的特征進(jìn)行量化編碼,提取諸如音色、音調(diào)、說(shuō)話風(fēng)格等方式的特征,使用編碼對(duì)合成的語(yǔ)音進(jìn)行控制。由于單人語(yǔ)音合成對(duì)數(shù)據(jù)輸入量要求很高,且魯棒性相對(duì)不足,科大訊飛在模型中采用了 GAN 的架構(gòu)。這也是目前少見的,利用 GAN 解決語(yǔ)音合成問(wèn)題的方案。在今年的國(guó)際暴雪語(yǔ)音合成挑戰(zhàn)賽上,科大訊飛合成了羅振宇的脫口秀聲音,自然度分?jǐn)?shù)達(dá)到 4.5,接近原聲的 4.7。機(jī)器翻譯融入語(yǔ)音統(tǒng)一框架機(jī)器翻譯方面一直是科大訊飛的強(qiáng)項(xiàng)。在過(guò)去的很多技術(shù)中,翻譯的整體流程是:針對(duì)每一種語(yǔ)言或方言,首先進(jìn)行識(shí)別,然后再進(jìn)行翻譯。在本次 1024 開發(fā)者節(jié)上,科大訊飛進(jìn)一步介紹了在機(jī)器翻譯領(lǐng)域的新工作。具體而言,考慮到目前機(jī)器翻譯需要針對(duì)不同的模型構(gòu)建模型、需求數(shù)據(jù)量大、對(duì)標(biāo)注要求高的問(wèn)題,科大訊飛提出了一些解決方法。首先,構(gòu)建起一整套統(tǒng)一的建模方案,使得新的語(yǔ)言建??梢垣@得語(yǔ)言信息,降低了對(duì)數(shù)據(jù)的依賴。其次,讓翻譯和語(yǔ)音識(shí)別、語(yǔ)言合成結(jié)合起來(lái),構(gòu)建端到端的模型,以便降低對(duì)數(shù)據(jù)標(biāo)注要求的精度。最后,使用半監(jiān)督和遷移學(xué)習(xí),減少對(duì)數(shù)據(jù)量的需求。此外,在翻譯任務(wù)本身,科大訊飛也提出了新的翻譯模型,名為「融合領(lǐng)域知識(shí)的多通道半監(jiān)督約束編解碼翻譯框架」。這是一個(gè)針對(duì)語(yǔ)音輸入進(jìn)行機(jī)器翻譯的模型,用于解決機(jī)器翻譯任務(wù)中的三個(gè)難點(diǎn)。首先,語(yǔ)音輸入相比文本文字帶有更多的說(shuō)話人的信息,如聲調(diào)高低、抑揚(yáng)頓挫等。如果將其轉(zhuǎn)換為文字后再識(shí)別,無(wú)疑會(huì)失去這些有用的信息。因此,在這一模型中,科大訊飛加入了多通道編碼機(jī)制,將語(yǔ)音的序列、文本標(biāo)簽等多種信息和原始的機(jī)器翻譯模型結(jié)合,使翻譯文本有著更多的容錯(cuò)空間。同時(shí),由于機(jī)器翻譯在長(zhǎng)文本中的翻譯水平不夠理想,科大訊飛在研究中加入了語(yǔ)義分塊的約束解碼機(jī)制。其中,語(yǔ)義分塊用于加速翻譯進(jìn)程,而約束解碼可以降低損失。這使得翻譯模型從簡(jiǎn)單的旅游口語(yǔ)對(duì)話翻譯場(chǎng)景擴(kuò)展到大型會(huì)議方面的場(chǎng)景上。據(jù)悉,科大訊飛在與中國(guó)外文局科研測(cè)試中,其模型已全國(guó)翻譯專業(yè)資格考試的二級(jí)交傳口譯和三級(jí)口譯的水平測(cè)試。這一技術(shù)預(yù)計(jì)將會(huì)在 2022 年的冬奧會(huì)上使用。除了語(yǔ)音和機(jī)器翻譯相關(guān)的技術(shù)突破,科大訊飛今年也進(jìn)一步探索了其他的技術(shù)領(lǐng)域和任務(wù),包括個(gè)性化推薦、機(jī)器閱讀理解和 OCR 等。在個(gè)性化推薦方面,科大訊飛將模型應(yīng)用于教育領(lǐng)域,實(shí)現(xiàn)對(duì)學(xué)生學(xué)習(xí)能力的精準(zhǔn)評(píng)估,并根據(jù)知識(shí)圖譜等方式,為學(xué)生推薦個(gè)性化、定制化的教育方案。在機(jī)器閱讀理解方面,科大訊飛宣布其和哈工大共同研究的模型已經(jīng)在 SQuAD 2.0 榜單上超過(guò)人類平均水平(以 F1 和 EM 分?jǐn)?shù)評(píng)價(jià))。此外,科大訊飛開發(fā)了 OCR 相關(guān)的技術(shù),可以在有很多圖章、表格、文本符號(hào)的情況下識(shí)別文本內(nèi)容。這一研究已廣泛應(yīng)用于法院相關(guān)的工作,如卷宗和材料整理、證據(jù)鏈的電子化等。該技術(shù)近日也和其他技術(shù)相結(jié)合,甚至可以提供證據(jù)材料的對(duì)比和瑕疵識(shí)別方面的服務(wù)。使用帶有語(yǔ)義分割能力的模型進(jìn)行 OCR 識(shí)別。助力開發(fā)者:訊飛平臺(tái)進(jìn)一步開放在當(dāng)天的技術(shù)發(fā)布會(huì)上,科大訊飛宣布了兩個(gè)技術(shù)相關(guān)的平臺(tái)開源計(jì)劃,分別為歸云平臺(tái)和飛云平臺(tái)。歸云平臺(tái)主要是面向各類實(shí)際應(yīng)用的開發(fā)者,為他們提供科大訊飛的各項(xiàng)技術(shù)能力,包括前述提到的各項(xiàng)語(yǔ)音識(shí)別、合成等。更重要的是,歸云平臺(tái)可以讓將多種能力進(jìn)行組合,使用拖拽式的方式構(gòu)建一個(gè)統(tǒng)一的業(yè)務(wù)管道。例如,歸云平臺(tái)提供 OCR、語(yǔ)音合成、機(jī)器翻譯三項(xiàng)能力,開發(fā)者可以將這些能力組合,形成一個(gè)首先識(shí)別文字,然后進(jìn)行翻譯,最后使用合成聲音朗讀的業(yè)務(wù)流程。流程建立后,科大訊飛提供一個(gè)獨(dú)有的 API 接口,開發(fā)者可直接調(diào)用,不需要關(guān)心內(nèi)部的協(xié)議等實(shí)現(xiàn)細(xì)節(jié)。此外,科大訊飛還提供了飛云平臺(tái),讓開發(fā)者將開發(fā)好的模型和能力上傳至云端,由飛云平臺(tái)提供分布式計(jì)算和性能加速方面的服務(wù)。AIoT 領(lǐng)域持續(xù)發(fā)力,語(yǔ)音專用芯片驚艷在 1024 開發(fā)者節(jié)上,科大訊飛副總裁于繼棟介紹了發(fā)布的 iFLYOS 平臺(tái)的進(jìn)展情況,以及一些新的產(chǎn)品。iFLYOS 成為產(chǎn)品智能化入口首先,于繼棟介紹了 iFLYOS 對(duì)于科大訊飛的重要意義。iFLYOS 通過(guò)集成科大訊飛各項(xiàng) AI 能力,幫助企業(yè)在產(chǎn)品中獲得這些能力,從而打造 AIoT 產(chǎn)品。為了加快 AI 應(yīng)用落地,iFLYOS 集成了多項(xiàng)新功能。首先是 iFLYOS-studio,開發(fā)者可以在可視化界面中進(jìn)行編程工作,并打造新的應(yīng)用。此外,iFLYOS 和集成了多種內(nèi)容和技術(shù),供開發(fā)者使用。同時(shí),iFLYOS 和硬件方面進(jìn)行了打通,目前可以適配如 MT8516 等多種芯片硬件,使得在移動(dòng)和嵌入式設(shè)備中部署模型更加方面。此外,iFLYOS 還提供了公版模型。開發(fā)者可使用這些模型,結(jié)合業(yè)務(wù)需要重新定制自身的產(chǎn)品。隨后,于繼棟介紹了科大訊飛在多個(gè)領(lǐng)域中的技術(shù)應(yīng)用情況,提到了智能家居、車載系統(tǒng)、兒童教育等方面的應(yīng)用?;?iFLYOS,科大訊飛開源了多個(gè)相關(guān)應(yīng)用場(chǎng)景的開發(fā)平臺(tái),如 iFLYOS-Auto、Athena Serving 等。在應(yīng)用開發(fā)方面,科大訊飛介紹了在開源方面的工作,其中包括 AI-Factory 和能力星云 2.0 計(jì)劃。AI-Factory 是一個(gè) API 工廠,為開發(fā)者提供定制化優(yōu)化算法的相關(guān)技術(shù)。據(jù)于繼棟介紹,在 2019 年年底之前,語(yǔ)音相關(guān)的技術(shù)能力便會(huì)登陸平臺(tái)。而在明年上半年則會(huì)增加計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解等方面的技術(shù)。能力星云 2.0 則是 AI 全棧服務(wù)平臺(tái),通過(guò)引入研究者和開發(fā)者的方式創(chuàng)造更多的 AI 能力。布局芯片,穹天科技浮出水面在 AI 生態(tài)產(chǎn)品發(fā)布環(huán)節(jié),科大訊飛集團(tuán)副總裁、消費(fèi)者 BG 副總裁于繼棟正式發(fā)布了聯(lián)合生態(tài)合作伙伴打造的家電行業(yè)專用語(yǔ)音芯片 CSK400X 系列。于繼棟表示,AIoT 已經(jīng)成為科大訊飛的核心戰(zhàn)略之一。在 AIoT 時(shí)代,智能硬件市場(chǎng)對(duì)芯片的算力提出了更高的需求,但從芯片市場(chǎng)的現(xiàn)狀來(lái)看,高算力與價(jià)格往往難以取得平衡,而且芯片與算法的適配難度比較高,MCU 也常常并非針對(duì)神經(jīng)網(wǎng)絡(luò)而設(shè)計(jì)。科大訊飛與生態(tài)合作伙伴穹天科技根據(jù)訊飛 AI 算法為 CSK400X 系列語(yǔ)音芯片設(shè)計(jì)了 NPU 框架與規(guī)格,并設(shè)計(jì)了針對(duì)神經(jīng)網(wǎng)絡(luò)的底層算子。據(jù)了解,這款芯片可借助神經(jīng)網(wǎng)絡(luò)算法解決家居中的噪音問(wèn)題,算力可達(dá)到 128GOPS,同時(shí)支持全棧語(yǔ)音能力,包括離線喚醒、遠(yuǎn)場(chǎng)陣列降噪、回聲消除等優(yōu)化功能,適用智能家電、玩具、音箱、離線門禁等落地場(chǎng)景。從科大訊飛 1024 開發(fā)者節(jié)發(fā)布會(huì)上可以看到,盡管 AI 技術(shù)已日臻成熟,但如何在細(xì)分場(chǎng)景做到最好,如何進(jìn)一步推進(jìn) AI 技術(shù)廣泛應(yīng)用仍是科大訊飛思考的問(wèn)題。隨著其平臺(tái)的逐步開放,與開發(fā)者和合作企業(yè)進(jìn)行更緊密的交流互動(dòng),推進(jìn) AI 整體生態(tài)的建設(shè),無(wú)疑是下一步前進(jìn)的方向。第三屆機(jī)器之心「Synced Machine Intelligence Awards」年度獎(jiǎng)項(xiàng)評(píng)選正在進(jìn)行中。本次評(píng)選設(shè)置六大獎(jiǎng)項(xiàng),重點(diǎn)關(guān)注人工智能公司的產(chǎn)品、應(yīng)用案例和產(chǎn)業(yè)落地情況,基于真實(shí)客觀的產(chǎn)業(yè)表現(xiàn)篩選出最值得關(guān)注的企業(yè),為行業(yè)帶來(lái)實(shí)際的參考價(jià)值。
參選報(bào)名日期:2019 年 10 月 23 日~2019 年 12 月 15 日評(píng)審期:2019 年 12 月 16 日~2019 年 12 月 31 日獎(jiǎng)項(xiàng)公布:2020 年 1 月點(diǎn)擊,查看更多詳情并報(bào)名參選。 《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的科大讯飞语音引擎_科大讯飞的1024:语音技术进一步突破,发布专用芯片的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 开课吧怎么样_开课吧数据产品经理课程包括
- 下一篇: 如何看exe文件源代码_杀进程、删文件.