细粒度识别 | 百度细粒度识别方案
近日,百度發(fā)布了用于花卉識(shí)別的移動(dòng)端應(yīng)用,這種基于全卷積注意力網(wǎng)絡(luò)的細(xì)粒度識(shí)別方法在計(jì)算和準(zhǔn)確度上都有非常強(qiáng)大的優(yōu)勢(shì)。在百度主任研發(fā)架構(gòu)師陳凱和資深研發(fā)工程師胡翔宇的解釋下,本文首先將介紹什么是細(xì)粒度識(shí)別,以及一般的細(xì)粒度識(shí)別方法,然后重點(diǎn)解析百度基于強(qiáng)化學(xué)習(xí)和全卷積注意力網(wǎng)絡(luò)的細(xì)粒度識(shí)別模型。五一出游賞花,為女朋友解釋解釋細(xì)粒度識(shí)別也是極好的。
? ? ? ?細(xì)粒度識(shí)別的概念其實(shí)非常簡(jiǎn)單,即模型需要識(shí)別非常精細(xì)的子類(lèi)別。例如百度的花卉識(shí)別應(yīng)用,模型不僅需要如一般識(shí)別問(wèn)題那樣檢測(cè)出物體是不是花,同時(shí)還需要檢測(cè)出物體具體屬于哪一品種的花。而通常屬于不同子類(lèi)別的物體是非常相似的,例如櫻花和桃花等,我們不僅需要花的整體信息來(lái)識(shí)別它是「花」,同時(shí)還需要局部信息來(lái)確定「花」的品種。
從這一觀點(diǎn)出發(fā),細(xì)粒度識(shí)別基本上就是同時(shí)使用全局信息和局部信息的分類(lèi)任務(wù)。對(duì)于花的細(xì)粒度識(shí)別來(lái)說(shuō),全局信息就是用戶拍攝的整張圖像,而局部信息則是圖像中的花或花的重要部位。這兩部分信息都包括在整張圖像中,我們希望模型根據(jù)整張圖像預(yù)測(cè)出具體的細(xì)分類(lèi)別。
百度借助了知識(shí)圖譜對(duì)世界上的花卉名字進(jìn)行科學(xué)的科、屬、種劃分,建立了一個(gè)非常專(zhuān)業(yè)的花卉類(lèi)別庫(kù)。而對(duì)于其它巨量?jī)?yōu)質(zhì)的花卉圖像,標(biāo)注人員通過(guò)權(quán)威樣本庫(kù)中的文字描述,并在中科院老師的幫助下,根據(jù)花卉的葉子、形狀、顏色等微觀特征進(jìn)行挑選與標(biāo)注。此外,百度還進(jìn)行了標(biāo)注質(zhì)量的檢查,標(biāo)注準(zhǔn)確率在 95% 以上。最后,這些巨量的標(biāo)注數(shù)據(jù)包含了花卉的整體圖像和對(duì)應(yīng)的精細(xì)品種。
其實(shí)整體圖像隱含地包括了全局信息與局部信息,但一般來(lái)說(shuō),局部信息同樣也需要標(biāo)注,而利用這些局部標(biāo)注的方法即基于強(qiáng)監(jiān)督信息的細(xì)粒度識(shí)別。不過(guò)這種局部標(biāo)注是非常昂貴的,因此很多模型嘗試自己學(xué)習(xí)重要的局部區(qū)域,這一類(lèi)方法即基于弱監(jiān)督信息的細(xì)粒度識(shí)別。
百度所采用的全卷積注意力網(wǎng)絡(luò)是一種基于弱監(jiān)督信息的細(xì)粒度識(shí)別方法,它不需要標(biāo)注局部特征,并通過(guò)下文描述的全卷積注意力網(wǎng)絡(luò)和馬爾科夫決策過(guò)程自動(dòng)學(xué)習(xí)重要的區(qū)域。
細(xì)粒度識(shí)別
如上所述,細(xì)粒度識(shí)別可分為強(qiáng)監(jiān)督和弱監(jiān)督兩種。最開(kāi)始優(yōu)秀的模型一般都是基于強(qiáng)監(jiān)督的,它們?cè)跍y(cè)試集上有更好的性能。但基于強(qiáng)監(jiān)督的方法標(biāo)注成本非常高,且局部標(biāo)注在遇到遮擋等情況時(shí)就會(huì)完全失去作用,因此更多的研究者開(kāi)始探討基于弱監(jiān)督的細(xì)粒度識(shí)別方法。以下簡(jiǎn)單地介紹了這兩種方法的實(shí)例,即基于強(qiáng)監(jiān)督的 Part-based R-CNN 和弱監(jiān)督的 Bilinear CNN。
基于強(qiáng)監(jiān)督信息的細(xì)粒度識(shí)別通常需要使用邊界框和局部標(biāo)注信息,例如 2014 年提出的 Part-based R-CNN 利用自底向上的候選區(qū)域(region proposals)計(jì)算深度卷積特征而實(shí)現(xiàn)細(xì)粒度識(shí)別。這種方法會(huì)學(xué)習(xí)建模局部外觀,并加強(qiáng)局部信息之間的幾何約束。
如上所示,局部區(qū)域?qū)淖缘紫蛏系暮蜻x區(qū)域開(kāi)始(左上角),我們將基于深度卷積特征同時(shí)訓(xùn)練目標(biāo)和局部區(qū)域。在推斷階段,所有的窗口都會(huì)由檢測(cè)器評(píng)分(中間),且我們可以應(yīng)用非參幾何約束(底部)重新評(píng)估窗口并選擇最優(yōu)的目標(biāo)和局部檢測(cè)(右上角)。最后的步驟就是抽取局部語(yǔ)義信息來(lái)用于細(xì)粒度識(shí)別,并訓(xùn)練一個(gè)分類(lèi)器預(yù)測(cè)最終類(lèi)別。
而基于弱監(jiān)督信息的細(xì)粒度識(shí)別也有很多方法,例如 15 年提出的 Bilinear CNN,它由兩個(gè)特征提取器組成,它們?cè)诿總€(gè)圖像位置的輸出使用外積相乘,并池化以獲得一個(gè)圖像描述子。這種架構(gòu)能以轉(zhuǎn)譯不變的方式對(duì)局部成對(duì)特征的交互進(jìn)行建模,這對(duì)于細(xì)粒度識(shí)別非常重要。
Bilinear CNN 所使用的外積捕捉了特征通道之間的成對(duì)相關(guān)性,因此可以建模局部特征的交互,即如果一個(gè)網(wǎng)絡(luò)是局部檢測(cè)器,那么另一個(gè)網(wǎng)絡(luò)就是局部特征抽取器。以下展示了用于細(xì)粒度分類(lèi)的 Bilinear CNN 模型,在推斷過(guò)程中,一張圖像將傳入兩個(gè)卷積神經(jīng)網(wǎng)絡(luò) A 和 B,然后對(duì)應(yīng)位置的外積相乘得出雙線性向量,并傳入 Softmax 層以完成分類(lèi)。
百度所采用的細(xì)粒度識(shí)別方法也是一種使用弱監(jiān)督的策略,它通過(guò)全卷積注意力網(wǎng)絡(luò)實(shí)現(xiàn)類(lèi)別預(yù)測(cè),并基于強(qiáng)化學(xué)習(xí)調(diào)整需要注意的局部區(qū)域。
全卷積注意力網(wǎng)絡(luò)
盡管最近研究社區(qū)將目光投向弱監(jiān)督的細(xì)粒度識(shí)別方法,但它的效果和實(shí)踐上都有一些差距。百度的細(xì)粒度模型通過(guò)利用強(qiáng)化學(xué)習(xí)選擇注意區(qū)域而大大減少了強(qiáng)監(jiān)督所需要的圖像標(biāo)注量,且還能以非常高的準(zhǔn)確度部署到應(yīng)用中。他們構(gòu)建一種全卷積注意網(wǎng)絡(luò),并根據(jù)馬爾科夫決策過(guò)程確定哪些局部圖像塊對(duì)最終預(yù)測(cè)有幫助,因此圖像的細(xì)粒度分類(lèi)將同時(shí)利用全局圖像和那些重要的局部圖像完成預(yù)測(cè)。
百度提出的這種架構(gòu)首先基于弱監(jiān)督強(qiáng)化學(xué)習(xí)而不需要昂貴的標(biāo)注,其次它所采用的全卷積網(wǎng)絡(luò)可以加速訓(xùn)練和推斷過(guò)程,最后貪婪的獎(jiǎng)勵(lì)策略可以加速學(xué)習(xí)的收斂,這三點(diǎn)也是百度細(xì)粒度模型的顯著特點(diǎn)。
胡翔宇表示:「這種網(wǎng)絡(luò)其實(shí)和人類(lèi)的視覺(jué)系統(tǒng)非常像,在我們識(shí)別細(xì)分類(lèi)別時(shí),首先會(huì)查看整體特征而確定大概的類(lèi)別,然后再仔細(xì)觀察有區(qū)分度的特征確定細(xì)分類(lèi)別。」百度的全卷積注意力網(wǎng)絡(luò)(FCANs)同樣首先會(huì)抽取整張圖的特征進(jìn)行分類(lèi),然后截取一小塊特征圖(Feature Map)作為當(dāng)前網(wǎng)絡(luò)注意的區(qū)域,當(dāng)這樣的區(qū)域是具有區(qū)分度的特征時(shí),模型就更能正確預(yù)測(cè)出細(xì)分類(lèi)別。
模型架構(gòu)
該模型主要的架構(gòu)如下圖所示可以分為特征抽取階段、局部特征注意區(qū)域和分類(lèi)過(guò)程。總體而言模型會(huì)先使用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)抽取圖像特征,然后再結(jié)合整體圖像信息和局部重要信息預(yù)測(cè)最終類(lèi)別。
如上所示,在下部分的訓(xùn)練過(guò)程中,抽取的特征圖會(huì)在所有通道上做一些截取,截取的部分就相當(dāng)于模型關(guān)注的局部原始圖像。如果說(shuō)這個(gè)截取在最后的分類(lèi)階段中提升了預(yù)測(cè)效果,那么它就是值得注意的區(qū)域。在上部分的推斷過(guò)程中,模型將利用輸入圖像的全局特征和所有重要的局部圖像預(yù)測(cè)精細(xì)類(lèi)別。
特征圖的抽取
特征圖會(huì)通過(guò)全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行抽取,一般我們可以選擇 VGG 或 ResNet 等流行的網(wǎng)絡(luò)架構(gòu),并在 ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練而能抽取一般圖像的特征。胡翔宇表示:「百度很早就開(kāi)始重視數(shù)據(jù)方面的建設(shè),借助搜索方面的經(jīng)驗(yàn)與對(duì)網(wǎng)頁(yè)數(shù)據(jù)的理解,我們可以獲取很多優(yōu)質(zhì)的樣本。抽取特征的全卷積網(wǎng)絡(luò)會(huì)在百度內(nèi)部的數(shù)據(jù)集上預(yù)訓(xùn)練,它的規(guī)模要比 ImageNet 大很多,特征抽取的效果也要好一些。」
在訓(xùn)練過(guò)程中,特征抽取只會(huì)運(yùn)行一次,因此一張輸入圖像最后只會(huì)輸出一組特征圖。這組特征圖首先可以直接用于預(yù)測(cè)圖像類(lèi)別,其次我們可以截取特征圖的一個(gè)小部分(包含所有通道)作為模型可能需要注意的區(qū)域。這樣的截取其實(shí)就近似于在輸入圖像上截取一個(gè)部分(感受視野),只不過(guò)直接截取特征圖不需要重新抽取特征,因此會(huì)極大地減少計(jì)算量。
在推斷過(guò)程中,特征圖的抽取需要執(zhí)行很多次,但它們都能并行地處理。直觀而言,訓(xùn)練學(xué)習(xí)到的注意力區(qū)域其實(shí)就相當(dāng)于一種掩碼,它表示該區(qū)域的特征對(duì)最終預(yù)測(cè)有很重要的作用。百度并行地從輸入圖像抽取各個(gè)重要部分和全局的特征圖,并結(jié)合它們的信息預(yù)測(cè)精細(xì)類(lèi)別。
注意力區(qū)域
在抽取特征后,模型需要學(xué)習(xí)哪些局部區(qū)域?qū)ψ罱K分類(lèi)是重要的,而確定重要性的標(biāo)準(zhǔn)即局部區(qū)域?qū)ψ罱K預(yù)測(cè)是否有幫助。在這一階段中,注意力網(wǎng)絡(luò)會(huì)將基本的局部卷積特征圖生成一張?jiān)u分圖或置信圖,即通過(guò)疊加的兩個(gè)卷積層將特征圖轉(zhuǎn)換為通道數(shù)為 1 的評(píng)分圖。一般第一個(gè)卷積層可使用 64 個(gè) 3×3 的卷積核,而第二個(gè)卷積層可使用 1 個(gè) 3×3 的卷積核將通道數(shù)降為 1,這一張置信圖展示了模型關(guān)注的興趣點(diǎn)。
胡翔宇說(shuō):「興趣點(diǎn)是網(wǎng)絡(luò)自己學(xué)到的,而裁剪的大小是我們給定的。我們首先會(huì)給一個(gè) 8×8 的較大裁剪窗口,相當(dāng)于關(guān)注較大的區(qū)域。隨著迭代的進(jìn)行,我們會(huì)慢慢減小裁剪窗口,這相當(dāng)于關(guān)注更小的細(xì)節(jié)。」裁剪后的特征圖一般需要饋送到 Softmax 層以將置信圖轉(zhuǎn)換為概率圖。
其實(shí)在訓(xùn)練或推斷中直接截取輸入圖像作為注意的局部特征有最好的效果,但這種方法在訓(xùn)練中計(jì)算量太大,且因?yàn)榉诸?lèi)網(wǎng)絡(luò)的時(shí)序預(yù)測(cè)而不能并行處理。不過(guò)在推斷中可以直接使用圖像的局部區(qū)域,因?yàn)楹竺娴姆诸?lèi)網(wǎng)絡(luò)允許并行計(jì)算。此外,百度通過(guò)強(qiáng)化學(xué)習(xí)確定注意力區(qū)域,這一點(diǎn)將在后面討論。
分類(lèi)網(wǎng)絡(luò)
最后的分類(lèi)網(wǎng)絡(luò)將結(jié)合全局圖像信息和局部特征信息預(yù)測(cè)最終的精細(xì)類(lèi)別,訓(xùn)練階段和推斷階段的分類(lèi)網(wǎng)絡(luò)架構(gòu)也不一樣。這種架構(gòu)上的區(qū)別主要在于訓(xùn)練階段需要根據(jù)分類(lèi)結(jié)果動(dòng)態(tài)地調(diào)整注意力區(qū)域,而推斷過(guò)程直接使用重要的注意力區(qū)域聯(lián)合預(yù)測(cè)最終類(lèi)別。
胡翔宇表示:「在訓(xùn)練階段中,前向傳播的過(guò)程有點(diǎn)類(lèi)似循環(huán)神經(jīng)網(wǎng)絡(luò)。首先模型會(huì)根據(jù)全局特征圖預(yù)測(cè)圖像類(lèi)別,然后再結(jié)合第一個(gè)抽取的局部特征圖重新預(yù)測(cè)類(lèi)別,這里的方法可以簡(jiǎn)單地將前一次的 Softmax 結(jié)果與后一次的 Softmax 結(jié)果求平均。」最后,考慮加入第一個(gè)注意力區(qū)域后是否提升預(yù)測(cè)效果,我們可以確定該區(qū)域是否重要。這樣繼續(xù)添加新的局部注意力區(qū)域可以搜索所有重要的局部區(qū)域。
在推斷中,我們可以并行地使用全卷積神經(jīng)網(wǎng)絡(luò)抽取全局特征圖和所有重要局部特征圖,然后饋送到 Softmax 中以分別計(jì)算出對(duì)應(yīng)的分類(lèi)概率。最后,我們可以采用簡(jiǎn)單的求均值方法對(duì)所有的分類(lèi)器做集成處理,因此最終的分類(lèi)將結(jié)合了所有的重要信息而提升精細(xì)類(lèi)別的預(yù)測(cè)結(jié)果。
模型訓(xùn)練
模型中最重要的部分就是選取重要的局部區(qū)域,這也稱(chēng)為注意力問(wèn)題。百度在這一部分采取了馬爾科夫決策過(guò)程,在每一個(gè)時(shí)間步中,上文所述的全卷積注意力網(wǎng)絡(luò)可作為智能體,它將基于觀察采取行動(dòng)并收到獎(jiǎng)勵(lì)。在百度的模型中,全卷積注意力網(wǎng)絡(luò)觀察到的信息就是輸入圖像與根據(jù)注意力區(qū)域裁剪的圖像,而行動(dòng)對(duì)應(yīng)于選擇新的注意力區(qū)域。根據(jù)行動(dòng)是否提升分類(lèi)準(zhǔn)確度,我們可以調(diào)整獎(jiǎng)勵(lì)來(lái)確定最優(yōu)的行動(dòng)或注意力區(qū)域。
在前面全卷積注意力網(wǎng)絡(luò)的架構(gòu)中,訓(xùn)練過(guò)程中的分類(lèi)網(wǎng)絡(luò)非常類(lèi)似于循環(huán)網(wǎng)絡(luò),即時(shí)間步 t 的分類(lèi)結(jié)果將集成之前所有時(shí)間步的分類(lèi)分?jǐn)?shù)。如下所示為計(jì)算最終分類(lèi)分?jǐn)?shù)的表達(dá)式,我們可以簡(jiǎn)單地對(duì)所有時(shí)間步上的分類(lèi)分?jǐn)?shù)求平均:
其中 S_t 為時(shí)間步 t 以內(nèi)所有預(yù)測(cè)分?jǐn)?shù)的均值,
表示在給定分類(lèi)網(wǎng)絡(luò)的參數(shù) θ^τ 和第 τ 個(gè)注意力區(qū)域的特征圖下,在時(shí)間步τ的預(yù)測(cè)分?jǐn)?shù)。智能體 FCANs 在采取了動(dòng)作(選擇 l^t 作為注意力區(qū)域)后可獲得獎(jiǎng)勵(lì) r^t,一般 r^t 會(huì)通過(guò)度量預(yù)測(cè)分?jǐn)?shù) S_t 和真實(shí)標(biāo)注 y 之間的匹配度獲得。
陳凱表示:「在技術(shù)上,百度的細(xì)粒度識(shí)別能做到在線學(xué)習(xí)以根據(jù)用戶反饋實(shí)時(shí)更新參數(shù),但在產(chǎn)品價(jià)值觀上,細(xì)粒度識(shí)別并不會(huì)使用用戶數(shù)據(jù)在線調(diào)整模型。」因此,以下的模型訓(xùn)練都是在百度服務(wù)器中進(jìn)行的,訓(xùn)練好的模型直接部署到服務(wù)器并實(shí)現(xiàn)云端推斷。
在訓(xùn)練過(guò)程中,我們沒(méi)有標(biāo)注哪些局部圖像或特征比較重要,且獎(jiǎng)勵(lì)函數(shù)不可微,因此百度采用了強(qiáng)化學(xué)習(xí)方法來(lái)訓(xùn)練注意力區(qū)域。若給定一組訓(xùn)練樣本,我們希望能同時(shí)優(yōu)化特征抽取網(wǎng)絡(luò)的參數(shù) θ^f、注意力網(wǎng)絡(luò)的參數(shù) θ^l 和分類(lèi)網(wǎng)絡(luò)的參數(shù) θ^c,并最大化以下目標(biāo)函數(shù):
其中 L(θ_f, θ_c) 為平均交叉熵?fù)p失函數(shù),它度量了 N 個(gè)訓(xùn)練樣本和 T 個(gè)時(shí)間步上的平均分類(lèi)損失,而最大化負(fù)的交叉熵函數(shù)即最小化分類(lèi)損失。此外,給定注意力區(qū)域,分類(lèi)損失將只和特征抽取網(wǎng)絡(luò)的與分類(lèi)網(wǎng)絡(luò)的參數(shù)相關(guān)。R(θ_f, θ_l) 表示 N 個(gè)訓(xùn)練完本和 T 個(gè)時(shí)間步上的平均期望獎(jiǎng)勵(lì),最大化 R 將確定最重要的注意力區(qū)域。簡(jiǎn)單來(lái)說(shuō),該函數(shù)度量了選擇注意力區(qū)域 l 時(shí)獲得的期望獎(jiǎng)勵(lì) E[r],在每一個(gè)時(shí)間步上都選擇最好的注意力區(qū)域?qū)@得最大的期望獎(jiǎng)勵(lì)。
在最大化上述目標(biāo)函數(shù)的過(guò)程中,獎(jiǎng)勵(lì)策略非常重要,因?yàn)椴煌莫?jiǎng)勵(lì) r 將直接影響到注意力區(qū)域的選取,從而進(jìn)一步影響分類(lèi)損失。獎(jiǎng)勵(lì)策略主要體現(xiàn)在選擇確定 r 值上,一般直觀的獎(jiǎng)勵(lì)策略可以將最終分類(lèi)結(jié)果作為度量整體注意力區(qū)域選擇策略的標(biāo)準(zhǔn),即如果 t=T 且
,則 r^t =1,否則 r^t 都等于 0。
盡管使用以上樸素的獎(jiǎng)勵(lì)策略可以通過(guò)循環(huán)的方式學(xué)習(xí),但它可能會(huì)造成不同時(shí)間步上選擇區(qū)域的困難,且導(dǎo)致收斂問(wèn)題。因此,百度提出了一種新型獎(jiǎng)勵(lì)策略:
其中
表示第 n 個(gè)樣本在第 t 個(gè)時(shí)間步上的分類(lèi)損失。如果圖像在第一個(gè)時(shí)間步就分類(lèi)正確,那么它能立即收到一個(gè)獎(jiǎng)勵(lì) 1,這相當(dāng)于在僅使用全圖特征的情況下能正確分類(lèi)。當(dāng)我們獎(jiǎng)勵(lì)不同的注意力區(qū)域時(shí),我們要求當(dāng)前時(shí)間步需要分類(lèi)正確,且同時(shí)分類(lèi)損失相比上一時(shí)間步有降低。如果不滿足這兩個(gè)條件,我們將不獎(jiǎng)勵(lì)注意力區(qū)域。
胡翔宇解釋說(shuō):「對(duì)于細(xì)粒度分類(lèi)問(wèn)題,裁剪出來(lái)的區(qū)域是好是壞比較容易確定。例如裁剪出一個(gè)局部細(xì)節(jié),且它已經(jīng)足夠證明圖像是怎樣的細(xì)分類(lèi),那么我們就可以確定這個(gè)區(qū)域是有價(jià)值的。其實(shí)自然圖像的信息冗余度非常大,甚至只需要 1 到 2 個(gè)細(xì)節(jié)就能幫助我們識(shí)別花的具體品種,那么我們也認(rèn)為這樣的策略是優(yōu)秀的。」
最后,結(jié)合上述所有過(guò)程就可構(gòu)建整個(gè)模型的前向傳播與反向傳播過(guò)程。如下圖所示,在前向傳播的過(guò)程中,我們先使用全卷積神經(jīng)網(wǎng)絡(luò) φ 抽取輸入圖像的特征圖,然后使用注意力網(wǎng)絡(luò)將多通道的特征圖變換到單通道的置信圖π。在依據(jù)置信圖對(duì)完整特征圖進(jìn)行裁剪后,我們就得到了注意力區(qū)域 l。將注意力區(qū)域投入到分類(lèi)網(wǎng)絡(luò)就能計(jì)算出分類(lèi)結(jié)果,并且當(dāng)前時(shí)間步的結(jié)果和上一時(shí)間步的結(jié)果相結(jié)合就能給出對(duì)該注意力區(qū)域的獎(jiǎng)勵(lì)。
在反向傳播中,上文(2)式的目標(biāo)函數(shù)需要對(duì)參數(shù)求梯度以將誤差向前傳,并更新參數(shù)。其中 L 是經(jīng)典交叉熵?fù)p失函數(shù),它的梯度很容易計(jì)算,而獎(jiǎng)勵(lì)的平均期望 R 是不可微的,所以百度采用了蒙特卡洛方法來(lái)逼近期望獎(jiǎng)勵(lì) E[r] 的梯度。因此在上圖(b)中,分類(lèi)結(jié)果 s 將按常規(guī)實(shí)現(xiàn)反向傳播,而期望獎(jiǎng)勵(lì)的梯度可直接調(diào)整注意力網(wǎng)絡(luò)的參數(shù),并向前傳遞調(diào)整特征卷積網(wǎng)絡(luò)的參數(shù)。
百度基于全卷積注意力網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)構(gòu)建的細(xì)粒度識(shí)別應(yīng)用目前已經(jīng)部署到了云端,模型的實(shí)現(xiàn)都是通過(guò) PaddlePaddle 架構(gòu)完成的。胡翔宇表示:「該應(yīng)用目前部署在云端,但隨著移動(dòng)端硬件的發(fā)展,我們會(huì)在一些場(chǎng)景中將網(wǎng)絡(luò)部署到更靠近用戶的地方。但即使部署在云端,考慮到推斷的性價(jià)比,我們也會(huì)采用一些模型壓縮方法。這些壓縮方法一般可以分為兩大類(lèi),首先是采用半精度(FP16)等和硬件相關(guān)的方法,其次就是將批歸一化的參數(shù)壓縮到卷積層等和硬件無(wú)關(guān)的方法。」
說(shuō)到移動(dòng)端的部署,百度其實(shí)有開(kāi)源 PaddlePaddle Mobile 框架,陳凱表示:「PaddlePaddle 的移動(dòng)端框架其實(shí)也在和移動(dòng)硬件的廠商合作,它后續(xù)會(huì)加強(qiáng)對(duì) NPU 等硬件的優(yōu)化,包括內(nèi)存管理和功耗控制等。」
總結(jié)
以上是生活随笔為你收集整理的细粒度识别 | 百度细粒度识别方案的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 光度立体视觉 matlab,Matlab
- 下一篇: 老男孩教育--50期linux高级运维脱