从单一图像中提取文档图像:ICCV2019论文解读
從單一圖像中提取文檔圖像:ICCV2019論文解讀
DewarpNet: Single-Image Document Unwarping
With Stacked 3D and 2D Regression Networks
論文鏈接:
http://openaccess.thecvf.com/content_ICCV_2019/papers/Das_DewarpNet_Single-Image_Document_Unwarping_With_Stacked_3D_and_2D_Regression_ICCV_2019_paper.pdf
摘要
在非結(jié)構(gòu)化環(huán)境中使用手持設(shè)備捕獲文檔圖像是當(dāng)今的一種常見做法。然而,文檔的“偶然”照片通常不適合自動提取信息,這主要是由于文檔紙張的物理失真,以及相機的各種位置和照明條件。在這項工作中,本文提出了DewarpNet,一種從單一圖像中提取文檔圖像的深度學(xué)習(xí)方法。本文的見解是,文檔的三維幾何結(jié)構(gòu)不僅決定了其紋理的扭曲,還導(dǎo)致了照明效果。因此,本文的創(chuàng)新之處在于在端到端管道中對文檔紙張的三維形狀進行顯式建模。此外,本文還提供了迄今為止最大、最全面的文檔圖像數(shù)據(jù)集——Doc3D。該數(shù)據(jù)集具有多個地面真值注釋,包括3D形狀、曲面法線、UV貼圖、反照率圖像等。使用Doc3D進行訓(xùn)練,通過大量的定性和定量評估,本文展示了DewarpNet的最新性能。本文的網(wǎng)絡(luò)還顯著提高了OCR在捕獲的文檔圖像上的性能,平均降低了42%的字符錯誤率。代碼和數(shù)據(jù)集都被開放。
- Introduction
紙質(zhì)文件承載著寶貴的信息,在本文的日常工作和生活中發(fā)揮著不可或缺的作用。數(shù)字化文檔可以方便、安全、高效地存檔、檢索和共享。隨著便攜式相機和智能手機的日益普及,通過拍照,用戶可以更方便地獲取文檔數(shù)字化。一旦捕獲,文檔圖像可以轉(zhuǎn)換為電子格式,例如PDF文件,以便進一步處理、交換、信息提取和內(nèi)容分析。在拍攝圖像時,最好以盡可能高的精度保存文檔上的信息,與flifbedscanted版本的信息差別最小。然而,由于紙張的物理變形、相機位置的變化和不受限制的照明條件等不可控制的因素,使用移動設(shè)備拍攝的隨意照片常常會受到不同程度的扭曲。
因此,這些原始圖像往往不適合于自動信息提取和內(nèi)容分析。以往的文獻對文獻的盜用問題進行了多方面的研究。傳統(tǒng)的方法[26,46]通常依賴于紙張的幾何特性來恢復(fù)粗紗。這些方法首先估計紙張的三維形狀,可以用一些參數(shù)形狀表示法[9,47]或一些非參數(shù)形狀表示法[35,45]。之后,他們使用優(yōu)化技術(shù)從扭曲圖像和估計的形狀計算出反射圖像。
這些方法的一個共同缺點是,由于優(yōu)化過程的原因,它們通常計算量大且速度慢。Ma等人最近的工作
[23]提出了一個深度學(xué)習(xí)系統(tǒng),該系統(tǒng)直接從變形的文檔圖像中回歸出不可逆操作。他們的方法極大地提高了文檔取消系統(tǒng)的速度。然而,他們的方法并沒有遵循紙張翹曲的三維幾何特性——訓(xùn)練數(shù)據(jù)是用一組二維變形創(chuàng)建的——因此在測試中常常會產(chǎn)生不現(xiàn)實的結(jié)果。
紙張折疊是在3D中發(fā)生的:具有不同紋理但具有相同3D形狀的紙張可以在相同的變形場中取消折疊。因此,三維形狀可以說是恢復(fù)未翻動紙張的最關(guān)鍵線索。基于這一思想,本文提出了一種新的數(shù)據(jù)驅(qū)動的去毛刺框架DewarpNet,該框架利用顯式的三維形狀表示來學(xué)習(xí)去毛刺操作。
DewarpNet分兩個階段工作,有兩個子網(wǎng)絡(luò):
i)“形狀網(wǎng)絡(luò)”使用變形文檔的圖像,并輸出一個三維坐標(biāo)圖,該圖已被證明足以完成取消掃描任務(wù)[45]。
ii)“紋理映射網(wǎng)絡(luò)”將變形的文檔圖像反向映射到平滑的文檔圖像。
本文結(jié)合中間三維形狀的回歸損失和最終的失步結(jié)果來訓(xùn)練兩個子網(wǎng)絡(luò)(圖1)。在那之后,本文提供“增強網(wǎng)絡(luò)”消除了矩形圖像的陰影效果,進一步提高了結(jié)果的感知質(zhì)量。為了使用明確的中間3D表示來訓(xùn)練這個取消掃描網(wǎng)絡(luò),本文創(chuàng)建了Doc3D數(shù)據(jù)集,這是迄今為止用于文檔圖像取消掃描的最大和最全面的數(shù)據(jù)集。
本文以混合的方式收集Doc3D,結(jié)合
(1)從自然扭曲的紙張中捕獲三維形狀(網(wǎng)格)
(2)大量文檔內(nèi)容的真實照片級呈現(xiàn)。
每個數(shù)據(jù)點都帶有豐富的注釋,包括三維坐標(biāo)貼圖、曲面法線、UV紋理貼圖和反照率貼圖。總共,Doc3D包含了大約100000個帶有豐富注釋的真實照片圖像。
本文的貢獻總結(jié)如下:
首先,本文貢獻Doc3D數(shù)據(jù)集。據(jù)本文所知,這是第一個和最大的文檔圖像數(shù)據(jù)集,在三維和二維領(lǐng)域具有多個地面真實性標(biāo)注。
第二,本文提出了一種新的端到端深度學(xué)習(xí)架構(gòu)DewarpNet。該網(wǎng)絡(luò)實現(xiàn)了高質(zhì)量的文檔圖像的實時取消抓取。
第三,使用Doc3D數(shù)據(jù)集中豐富的注釋進行訓(xùn)練后,DewarpNet顯示出與最新技術(shù)相比的優(yōu)越性能[23]。通過對真實文檔掃描的感知相似度評估,本文將多尺度結(jié)構(gòu)相似度(MS-SSIM)提高了15%,將局部失真降低了36%。
此外,本文證明了本文的方法的實際意義,降低了42%的OCR字符錯誤率。
2. Previous Work
基于變形的建模方法,現(xiàn)有的兩組文檔反抽工作是:參數(shù)化的變形模型和非參數(shù)化的變形模型。
基于參數(shù)化形狀的方法假設(shè)文檔變形是由低維參數(shù)化模型表示的,并且這些模型的參數(shù)可以通過視覺線索推斷出來。圓柱面是最流行的參數(shù)化模型[8,16,19,26,41,46]。其他模型包括非均勻有理B樣條(NURBS)[10,44]、分段自然三次樣條(NCS)[36]、Coon面片[9]等。用于估計模型參數(shù)的視覺提示包括文本行[25]、文檔邊界[5]或來自外部設(shè)備的激光束[27]。Shafait和Breuel[33]在一個只有透視和卷曲變形的小數(shù)據(jù)集上報道了幾種基于參數(shù)形狀的方法。然而,這種低維模型很難模擬復(fù)雜的表面變形。
相反,基于非參數(shù)化形狀的方法不依賴于低維參數(shù)化模型。這種方法通常假定變形文檔的網(wǎng)格表示,并直接估計網(wǎng)格上每個頂點的位置。用于估計頂點位置的方法,包括參考圖像[29]、文本行[21、35、39]和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[30]。許多方法都是從估計或捕獲的三維紙張形狀信息中重建網(wǎng)格。值得注意的例子是根據(jù)立體視覺[38]、多視圖圖像[45]、結(jié)構(gòu)光[4]、激光測距掃描儀[47]等估計的點云。
還有一些工作是直接使用紋理信息來完成這個任務(wù)[11,24,43]。然而,借助于外部設(shè)備或多視圖圖像使得該方法不太實用。本地文本行功能無法處理將文本與圖形混合的文檔。此外,這些方法往往涉及復(fù)雜和耗時的優(yōu)化。最近,Ma等人
[23]提出了“DocUNet”,這是第一個數(shù)據(jù)驅(qū)動的方法,用深度學(xué)習(xí)來解決文檔丟失問題。與以往的方法相比,DocUNet在推理過程中速度更快,但在真實圖像上的表現(xiàn)并不總是很好,這主要是因為合成訓(xùn)練數(shù)據(jù)集只使用了2D變形。
- The Doc3D Dataset
本文使用真實的文檔數(shù)據(jù)和渲染軟件以混合的方式創(chuàng)建了Doc3D數(shù)據(jù)集。本文首先捕獲了自然變形的真實文檔紙張的三維形狀(網(wǎng)格)。之后,本文在Blender[1]中使用路徑跟蹤[40]來渲染具有真實文檔紋理的圖像。本文在渲染中使用了不同的相機位置和不同的照明條件。本文的方法的一個顯著好處是,數(shù)據(jù)集是用真實感渲染的方式大規(guī)模創(chuàng)建的。同時,本文的方法生成了多種類型的像素級文檔圖像地面真實度,包括三維坐標(biāo)圖、反照率圖、法線、深度圖和紫外線圖。這樣的圖像形成變化對本文的任務(wù)很有用,但通常在實際的采集場景中很難獲得。與文獻[23]中僅在2D中建模3D變形的數(shù)據(jù)集[28]相比,本文的數(shù)據(jù)集以物理上固定的方式模擬文檔變形。因此,本文有理由期望,與在[23]的數(shù)據(jù)集上訓(xùn)練的模型相比,在本文的數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型在現(xiàn)實世界的圖像上測試時能夠更好地泛化。本文直觀地比較了圖2中的數(shù)據(jù)集樣本。
3.1. Capturing Deformed Document 3D Shape
三維點云捕捉
本文的變形文檔形狀捕獲工作站(圖3(I))由一個桌面、一個機架、一個深度攝影機和一個桌面架組成。機架保持深度攝像頭水平,面向桌面,高度58厘米。在這個高度上,深度攝影機在保留變形細(xì)節(jié)的同時捕獲整個文檔。浮雕架有64個單獨控制的插腳,提高了文件的高度,使其與桌面隔離。高度差使從深度圖的背景中提取文檔變得更容易。支架模擬文檔的復(fù)雜靜止曲面,還支持變形文檔以保持卷曲或折痕。本文使用經(jīng)過校準(zhǔn)的Intel RealSense D415深度攝像頭來捕捉深度圖。假設(shè)沒有遮擋,則通過X(3D)=K-1[i,j,dij]T獲得文檔的點云,其中dij是深度貼圖中像素位置i,j處的深度值。從攝像機上讀取了內(nèi)稟矩陣K。本文平均6幀以減少零均值噪聲,并應(yīng)用帶有高斯核的移動最小二乘(MLS)[32]來平滑點云。
本文使用真實的文檔數(shù)據(jù)和渲染軟件以混合的方式創(chuàng)建了Doc3D數(shù)據(jù)集。本文首先捕獲了自然變形的真實文檔紙張的三維形狀(網(wǎng)格)。之后,本文在Blender[1]中使用路徑跟蹤[40]來渲染具有真實文檔紋理的圖像。本文在渲染中使用了不同的相機位置和不同的照明條件。本文的方法的一個顯著好處是,數(shù)據(jù)集是用真實感渲染的方式大規(guī)模創(chuàng)建的。
同時,本文的方法生成了多種類型的像素級文檔圖像地面真實度,包括三維坐標(biāo)圖、反照率圖、法線、深度圖和紫外線圖。這樣的圖像形成變化對本文的任務(wù)很有用,但通常在實際的采集場景中很難獲得。與文獻[23]中僅在2D中建模3D變形的數(shù)據(jù)集[28]相比,本文的數(shù)據(jù)集以物理上固定的方式模擬文檔變形。
因此,本文有理由期望,與在[23]的數(shù)據(jù)集上訓(xùn)練的模型相比,在本文的數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型在現(xiàn)實世界的圖像上測試時能夠更好地泛化。本文直觀地比較了圖2中的數(shù)據(jù)集樣本。
網(wǎng)格創(chuàng)建
本文使用球旋轉(zhuǎn)算法從捕獲的點云中提取網(wǎng)格[3]。網(wǎng)格有130000個頂點和270000個面覆蓋所有頂點。然后,本文將每個網(wǎng)格子采樣到一個100×100的均勻網(wǎng)格,以便于網(wǎng)格增強、對齊和渲染。由于本文廉價傳感器的精度限制,即使是更高分辨率的網(wǎng)格也無法提供精細(xì)的細(xì)節(jié),如細(xì)微的折痕。每個頂點都有一個UV位置,用于指示紋理坐標(biāo),用于渲染步驟中的紋理映射。將(u,v)={(0,0),(0,1),(1,0),(1,1)}指定給網(wǎng)格的4個角點,本文為所有頂點插值UV值[37]。
網(wǎng)格增強和對齊
為了進一步開發(fā)每個網(wǎng)格,本文首先沿著x、y、z軸分別映射網(wǎng)格,得到8個網(wǎng)格,并以不同的縱橫比隨機裁剪出4個從65×65到95×95的小網(wǎng)格。本文將所有網(wǎng)格插值到100×100的相同分辨率。這些額外的網(wǎng)格顯著增加了數(shù)據(jù)集的多樣性。通過解決絕對方向問題[13]來統(tǒng)一縮放、旋轉(zhuǎn)和平移,所有網(wǎng)格都與模板網(wǎng)格對齊。該步驟確保了一個唯一的變形具有唯一的三維坐標(biāo)表示。總共,本文生成了40000個不同的網(wǎng)格。
3.2. Document Image Rendering
配置
為了增加數(shù)據(jù)集的多樣性,本文在渲染過程中更改了相機、燈光和紋理的配置。對于每幅圖像,相機隨機放置在球形蓋上,在[-30°和30°范圍內(nèi)呈“向上”方向。攝影機方向被限制在虛擬世界原點周圍的一個小區(qū)域內(nèi)。
使用從高溫室內(nèi)HDR數(shù)據(jù)集的2100個環(huán)境地圖中隨機抽樣的照明環(huán)境渲染了70%的圖像[12]。本文還使用隨機采樣的點光源在簡單照明條件下渲染了30%的圖像。網(wǎng)格上的紋理是從真實的文檔圖像中獲取的。本文收集了7200張學(xué)術(shù)論文、雜志、海報、書籍等的圖片,包含多種布局的文本和圖片。
豐富的注釋
對于每個圖像,本文生成了三維坐標(biāo)貼圖、深度貼圖、法線、UV貼圖和反照率貼圖。本文展示了如何將這些地面真實圖像融入到本文的網(wǎng)絡(luò)中。
- DewarpNet
DewarpNet,如圖4所示,由學(xué)習(xí)脫蠟的兩個子網(wǎng)組成:
形狀網(wǎng)絡(luò)和紋理映射網(wǎng)絡(luò)。此外,本文還提出了一個用于光照效果調(diào)整的后處理增強模塊,該模塊可以在視覺上改善未旋轉(zhuǎn)的圖像。
形狀網(wǎng)絡(luò)
DewarpNet首先回歸輸入文檔圖像的三維形狀。本文將此回歸任務(wù)表述為圖像到圖像的轉(zhuǎn)換問題:
給定輸入圖像I,形狀網(wǎng)絡(luò)將I的每個像素轉(zhuǎn)換為3D坐標(biāo)圖,其中每個像素值(X,Y,Z)對應(yīng)于文檔形狀的3D坐標(biāo),如圖4所示。本文使用U-Net[31]風(fēng)格的編碼器-解碼器架構(gòu),在shape網(wǎng)絡(luò)中使用跳躍連接。
紋理映射網(wǎng)絡(luò)
紋理映射網(wǎng)絡(luò)以三維坐標(biāo)映射C為輸入,輸出后向映射B。在紋理映射網(wǎng)絡(luò)中,采用了一種多DenseNet[14]塊的編解碼結(jié)構(gòu)。此任務(wù)是從C中的三維坐標(biāo)到B中的紋理坐標(biāo)的坐標(biāo)轉(zhuǎn)換。本文在紋理映射網(wǎng)絡(luò)中應(yīng)用坐標(biāo)卷積(CoordConv),因為它被證明可以提高網(wǎng)絡(luò)對坐標(biāo)轉(zhuǎn)換任務(wù)的泛化能力[18,22]。本文的實驗證明了該技術(shù)在Sec5.5中的有效性。
Re?nement Network
Re-fiment network是本文系統(tǒng)的后處理組件,用于調(diào)整矩形圖像中的照明效果。該網(wǎng)絡(luò)不僅提高了結(jié)果的感知質(zhì)量,而且提高了OCR的性能。本文利用Doc3D數(shù)據(jù)集中的其他地面真實信息(即地表法線和反照率圖)來訓(xùn)練增強網(wǎng)絡(luò)。Re?nement Network有兩個U-Net[31]型編碼器-解碼器,如圖5所示:
一個用于預(yù)測給定輸入圖像I的曲面法線N∈;
另一個以I和相應(yīng)的N為輸入,估計一個陰影映射S∈。S描述陰影強度和顏色。然后,本文基于內(nèi)稟圖像分解[2]:I = A ⊙ S,
S來恢復(fù)無陰影圖像A,⊙是Hadamard乘積算符。
Training Loss Functions
培訓(xùn)過程分為兩個階段。在第一階段,分別訓(xùn)練形狀網(wǎng)絡(luò)和紋理映射網(wǎng)絡(luò)進行初始化。在第二階段,對兩個子網(wǎng)進行聯(lián)合訓(xùn)練,以提高解擴效果。
本文在包含100000張圖像的Doc3D數(shù)據(jù)集上訓(xùn)練模型,將它們分成訓(xùn)練集和驗證集,這樣它們就沒有共同的網(wǎng)格。在初始化訓(xùn)練的第一階段,紋理映射網(wǎng)絡(luò)以地面真值三維坐標(biāo)映射C為輸入。隨后,在第二階段的聯(lián)合訓(xùn)練中,每個子網(wǎng)絡(luò)都用最好的單獨訓(xùn)練模型初始化。
- Experiments
在[23]的130幅圖像基準(zhǔn)上進行了多次實驗,并對[45]的真實圖像進行了定性分析。作為基線,在新的Doc3D數(shù)據(jù)集上訓(xùn)練DocUNet[23]取消抓取方法。此外,從文檔分析的角度來評估本文的方法的OCR性能。最后,提供了一個詳細(xì)的融合研究,以顯示坐標(biāo)卷積的使用[22],以及損耗LD如何影響不旋轉(zhuǎn)性能。定性評價如圖7所示。
基準(zhǔn)
為了定量評估,本文將130個圖像基準(zhǔn)[23]分為六類,表示六種不同程度的變形復(fù)雜性(見表1)。基準(zhǔn)數(shù)據(jù)集包含各種文檔,包括圖像、圖形和多語言文本。
評價指標(biāo)
基于(a)圖像相似性和(b)光學(xué)字符識別(OCR)性能,本文采用了兩種不同的評價方案。
本文使用兩種圖像相似性度量:
多尺度結(jié)構(gòu)相似性(MS-SSIM)[42]和局部畸變(LD)[45]作為定量評價標(biāo)準(zhǔn),見[23]。SSIM計算每個圖像塊內(nèi)的平均像素值和方差的相似性,并對圖像中的所有塊進行平均。MS-SSIM使用高斯金字塔在多個尺度上應(yīng)用SSIM,更適合于評估結(jié)果與基本事實之間的全局相似性。
LD計算從未翻閱文檔到相應(yīng)文檔掃描的密集篩選流[20],從而集中于本地細(xì)節(jié)的直接定位。LD的參數(shù)設(shè)置為[23]提供的實現(xiàn)的默認(rèn)值。為了進行公平的比較,所有未旋轉(zhuǎn)的輸出和目標(biāo)平面掃描圖像都按照[23]中的建議調(diào)整為598400像素區(qū)域。
通過在本文的數(shù)據(jù)集Doc3D上訓(xùn)練DocUNet[23]中的網(wǎng)絡(luò)架構(gòu),本文提出了對所提出的Doc3D數(shù)據(jù)集的基線驗證。架構(gòu)由兩個堆疊的unet組成。DocUNet將二維圖像作為輸入并輸出正向映射(每個像素表示紋理圖像中的坐標(biāo))。
監(jiān)控信號僅基于地面真值正向映射。與直接輸出未扭曲圖像的DewarpNet不同,DocUNet需要幾個后處理步驟將前向映射轉(zhuǎn)換為后向映射(每個像素代表扭曲輸入圖像中的坐標(biāo)),然后對輸入圖像進行采樣以得到未扭曲的結(jié)果。
表2中的結(jié)果顯示,當(dāng)本文在Doc3D上訓(xùn)練DocUNet而不是在[23]中的2D合成數(shù)據(jù)集上訓(xùn)練DocUNet時,有了顯著的改進。LD的顯著降低(14.08到10.85)意味著局部細(xì)節(jié)更清晰。
這種改進是(1)DewarpNet體系結(jié)構(gòu)和(2)與[23]中的二維合成數(shù)據(jù)集相比,使用更實際的Doc3D數(shù)據(jù)集進行訓(xùn)練的結(jié)果。
本文在DocUNet基準(zhǔn)數(shù)據(jù)集上評估DewarpNet和DewarpNet(ref)(即DewarpNet與后處理增強網(wǎng)絡(luò))。
本文提供了兩者的比較
(1)整個基準(zhǔn)數(shù)據(jù)集(表2)和
(2)基準(zhǔn)測試中的每個類(圖6)。后者提供了對本文的方法相對于以前方法的改進的詳細(xì)見解。
從(a)級到(e)級,本文的模型持續(xù)改進了MM-SSIM和LD,超過了以前的最新水平。在最具挑戰(zhàn)性的類(f)中,當(dāng)圖像通常呈現(xiàn)多個皺褶和隨機變形時,本文的方法獲得了可比且稍好的結(jié)果。
本文使用PyTesseract(v0.2.6)[34]作為OCR引擎來評估本文從圖像中識別文本的工作的效用。文本地面真值(reference)由DocUNet【23】中的25幅圖像生成。在所有這些圖片中,超過90%的內(nèi)容是文本。補充材料包含了本文的OCR測試集的一些樣本。表3所示的OCR性能比較顯示了方法的性能優(yōu)于[23],在所有指標(biāo)上都有很大的裕度。特別是,與DocUNet相比,DewarpNet減少了33%的CER,re-fiment網(wǎng)絡(luò)減少了42%。 融合研究
坐標(biāo)卷積(CoordConv)。研究了CoordConv對紋理映射網(wǎng)絡(luò)性能的影響。Doc3D驗證集上的實驗(表4)表明,使用CoordConv可使?B上的誤差減少16%,并使?D上的SSIM從0.9260略微提高到0.9281。丟失身份證。紋理映射網(wǎng)絡(luò)從使用LD(未修復(fù)的視覺質(zhì)量損失)中受益匪淺。如表4所示,與僅使用絕對像素坐標(biāo)損失LB相比,使用LB+LD可顯著減少?B上的“2”誤差71%,并將?D上的SSIM提高9%。
定性評價
對于定性評估,本文比較了圖7中的DewarpNet和DocUNet以及You等人。圖8中的
[45]提出的方法利用多視圖圖像來取消對變形文檔的掃描。即使只有一張圖片,DewarpNet也顯示出競爭性的不敗結(jié)果。此外,本文在圖9中證明了所提出的方法對光照變化和相機視點變化具有魯棒性。為了評估光照的穩(wěn)健性,本文使用固定的相機視點對多個圖像進行測試,但從文檔的前、后、左、右和環(huán)境光照角度不同。本文還測試了DewarpNet對多個攝像機視點的魯棒性,在一系列由[45]提供的多視點圖像上。結(jié)果表明,在所有情況下,脫蠟網(wǎng)產(chǎn)生的DewarpNet圖像幾乎相同。
- Conclusions and Future Work
在這項工作中,本文提出了一個新的深度學(xué)習(xí)架構(gòu)DewarpNet。本文的方法對文檔內(nèi)容、光照、陰影或背景都很穩(wěn)健。通過對三維形狀的顯式建模,DewarpNet顯示出比以前的最先進的性能。此外,本文還提供了Doc3D數(shù)據(jù)集,這是用于文檔圖像取消掃描的最大、最全面的數(shù)據(jù)集,具有多個2D和3D地面真值注釋。
本文的工作存在一些局限性:
首先,廉價的深度傳感器無法捕捉變形的細(xì)節(jié),比如紙張褶皺上的細(xì)微褶皺。因此,本文的數(shù)據(jù)缺乏具有高度復(fù)雜紙張皺折的樣本。在未來的工作中,本文計劃構(gòu)建一個具有更好細(xì)節(jié)和更復(fù)雜結(jié)構(gòu)的數(shù)據(jù)集。
第二,DewarpNet對遮擋相對敏感:當(dāng)部分圖像被遮擋時,結(jié)果會降低。
在未來的工作中,本文計劃通過數(shù)據(jù)增強和對抗性訓(xùn)練來解決這一難題。
總結(jié)
以上是生活随笔為你收集整理的从单一图像中提取文档图像:ICCV2019论文解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对抗性鲁棒性与模型压缩:ICCV2019
- 下一篇: 中国大陆集成电路芯片领域各个细分代表企业