python pdf转word 表格_太赞了!Pdf转Word,我用Python 轻松搞定表格和水印!
原標題:太贊了!Pdf轉Word,我用Python 輕松搞定表格和水印!
繼上一次為大家推出了將pdf轉word之后(臥槽!Pdf轉Word用Python輕松搞定!),引起了大家的熱烈討論,我也總結了大家的一些意見和建議,今天就進一步的為大家推出一個新的版本。
從pdf中提取表格數據,并保存到本地的excel文件當中,并且還為大家加入了添加水印和去除水印的功能。雖然在去除水印的效果上可能不如付費的項目那么好,但是也足夠大家在日常生活中進行使用,下面我們就一起來看看吧。
01.如何提取表格
首先要面臨的第一問題就是如何提取pdf中的表格,如下圖所示:
我們需要將上述的表格進行提取,并保存到本地的excel文件之中,程序如下所示:
上述程序中,我們利用pdfplumber庫來打開一個pdf文件,然后如果我們想要提取某幾頁的表格,可以在pageindexs這個形參中指明,否則我們就提取pdf文件中所有的表格信息,并保存到我們的本地excel表內,結果如下圖所示,我們提取了pdf中所有的表格:
02.水印的處理
接下來就是水印的處理,我們先來進行添加水印,也就是給我們的pdf文件添加我們的專屬logo,這里我們添加的是圖片水印,效果如下所示:
我們的程序也很簡單:
上述程序中,我們首先將水印圖片利用word保存為pdf格式,然后通過PyPDF2庫中的PdfFileReader類來讀取圖片水印并通過PdfFileWriter添加到我們指定的pdf中,完成圖片水印的添加。
既然有圖片水印的添加,那肯定有圖片水印的去除,其達到的效果就是上述程序達到的相反效果,去除圖片水印的程序如下圖所示:
我們利用fitz庫來打開pdf文件,并統計里面的圖片文件,因為我們的圖片水印也是圖片,所以能夠得到水印圖片的信息,我們打印出來圖片的信息,其信息中的索引2和索引3就代表著圖片的大小,我們根據圖片的大小判斷是否為水印圖片,來隱藏pdf文件中的水印圖片,達到去除水印的目的。
上述的程序針對的是圖片水印,但是,我們日常面臨的水印都是背景水印,類似于下圖的情況。
這種情況下,上述的程序就不管用了,但是我們還有辦法,就是利用像素進行處理,我們將pdf轉換成圖片,然后調節圖片的對比度和亮度來達到刪除水印的目的,然后將轉換完后的圖片轉換為pdf即可,部分程序如下圖所示:
上述程序中,是利用fitz庫將pdf文件中的每頁pdf轉化成指定大小的圖片文件,并保存到指定的文件夾內。
最終轉化后的結果如下圖所示:
上圖我們可以看到,我們成功的刪除了背景水印,但是由于調節的原因,對于保留的文本也有一定的影響,但是影響不是很大。如果大家感興趣的話,可以借鑒ps的處理技術,通過背景水印模板來去除水印,達到更好的去除效果,但是這需要水印模板和我們pdf模板中的水印在位置,形狀和大小等方面完全一致,要求比較高,不如上述方法來的簡單。
以上就是小編今天為大家帶來的分享,我們完成了對于表格的提取,和圖片水印的添加和去除以及背景水印的去除,大家也趕緊動手應用起來吧。
后記
自學編程的過程是很痛苦的,有的時候沒有人指導,慢慢的會變成從入門到放棄, 可能懂的人只要花1-2分鐘就能幫你解決的問題,不懂的人要折騰幾個小時。最近不斷的有小伙伴希望我們建一個 交流群,有想加入的同學,可以跟小助手聯系。這個群的目的如下:
1. 幫助初學者的一起解惑一些入門的Python問題
2. 我們經常有答題送書的福利,有了群更容易聯系到大家
3. 已經在我們小密圈群的同學就不要再加入了,避免重復入群
目前青銅群已經有220多人,我們采用篩選制度,會根據一些后臺數據,進行篩選的!生面孔或者不常來的,我們一概謝絕入內。有專人進行答疑解惑入門問題。
入群請找菜鳥哥
暗號:【入群】
小助手最近在出差ing,非常辛苦,都不容易!
回復很慢大家多見諒哈返回搜狐,查看更多
責任編輯:
總結
以上是生活随笔為你收集整理的python pdf转word 表格_太赞了!Pdf转Word,我用Python 轻松搞定表格和水印!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 物流配送系统设计java,ZigBee物
- 下一篇: 计算机展望未来网络形态,在学习中展望未来