當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

Python3，10行代码，给pdf文件去水印，再也不用花费冤枉钱了。

發(fā)布時間：2023/12/9 python 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python3，10行代码，给pdf文件去水印，再也不用花费冤枉钱了。小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

10行代碼給pdf文件去水印

1、引言
2、代碼實戰(zhàn)
- 2.1 去除原理
- 2.2 代碼解析
- 2.3 代碼整合
3、總結(jié)

1、引言

小屌絲：魚哥，最近有點不像話了。
小魚：嗯？？啥個意思嘛~
小屌絲：一周了，沒分享小知識了。
小魚：就因為這個？？
小屌絲：那是，我這么愛學(xué)習(xí)的人。
小魚：怕是你有什么事情解決不了，想到我了吧？
小屌絲：呵 ~ 笑話 ~ 我能有…什…么…事情…
小魚：說吧，
小屌絲：這可是你讓我說的，我可沒主動要問的！
小魚：說吧，咋還磨磨唧唧了呢
小屌絲：我在某站下載的pfd文檔，有水印，如何去掉啊？
小魚：我突然想起來，PPT還沒寫完。
小屌絲：我家樓下剛開一個燒烤店，據(jù)說還不錯!
小魚：PPT寫不完，可以晚上寫，助人為樂讓我更快樂。

2、代碼實戰(zhàn)

在上一篇博文，我們知道了如何給pdf文檔添加水印，
而本篇，我們就給pdf去水印

如果不知道如何添加水印，就看這篇：《Python3，2段代碼，給pdf文件添加水印，原來watermark還可以這么玩。》

小屌絲：你這添加完水印，又去除水印，你這是鬧哪樣？？
小魚：我喜歡，我稀罕，我樂意！！

2.1 去除原理

去除方法：

1、用 PyMuPDF 打開 pdf 文件，將 pdf 的每一頁都轉(zhuǎn)換為圖片 pixmap，
2、pixmap 有它自己的 RGB，只需要將 pdf 水印中的 RGB 改為(255, 255, 255)，并保存圖片
3、按照生成的圖片，插入到pdf文檔中

因為pfd文檔無法直接去除水印，需要先將pfd文檔轉(zhuǎn)換成圖片，在逐一對圖片進(jìn)行水印去除操作，最后在把圖片插入到pdf文檔中

2.2 代碼解析

1、先查看PDF文檔中的水印rgb值是多少
可以看到，RGB(179,179,179)，因為這里要的是RGB色值總和，所以我們就認(rèn)為，超過510，就認(rèn)為是水印。

敲黑板

光學(xué)三原色是紅綠藍(lán)（RGB），也就是說它們是不可分解的三種基本顏色，其他顏色都可以通過這三種顏色混合而成，三種顏色等比例混合就是白色，沒有光就是黑色。
在計算機中，可以用三個字節(jié)表示 RGB 顏色，1個字節(jié)能表示的最大數(shù)值是 255，所以，(255, 0, 0)代表紅色，(0, 255, 0)代表綠色，(0, 0, 255)代表藍(lán)色。相應(yīng)地，(255, 255, 255)代表白色，(0, 0, 0)代表黑色。從(0, 0, 0) ~ (255, 255, 255) 之間的任意組合都可以代表一個不同的顏色。
圖片每個位置顏色由四元組表示，前三位分別是 RGB，第四位是 Alpha 通道

2、pdf轉(zhuǎn)換成圖片，并去除水印
代碼示例：

執(zhí)行完成，
查看生成圖片：

查看圖片內(nèi)容：

3、圖片轉(zhuǎn)為pdf

代碼示例：

# -*- coding:utf-8 -*- # @Time : 2022-02-23 # @Author : carl_DJfrom PIL import Image from itertools import product import fitz''' 圖片轉(zhuǎn)為pdf''' #圖片所在的文件夾 pic_dir = 'D:\Project\watemark'pdf = fitz.open() #圖片數(shù)字文件先轉(zhuǎn)換成int類型進(jìn)行排序 img_files = sorted(os.listdir(pic_dir), key=lambda x: int(str(x).split('.')[0])) for img in img_files:print(img)imgdoc = fitz.open(pic_dir + '/' + img)#將打開后的圖片轉(zhuǎn)成單頁pdfpdfbytes = imgdoc.convertToPDF()imgpdf = fitz.open("pdf", pdfbytes)#將單頁pdf插入到新的pdf文檔中pdf.insertPDF(imgpdf) pdf.save("跟小魚學(xué)習(xí)去水印_完成.pdf") pdf.close()

執(zhí)行代碼，
查看生成的pdf文檔

2.3 代碼整合

上面的內(nèi)容都了解以后，我們就整合代碼，直接運行就可以了。

# -*- coding:utf-8 -*- # @Time : 2022-02-23 # @Author : carl_DJfrom PIL import Image from itertools import product import fitz# 去除pdf的水印 def remove_pdfwatermark():#打開源pfd文件pdf_file = fitz.open("跟小魚學(xué)習(xí)去水印.pdf")#page_no 設(shè)置為0page_no = 0#page在pdf文件中遍歷for page in pdf_file:#獲取每一頁對應(yīng)的圖片pix (pix對象類似于我們上面看到的img對象，可以讀取、修改它的 RGB)#page.get_pixmap() 這個操作是不可逆的，即能夠?qū)崿F(xiàn)從 PDF 到圖片的轉(zhuǎn)換，但修改圖片 RGB 后無法應(yīng)用到 PDF 上，只能輸出為圖片pix = page.get_pixmap()#遍歷圖片中的寬和高，如果像素的rgb值總和大于510，就認(rèn)為是水印，轉(zhuǎn)換成255，255,255-->即白色for pos in product(range(pix.width), range(pix.height)):if sum(pix.pixel(pos[0], pos[1])) >= 510:pix.set_pixel(pos[0], pos[1], (255, 255, 255))#保存去掉水印的截圖pix.pil_save(f"./{page_no}.png", dpi=(30000, 30000))#打印結(jié)果print(f'第 {page_no} 頁去除完成')page_no += 1#去除的pdf水印添加到pdf文件中 def pictopdf():#水印截圖所在的文件夾# pic_dir = input("請輸入圖片文件夾路徑：")pic_dir = 'D:\Project\watemark'pdf = fitz.open()#圖片數(shù)字文件先轉(zhuǎn)換成int類型進(jìn)行排序img_files = sorted(os.listdir(pic_dir), key=lambda x: int(str(x).split('.')[0]))for img in img_files:print(img)imgdoc = fitz.open(pic_dir + '/' + img)#將打開后的圖片轉(zhuǎn)成單頁pdfpdfbytes = imgdoc.convertToPDF()imgpdf = fitz.open("pdf", pdfbytes)#將單頁pdf插入到新的pdf文檔中pdf.insertPDF(imgpdf)pdf.save("跟小魚學(xué)習(xí)去水印_完成.pdf")pdf.close()if __name__ == '__main__':remove_pdfwatermark()pictopdf()

3、總結(jié)

寫到這里，今天的分享就差不多快結(jié)束了。
需要理解的流程是，

pdf文檔需要先轉(zhuǎn)換成圖片，進(jìn)行水印去除，
再轉(zhuǎn)換成pdf
最后插入到新的pdf文檔中。

關(guān)于圖片及pdf如何添加水印，可以參照小魚的這兩篇博文：

《Python3，2行代碼添加水印》
《Python3，2段代碼，給pdf文件添加水印》

關(guān)注小魚博客，帶你了解更多更有趣python知識。

總結(jié)

以上是生活随笔為你收集整理的Python3，10行代码，给pdf文件去水印，再也不用花费冤枉钱了。的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [html]HTML5如何隐藏video
下一篇： [html] 举例说明只用html和c