付费?是不可能的!20行Python代码实现一款永久免费PDF编辑工具
(掃碼關(guān)注)
PDF(Portable Document Format),中文名稱(chēng)便攜文檔格式是我們經(jīng)常會(huì)接觸到的一種文件格式,文獻(xiàn)、文檔...很多都是PDF格式。它以格式穩(wěn)定的優(yōu)勢(shì),使得我們?cè)诖蛴?、分享、傳輸過(guò)程中能夠最優(yōu)的保持原有色彩和格式。
PDF是以PostScript語(yǔ)言圖像模型為基礎(chǔ)的一種文檔格式,它在格式的穩(wěn)定性方面雖然具有很大優(yōu)勢(shì)。但是,在可編輯性方面卻為使用者引入了另外一個(gè)困擾。
例如,在文檔的分割、合并、剪切、轉(zhuǎn)換、編輯等方面PDF就有些捉襟見(jiàn)肘了。
Adobe Reader、福昕閱讀器、熊貓PDF...經(jīng)常用到的PDF工具只能用于文檔閱讀,但是免費(fèi)版都不可以用于文檔編輯。雖然,網(wǎng)頁(yè)版PDF工具,例如SmallPDF、I love PDF可以用于PDF的編輯,但是對(duì)于文檔大小也有限制。
曾經(jīng),為了替換PDF中的一頁(yè),我?guī)缀踉嚤榱怂惺忻嫔现髁鞯腜DF工具,最終還是不得不選擇使用付費(fèi)工具來(lái)解決問(wèn)題。
事后想了想,既然這些商業(yè)化軟件不靠譜,為什么不考慮自己動(dòng)手開(kāi)發(fā)一款工具呢?明明幾十行代碼能夠解決的問(wèn)題,為什么要費(fèi)那么多勁去下載、安裝那些沒(méi)有節(jié)操的軟件呢?
本文就來(lái)介紹一下利用Python輕松開(kāi)發(fā)一款PDF編輯工具,可以用于PDF轉(zhuǎn)TxT、分割、合并、剪切、轉(zhuǎn)換。
PyPDF2
PyPDF2是一個(gè)第三方的python PDF庫(kù),它能夠?qū)DF文件進(jìn)行分割、合并、裁剪和轉(zhuǎn)換頁(yè)面。
另外,它還可以對(duì)PDF文件添加自定義數(shù)據(jù)、水印、密碼,也可以從PDF文件中檢索出文本和元數(shù)據(jù)。
安裝
使用pip直接安裝:
$?pip?install?PyPDF2下面就來(lái)演示幾項(xiàng)PDF編輯功能,并且會(huì)逐行解釋代碼的含義。
刪除PDF頁(yè)
先給出實(shí)現(xiàn)代碼,
from?PyPDF2?import?PdfFileWriter,?PdfFileReaderoutput?=?PdfFileWriter()?????//?1 input1?=?PdfFileReader(open("example.pdf",?"rb"))?//?2def?delete_pdf(index):pages?=?input1.getNumPages()?//?3for?i?in?range(pages):if?i+1?in?index:continueoutput.addPage(input1.getPage(i))??//?4outputStream?=?open("PyPDF2-output.pdf",?"wb")output.write(outputStream)??//?5delete_pdf([2,3,4])下面來(lái)解釋一下代碼中的幾個(gè)關(guān)鍵點(diǎn):
聲明一個(gè)用于輸出PDF的實(shí)例;
讀取本地PDF文件;
獲取PDF文檔的頁(yè)數(shù);
讀取PDF的第i頁(yè),添加到輸出output實(shí)例中;
把編輯后的文檔保存到本地;
合并PDF
已經(jīng)實(shí)現(xiàn)了刪除PDF頁(yè),接下來(lái)就看一下如何把另外一個(gè)PDF中的頁(yè)面合并到當(dāng)前PDF中。
方法1:
可以沿著前面刪除PDF頁(yè)的方式進(jìn)行拓展一下,對(duì)PDF進(jìn)行合并。
from?PyPDF2?import?PdfFileWriter,?PdfFileReaderoutput?=?PdfFileWriter() input1?=?PdfFileReader(open("example.pdf",?"rb")) input2?=?PdfFileReader(open("simple2.pdf",?"rb"))?//?1def?merge_pdf(add_index,?origin_index):pages?=?input1.getNumPages()k?=?0for?i?in?range(pages):if?i+1?in?add_index:output.addPage(input2.getPage(origin_index[k]))?//?2pages?+=?1k?+=?1output.addPage(input1.getPage(i))outputStream?=?open("PyPDF2-output.pdf",?"wb")output.write(outputStream)merge_pdf([2,3,4],?[0,?0,?0])讀取需要合并的源文件;
遍歷到指定頁(yè),合并源PDF的頁(yè)面;
方法2:
除了方法1,還有另外一種方法可以合并PDF:
from?PyPDF2?import?PdfFileMerger?//?1merger?=?PdfFileMerger()input1?=?open("document1.pdf",?"rb")?//?2 input2?=?open("document2.pdf",?"rb") input3?=?open("document3.pdf",?"rb")merger.append(fileobj?=?input1,?pages?=?(0,3))?//?3merger.merge(position?=?2,?fileobj?=?input2,?pages?=?(0,1))?//?4merger.append(input3)?//?5output?=?open("document-output.pdf",?"wb") merger.write(output)導(dǎo)入PyPDF2合并模塊PdfFileMerger;
讀取需要處理和合并的PDF文檔;
從第一個(gè)PDF文檔中取出需要合并的前3頁(yè);
把第二個(gè)PDF文檔的第一頁(yè)插入到文檔中;
把第三個(gè)PDF文檔附到輸出文檔末尾;
除了上述介紹的2項(xiàng)主要功能,PyPDF2也有一些其他小功能:
旋轉(zhuǎn)
input1.getPage(1).rotateClockwise(90)使得頁(yè)面1旋轉(zhuǎn)90度。
添加水印
page?=?input1.getPage(3) watermark?=?PdfFileReader(open("watermark.pdf",?"rb")) page.mergePage(watermark.getPage(0))其中,水印存儲(chǔ)在另外一個(gè)PDF文檔watermark.pdf中。
加密
password?=?"secret" output.encrypt(password)首先給一個(gè)secret密碼,然后使用encrypt對(duì)輸出文檔進(jìn)行加密。
pdfminer
前面介紹的PyPDF2主要擅長(zhǎng)于PDF頁(yè)面級(jí)編輯,而對(duì)于文本和源數(shù)據(jù)級(jí)別編輯能力較弱。
所以,這里就來(lái)介紹另外一款Python庫(kù)來(lái)彌補(bǔ)它的不足。
PDFMiner是一個(gè)PDF文檔的文本提取工具,它具有如下特性:
能夠準(zhǔn)確獲取文本的位置和布局信息;
可以將PDF轉(zhuǎn)換為HTML/XML等格式;
可以提取目錄;
可以提取標(biāo)簽內(nèi)容;
支持各種字體類(lèi)型(Type1、TrueType、Type3和CID);
支持中、日、韓語(yǔ)言和垂直書(shū)寫(xiě)文本;
安裝
$?pip?install?pdfminerPDF轉(zhuǎn)TxT
pdfminer在GitHub的托管項(xiàng)目中,在目錄tools下給出了一些實(shí)用的工具集,例如,PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)TXT。我們可以直接通過(guò)使用下面命令提出PDF文檔中的文本信息。
$?pdf2txt.py?samples/simple1.pdf總結(jié)
通過(guò)上述2款Python庫(kù),就可以實(shí)現(xiàn)從頁(yè)面到文本元數(shù)據(jù)的編輯,本文只是簡(jiǎn)單的介紹了每項(xiàng)的基本用法。關(guān)于詳細(xì)的用法和函數(shù)列表,可以閱讀官方文檔,或者閱讀GitHub上項(xiàng)目源碼進(jìn)行了解。此外,可以在這些基本的用法基礎(chǔ)上進(jìn)行發(fā)散思維,發(fā)掘更多有價(jià)值的應(yīng)用場(chǎng)景,例如,提出文本數(shù)據(jù)之后調(diào)用翻譯API進(jìn)行文獻(xiàn)翻譯。也可以,對(duì)軟件進(jìn)行封裝,開(kāi)發(fā)成一款通用的PDF編輯工具。
? ???精 彩 文 章?
你離黑客的距離,就差這20個(gè)神器了
真香!spaCy+Cython比Python快100倍.....
為什么程序員下班后只關(guān)顯示器從不關(guān)電腦?
30 個(gè)極簡(jiǎn)Python代碼,拿走即用(真干貨)
最后說(shuō)一個(gè)題外話,相信大家有不少人開(kāi)通了視頻號(hào)。小詹也開(kāi)通了一個(gè)視頻號(hào),會(huì)分享互聯(lián)網(wǎng)那些事、讀書(shū)心得與副業(yè)經(jīng)驗(yàn),歡迎各位掃描下方二維碼關(guān)注。
總結(jié)
以上是生活随笔為你收集整理的付费?是不可能的!20行Python代码实现一款永久免费PDF编辑工具的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 干货 | 从零进阶数据分析学习资料汇总(
- 下一篇: 肝!计算机网络基础知识总结