當前位置：首頁 > 编程语言 > python >内容正文

python

pdf exe如何提取pdf文件_python应用：如何用python提取pdf文件中的文字

發布時間：2025/3/11 python 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 pdf exe如何提取pdf文件_python应用：如何用python提取pdf文件中的文字小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

從pdf中提取文字，相信很多人都干過這事，怎么在python中實現呢，今天帶大家看看。

第一步導入庫

import PyPDF2

第二步導入pdf文件

pdf_file =open('dataset/laban.1027.pdf', 'rb')

第三步讀取pdf并檢查加密情況

read_pdf = PyPDF2.PdfFileReader(pdf_file)read_pdf.getIsEncrypted()read_pdf.numPages

在上面的代碼中我首先建立了一個pdf閱讀器read_pdf，然后通過.getIsEncrypted方法檢查這個pdf的加密情況。然后我們再看了看我們這個pdf到底有幾頁，結果如下：

我們得到的結果是Flase，頁碼數為1，說明我們的pdf是沒有加密的，要注意如果是加密的pdf我們在之后的提取文字過程可能會報錯。

第4步提取文字

提取文字的代碼如下：

page1 = read_pdf.getPage(0)page1.extractText()

解釋一下上面的代碼，首先還是要指定提取的pdf的頁碼，我這兒指定的是0也就是第一頁，運行以上代碼會得到如下結果：

可以看到，文字雖然被提取出來了，但是文字并沒有自動換行，相應的換行符號都被“”替代了，此時我們需要做的就是將提取出來的原始文本正常換行，很簡單直接用處理字符串的.split方法即可。代碼如下：

page1.extractText().split('')

運行代碼得到結果：

可以看到，現在文字都進行了正常換行，但是因為原始pdf的排版問題，這個表現并不是很好，大家可以換一個pdf看一看效果。

結語

今天給大家介紹了用python從pdf文件中提取文字的方法，這個只是提取方法的一小部分演示，還有很多庫都可以進行pdf文字的提取，之后再給大家寫。感謝大家耐心看完。發表這些東西的主要目的就是督促自己，希望大家關注評論指出不足，一起進步。內容我都會寫的很細，用到的數據集也會在原文中給出鏈接，你只要按照文章中的代碼自己也可以做出一樣的結果，一個目的就是零基礎也能懂，因為自己就是什么基礎沒有從零學Python的，加油。

(數據鏈接發不了，請關注后私信回復“數據鏈接”獲取本頭條號所有使用數據，包括本文的pdf文件)

總結

以上是生活随笔為你收集整理的pdf exe如何提取pdf文件_python应用：如何用python提取pdf文件中的文字的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： datatable怎么根据两列分组_谈谈
下一篇： flag的具体用法python_Pyth