GUI实战|Python做一个文档图片提取软件
大家好,本文將進一步講解如何用Python提取PDF與Word中圖片,并結合之前講解過的GUI框架PysimpleGUI,做一個多文件圖片提取軟件,效果如下:
本文主要將分為以下部分講解:
PDF、Word、Excel文件圖片提取
構造圖片提取器GUI框架
整合代碼并打包
主要涉及的Python模塊有:
PIL
PySimpleGUI
re
win32
os
zipfile
fitz
? 準備工作
首先使用pip安裝相關依賴模塊
pip?install?pillow???#這是對模塊PTL的安裝 pip?install?pypiwin32????#這是對win32的安裝 pip?install?os? pip?install?zipfile pip?install?PyMuPDF??#這是引用fitz對PDF操作的包 pip?install?PySimpleGui
? 一、提取各文件內嵌圖片
在之前的文章有講過,讀取Excel有兩種方法。一種是將后綴名改成.zip格式進行提取,一種是通過Pillow模塊對Excel進行圖片復制與保存。而在我們這次3種文件格式的圖片提取當中,Excel提取圖片方法和之前一樣。
Word提取圖片方法和通過.zip提取方法類似,PDF提取圖片方法要用到新的模塊。由于Excel提取圖片的兩種方法在之前的文章講過,故這里只講解PDF和Word的提取方法。
1.1 提取Word圖片思路
和以前一樣,我們先看代碼再講解
path?=?values["lujing"]?? count?=?1 for?file?in?os.listdir(path):new_file?=?file.replace(".docx",".zip")os.rename(os.path.join(path,file),os.path.join(path,new_file))count+=1??????number?=?0craterDir?=?values["lujing"]?+?'/'??#?存放zip文件的文件夾路徑saveDir?=?values["lujing"]?+?'/'?#?存放圖片的路徑list_dir?=?os.listdir(craterDir)?#?獲取所有的zip文件名for?i?in?range(len(list_dir)):if?'zip'?not?in?list_dir[i]:list_dir[i]?=?''while?''?in?list_dir:list_dir.remove('')????????????????????????????for?zip_name?in?list_dir:#?默認模式r,讀azip?=?zipfile.ZipFile(craterDir?+?zip_name)#?返回所有文件夾和文件namelist?=?(azip.namelist())for?idx?in?range(0,len(namelist)):if?namelist[idx][:11]?==?'word/media/':#圖片是在這個路徑下img_name?=?saveDir?+?str(number)+'.jpg'f?=?azip.open(namelist[idx])img?=?Image.open(f)img?=?img.convert("RGB")img.save(img_name,"JPEG")number?+=?1azip.close()??#關閉文件,必須有,釋放內存這里的代碼和GUI中通過.zip方式提取Excel圖片的代碼思路是一樣的。
“path = values["lujing"]這里是讀取GUI中鍵為**“lujing”**的值,也即文件存儲位置,用于os模塊讀取與操作。
new_file = file.replace(".docx",".zip")是替換后綴名,如果是Excel的話,就把.docx改成.xlsx或xls。
craterDir = values["lujing"] + '/' ?這是存放zip文件的文件夾路徑,注意這里讀取到的鍵為“lujing”的值后要在后面添加/。
saveDir = values["lujing"] + '/' ?這是存放圖片的路徑,同理,和上面一樣加個/號。
”最后說一下與Excel提取相比,最大的不同是下面的代碼
if namelist[idx][:11] == 'word/media/':細心的讀者可以發現,與Excel提取相比,中括號里面的值改了。
很好理解,我們可以打印namelist[idx],可以發現在索引0到10是'word/media/'所在位置。而在Excel中是前9位。
感興趣的讀者可以翻看之前的文章,那里有對這段代碼的詳細解析,這里不多做介紹。
1.2 提取PDF圖片思路
和之前的excel提取圖片一樣,在一個pdf中放入4張圖片,我們將它壓縮為zip文件????
讀取后????
相關代碼如下:
def?pdf2pic(path,?pic_path):doc?=?fitz.open(path)nums?=?doc._getXrefLength()imgcount?=?0?for?i?in?range(1,?nums):text?=?doc._getXrefString(i)if?('Width?2550'?in?text)?and?('Height?3300'?in?text)?or?('thumbnail'?in?text):continuecheckXO?=?r"/Type(?=?*/XObject)"checkIM?=?r"/Subtype(?=?*/Image)"isXObject?=?re.search(checkXO,?text)isImage?=?re.search(checkIM,?text)if?not?isXObject?or?not?isImage:continueimgcount?+=?1pix?=?fitz.Pixmap(doc,?i)img_name?=?"img{}.png".format(imgcount)if?pix.n?<?5:try:pix.writePNG(os.path.join(pic_path,?img_name))pix?=?Noneexcept:pix0?=?fitz.Pixmap(fitz.csRGB,?pix)pix0.writePNG(os.path.join(pic_path,?img_name))pix0?=?None if?__name__?==?'__main__':path?=?values["lujing"]+?'/'?+?values["wenjian"]pic_path?=?values["lujing"]pdf2pic(path,?pic_path)先說一下這段代碼的思路吧,由于PDF不能像Excel和Word一樣改后綴名進行提取,故這里運用python的一個模塊PyMuPDF,過程如下
讀取PDF并遍歷每一頁
篩選無用的元素并用正則表達式獲取圖片
生成并保存圖片
fitz.open(path)是打開PDF文件夾,這里的path是需要在GUI界面中獲取用戶的文件存放路徑于文件名的。
for?i?in?range(1,?nums):text?=?doc._getXrefString(i)這是我們的第一步讀取并遍歷,將讀取到的字符串內容放入到text中
if?('Width?2550'?in?text)?and?('Height?3300'?in?text)?or?('thumbnail'?in?text):continue由于PDF每一頁的背景就是一張圖片,故我們可以通過寬高來尋找這些背景圖片并用continue把他們剔除。
checkXO?=?r"/Type(?=?*/XObject)" checkIM?=?r"/Subtype(?=?*/Image)" isXObject?=?re.search(checkXO,?text) isImage?=?re.search(checkIM,?text) if?not?isXObject?or?not?isImage:continue我們通過實驗發現圖片所對應的字符串在checkxo與checkIM這兩個中。故用正則表達式在text中進行索引提取,用到了re模塊的search函數。如果不是這兩個字符串就用continue剔除。
pix?=?fitz.Pixmap(doc,?i) img_name?=?"img{}.png".format(imgcount) if?pix.n?<?5:try:pix.writePNG(os.path.join(pic_path,?img_name))pix?=?Noneexcept:pix0?=?fitz.Pixmap(fitz.csRGB,?pix)pix0.writePNG(os.path.join(pic_path,?img_name))pix0?=?None這是最后一步生成與保存圖片
“pix = fitz.Pixmap(doc, i)是生成圖像語句,doc代表PDF文件,i代表遍歷每個圖片對象的索引值。
img_name = "img{}.png".format(imgcount)是設置圖像名語句,用提取到的圖片的序列號作為命名格式。
”而后if嵌套try那幾行代碼是保存圖像語句。如果pix.n<5,可以直接存為PNG,否者將進行RGB變換在保存。
由于代碼采用的是def函數編寫模式,故最后還要一個函數的初始化:if __name__ == '__main__':
至此,3種文件格式(Excel、Word、PDF)圖片提取方法已全部講解,接下來就是重中之重GUI構建了。
? 二、GUI框架構建
先看完整代碼:
import?PySimpleGUI?as?sg sg.ChangeLookAndFeel('GreenTan')???#更換主題 menu_def?=?[['&使用說明',?['&注意']]] layout?=?[[sg.Menu(menu_def,?tearoff=True)],[sg.Frame(layout=[[sg.Radio('Excel1',?"RADIO1",size=(10,1),key="Excel1"),??sg.Radio('Word',?"RADIO1",default=True,key="Word")],[sg.Radio('Excel2',?"RADIO1",?enable_events=True,?size=(10,1),key="Excel2"),?sg.Radio('PDF',?"RADIO1",key="PDF")]],?title='選項',title_color='red',?relief=sg.RELIEF_SUNKEN,?tooltip='Use?these?to?set?flags')],[sg.Text('文件位置',?size=(8,?1),?auto_size_text=False,?justification='right'),sg.InputText(enable_events=True,key="lujing"),?sg.FolderBrowse()],[sg.Text('文件名字',?size=(8,?1),?justification='right'),sg.InputText(enable_events=True,key="wenjian")],[sg.Submit(tooltip='文件'),?sg.Cancel()]]window?=?sg.Window('圖片提取器',?layout,?default_element_size=(40,?1),?grab_anywhere=False) while?True:event,?values?=?window.read()if?event?==?"Submit":if?values["Excel2"]?==?True:'''事件綁定'''sg.Popup("提取成功")if?values["Excel1"]?==?True:'''事件綁定'''sg.Popup("提取成功")if?values["Word"]?==?True:'''事件綁定'''sg.Popup("提取成功")?if?values["PDF"]?==?True:'''事件綁定'''sg.Popup("提取成功")if?event?==?"Cancel"?or?event?==?sg.WIN_CLOSED:break????if?event?==?"注意":sg.Popup("作用講解:","Excel1 :解析選定位置中所有的Excel文件,無需在文件名處填寫","Excel2 :解析選定位置中單個指定的Excel文件,需在文件名處填寫","Word :??解析選定位置中單個指定的docx結尾的文件,無需在文件名處填寫","PDF :???解析選定位置中單個指定的PDF文件,需在文件名處填寫") window.close()???????????效果呈現:
代碼解析:做PySimpleGUI還是原來那個步驟:
Import ? Create some widgets Create the window Create the event loop
當然,做GUI之前就是先想清楚自己的圖形交互頁面長什么樣,像我就是現在紙上畫一個大概,這樣更有益于制作頁面。
第一步先引用模塊
第二步添加元素(小部件)到容器(layout)中,這里先介紹一下用到的部件:
“Menu:顧名思義,這是菜單欄,每個GUI都必帶一個菜單欄來提示使用者該如何做,我們這里用了menu_def這個布局來完成菜單的設置。
Frame:這個跟layout布局完全相同,工作方式也一樣,他們都是容器元素。可以看到“選項”那里是一個凹槽的正方形,里面裝有四個選項,作用就是這個。注意,&這個符號的作用是創建相同類型的菜單,這里只有注意事項這一個菜單,故可以不用管,讀者如果想添加同樣的菜單的話必須添加一個&。tearoff=True這個參數是菜單欄中每個子選項上面加虛線。
Radio:單選按鈕。我們只可以在同樣的id上選擇一個選項。id就是指代碼中的“ra-dio1”。其中每個radio函數的第一個參數是文本內容,這里就是我們要進行提取的4個文件格式。而“size”就是位置,每行的第一個設同樣的參數(10,1)。最后就是我們進行事件幫綁定的鍵,其中“enable_events”可以不寫因為我們只是調用它而不用去對它產生事件。
Text:之前有講是不能改的正文內容。同樣這里設置的位置參數(8,1),justification='right'有點類似我們平常用word那個向右對其。
InputText:需要用戶輸入的正文內容。這里有兩個需要我們填寫的地方:文件位置和文件名。這里需要設置鍵,因為在后面事件綁定中我們需要調用文件存儲路徑和文件名,在文中上半部分有提到過。
FolderBrowse:簡易的打開文件路徑操作,不用你去復制路徑。
Submit:確定按鈕,這里綁定為執行提取文檔圖片事件
Cancel:退出主程序按鈕。
”第三步就是創建窗口來容納這些元素布置。
第四步創建事件循環,可以看到代碼,都是一樣的套路:當用戶按下submit按鈕時系統將進行判斷你按的是哪個單選按鈕,進而進行相對應的事件執行。當你按下cancel或者×時,就是退出主程序。當你按菜單中的注意時,就會彈出一個對話框告訴你這個系統怎么用。
在事件循環中,我們用values[]的布爾值來判斷我們選的是哪個單選按鈕,有讀者疑問為什么不用event=,因為我們在第一個if當中用了event所以第二個if當中需要換一個判斷方法。
至此,GUI部分就搞定了!感興趣的讀者可以繼續在上面添加功能。
? 三、打包
我們將完整代碼整合在一起,后安裝pyinstaller模塊
pip?install?pyinstaller如果你的上述項目代碼文件命名為:photo.py。那么你要用下面命令進行打包
pyinstaller?photo.py最后打包成功之后,你會在py文件所在文件夾看到一個dist的子文件夾。進去之后,找到pachong.exe文件并運行它即可。
注意,文件夾里附帶了很多文件,你可以刪除它。當然,如果嫌麻煩就直接從photo.py文件用Python執行。
推薦閱讀 誤執行了rm -fr /*之后,除了跑路還能怎么辦?!程序員必備58個網站匯總大幅提高生產力:你需要了解的十大Jupyter Lab插件總結
以上是生活随笔為你收集整理的GUI实战|Python做一个文档图片提取软件的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 讲真!朋友圈别设置三天可见!
- 下一篇: 卧槽!12个杭州阿里高学历女员工被初中男