读取word文件中的文本信息
生活随笔
收集整理的這篇文章主要介紹了
读取word文件中的文本信息
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
前言:依次讀取某文件夾下的word文件,并將文件名及文本數(shù)據(jù)寫入至xlsx文件
pwd # 導(dǎo)入庫 import os import docx import pandas as pd path = "D:\\Code" # word文件所在的文件夾目錄 files= os.listdir(path) # 得到文件夾下的所有文件名稱 file_str_list = [] for i in range(len(files)): # 遍歷目錄下的所有文件夾file_path = path + '\\' + files[i]file = docx.Document(file_path) # 獲取文檔對(duì)象file_str = ''# 輸出每一段的內(nèi)容for para in file.paragraphs:# 去除所有空字符,包括空格、換行(\n)、制表符(\t)等para.text = ''.join(para.text.split()) file_str = file_str + para.textfile_str_list.append(file_str) print(file_str_list) print(len(file_str_list)) print(len(file_str_list[1])) # 將list轉(zhuǎn)為DataFrame結(jié)構(gòu) df = pd.DataFrame((zip(files, file_str_list)), columns=['title', 'text'])# 保存到本地excel df.to_excel("data_zh.xlsx", index=False)參考文章:python剔除空格
總結(jié)
以上是生活随笔為你收集整理的读取word文件中的文本信息的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析软件-weka
- 下一篇: Python程序全局观--以温度转换为例