java获取word书签表格数据_Python读取word文档里面的表格数据
我們常見的辦公數(shù)據(jù)通??梢苑譃榻Y(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),比如常見的word, ppt, excel。前兩者存儲(chǔ)的是非結(jié)構(gòu)化數(shù)據(jù),excel存儲(chǔ)的是結(jié)構(gòu)化數(shù)據(jù)。從事數(shù)據(jù)統(tǒng)計(jì)或分析的工作或多或少都會(huì)從excel獲取結(jié)構(gòu)化數(shù)據(jù)。讓結(jié)構(gòu)化數(shù)據(jù)變?yōu)榉墙Y(jié)構(gòu)化數(shù)據(jù),較為容易。但是讓非結(jié)構(gòu)化數(shù)據(jù)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)相對(duì)較難,數(shù)據(jù)科學(xué)其實(shí)大部分前期工作都是讓非結(jié)構(gòu)化數(shù)據(jù)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)。我們來看看如何將word文檔的表格數(shù)據(jù)轉(zhuǎn)化為excel數(shù)據(jù)。如有word表格數(shù)據(jù)
讀取word文檔,讀取所有表格數(shù)據(jù)
這里獲取第8個(gè)表格數(shù)據(jù)
獲取變量名
['model', 'TP', 'TN', 'FP', 'FN', 'Accuracy', 'Sensitivity', 'Specificity', 'Precision', 'Kappa', 'MCC', 'F1 score']
獲取表格內(nèi)結(jié)構(gòu)化數(shù)據(jù)
轉(zhuǎn)化為數(shù)據(jù)集:
源代碼:
# -*- coding: utf-8 -*-"""@author: weineng.zhou"""from docx import Document import numpy as npimport pandas as pdfilename = "D:/mydocx.docx"document = Document(filename) tables = document.tables table = tables[7]# 獲取變量名varname = []for i in range(len(table.columns)): varname.append(table.cell(0,i).text)print(varname)# 獲取表格數(shù)據(jù)data = []for i in range(1,len(table.rows)): for j in range(len(table.columns)): ????????data.append(table.cell(i,j).text)# list to 1D arrayarr1 = np.array(data)# 2D arrayarr2 = arr1.reshape(len(table.rows)-1,len(table.columns))# 2D array to 2D datasetdf?=?pd.DataFrame(arr2)# 給數(shù)據(jù)集賦予變量名df.columns?=?varname# 導(dǎo)出數(shù)據(jù)df.to_excel('D:/myexcel.xlsx',?index=False)運(yùn)用此種方法,當(dāng)我們遇到很多word當(dāng)中的表格數(shù)據(jù),難以做統(tǒng)計(jì)分析的時(shí)候,我們可以運(yùn)用次種方法變?yōu)槲覀兿胍臄?shù)據(jù)結(jié)構(gòu),然后進(jìn)行分析。
END碧茂課堂精彩課程推薦:
1.Cloudera數(shù)據(jù)分析課;
2.Spark和Hadoop開發(fā)員培訓(xùn);
3.大數(shù)據(jù)機(jī)器學(xué)習(xí)之推薦系統(tǒng);
4.Python數(shù)據(jù)分析與機(jī)器學(xué)習(xí)實(shí)戰(zhàn);
詳情請(qǐng)關(guān)注我們公眾號(hào):碧茂大數(shù)據(jù)-課程產(chǎn)品-碧茂課堂
現(xiàn)在注冊(cè)互動(dòng)得海量學(xué)幣,大量精品課程免費(fèi)送!
關(guān)注最新行業(yè)動(dòng)態(tài),
加群進(jìn)行技術(shù)交流!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的java获取word书签表格数据_Python读取word文档里面的表格数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 备案参数是什么意思(备案参数)
- 下一篇: abb智能控制系统_ABB助力国网冀北电