「Python」 ElementTree模块解析xml文件,建议小白阅读全文
背景
Python有三種方法解析xml:SAX,DOM,Elementree。本文記錄ElementTree方法解析xml。
目前自己用的是Python3.6,但在該版本中并沒有xml的縮進(jìn)函數(shù)ET.indent,不過(guò)就我所知3.9版本是有的,所以當(dāng)前3.6寫出來(lái)的xml是無(wú)法調(diào)用函數(shù)來(lái)美化xml排版,文中的xml排版是手動(dòng)擋 :)。當(dāng)然,也可以寫個(gè)函數(shù)來(lái)自動(dòng)優(yōu)化。
正文
xml是一種固有的分層數(shù)據(jù)格式,最好的描述方式就是使用樹形結(jié)構(gòu)。在ElementTree模塊中,使用ElementTree對(duì)象來(lái)表示一棵樹,Element對(duì)象來(lái)表示樹中的一個(gè)單一結(jié)點(diǎn)。讀取、寫入一個(gè)xml文件一般都是在ElementTree層面上操作,而對(duì)xml元素(結(jié)點(diǎn))及其子元素(子結(jié)點(diǎn))的操作是在Element層面上進(jìn)行。
說(shuō)明:下面的內(nèi)容有時(shí)候使用明確的node名稱來(lái)代替Element進(jìn)行操作,有時(shí)候使用Element泛指一個(gè)結(jié)點(diǎn)。ElementTree和Element是一個(gè)類,創(chuàng)建一棵樹tree或者一個(gè)結(jié)點(diǎn)node相當(dāng)于類的實(shí)例化。
解析xml文件
import xml.etree.ElementTree as ET # 導(dǎo)入ElementTree模塊 tree = ET.parse(xml_file_path) # 解析xml文件,得到樹形結(jié)構(gòu) root = tree.getroot() # 獲取根節(jié)點(diǎn)結(jié)點(diǎn)基礎(chǔ):node.tag,node.attrib,node.get(),node.text
每個(gè)結(jié)點(diǎn)都有標(biāo)簽(tag)和屬性(attrib),標(biāo)簽名一般不為空,屬性可為空,比如:
<data, attrib=[]><daughter_node, name="child_1", age="20"><chichild_node>...</chichild_node></daughter_node>...<daughter_node>2021</daughter_node><son_node>...<son_node>...<son_node>...<son_node> </data>上面為一個(gè)根結(jié)點(diǎn)及其子結(jié)點(diǎn)的例子,根結(jié)點(diǎn)的標(biāo)簽名為data,沒有屬性(attrib為空:[])。注意區(qū)分結(jié)點(diǎn)的屬性和結(jié)點(diǎn)的子結(jié)點(diǎn),屬性包含在結(jié)點(diǎn)的括號(hào)<>中,而子結(jié)點(diǎn)是夾在一對(duì)標(biāo)簽內(nèi)。獲取一個(gè)結(jié)點(diǎn)的標(biāo)簽和屬性(此處結(jié)點(diǎn)為根節(jié)點(diǎn)):
root.tag # 返回結(jié)點(diǎn)的標(biāo)簽名data root.atrrib # 返回結(jié)點(diǎn)的屬性,此時(shí)根節(jié)點(diǎn)的屬性為[]而對(duì)于非空屬性的結(jié)點(diǎn),其屬性可以單個(gè)或者多個(gè),比如下面這個(gè)結(jié)點(diǎn)child node,它帶有兩個(gè)屬性name和age:
<child_node, name="child_1" age="20">... </child_node>可以使用如下代碼來(lái)訪問(wèn)child_node屬性:
child_node.attrib # 返回一個(gè)字典,字典包含每個(gè)屬性名和屬性內(nèi)容 child_node.get("name") # 返回name屬性的屬性內(nèi)容:child_1假定C結(jié)點(diǎn)(node結(jié)點(diǎn))沒有子結(jié)點(diǎn),但夾有文本信息:
<node>2021</node>則要獲取node結(jié)點(diǎn)的文本信息,有:
node.text # 返回“2021”結(jié)點(diǎn)拔高:遍歷,索引,遍歷指定結(jié)點(diǎn)Element.iter(),查找指定結(jié)點(diǎn)Element.findall()
-
有子結(jié)點(diǎn)的父結(jié)點(diǎn)是可迭代循環(huán)的,可以用for循環(huán)遍歷父結(jié)點(diǎn)的所有子結(jié)點(diǎn)
for child in root:print((child.tag, child.attrib)) -
通過(guò)索引的方式獲取結(jié)點(diǎn)
node = root[0][1]此處表示返回root結(jié)點(diǎn)(A)的第0個(gè)子結(jié)點(diǎn)(B)的第1個(gè)子結(jié)點(diǎn)(C),ABC三個(gè)的關(guān)系是,A是B的父節(jié)點(diǎn),A是C的爺爺節(jié)點(diǎn),B是C的父節(jié)點(diǎn)。
-
指定遍歷某一類結(jié)點(diǎn)
假定要遍歷上面例子中data結(jié)點(diǎn)下的所有daughter_node,則可以使用Element.iter()來(lái)指定遍歷結(jié)點(diǎn):
for daughter in data.iter("daughter_node"):print(daughter.tag)print(daughter.attrib)ps:可以用data.findall()替換data.iter(),進(jìn)行同樣的迭代,但區(qū)別在哪里自己探索吧。
創(chuàng)建xml并保存
- 創(chuàng)建結(jié)點(diǎn):ElementTree.Element()
- 創(chuàng)建樹形結(jié)構(gòu):ElementTree.ElementTree()
- 保存為xml文件:ElementTree.write()
- 添加子結(jié)點(diǎn):ElementTree.append()
要?jiǎng)?chuàng)建xml文件,那首先就要?jiǎng)?chuàng)建一個(gè)樹形結(jié)構(gòu),對(duì)于樹形結(jié)構(gòu),肯定是在ElementTree這個(gè)層次上創(chuàng)建,相當(dāng)于創(chuàng)建了一個(gè)樹架子,而Element是創(chuàng)建結(jié)點(diǎn),創(chuàng)建樹架子和結(jié)點(diǎn)后,你需要將Element結(jié)點(diǎn)掛到樹架子ElementTree上,因此:
xml_2_path = r"path\to\save\your\xml\file.xml" root = ET.Element("data", {"year":"2021", "age":"21"}) # 創(chuàng)建根節(jié)點(diǎn) new_tree = ET.ElementTree(element=root) # 創(chuàng)建樹形結(jié)構(gòu),再將根節(jié)點(diǎn)傳遞到樹中 child = ET.Element("child_1") # 創(chuàng)建一個(gè)結(jié)點(diǎn) child.text = "Anya" # 創(chuàng)界該結(jié)點(diǎn)的text內(nèi)容 root.append(child) # 將該結(jié)點(diǎn)連接到根結(jié)點(diǎn)root,此時(shí)該結(jié)點(diǎn)便成了root的子結(jié)點(diǎn) new_tree.write(xml_2_path)修改xml
- 修改文本:node.text = 2022
- 修改屬性:node.set()
- 移除結(jié)點(diǎn):Element.remove()
- 查找特定結(jié)點(diǎn):Element.findall()
假定目前已有xml文件如下:
<data, attrib=[]><daughter_node, name="child_1", age="20"><chichild_node>...</chichild_node></daughter_node>...<daughter_node>2021</daughter_node><son_node>...<son_node>...<son_node>...<son_node> </data>-
對(duì)于創(chuàng)建的Element對(duì)象,可以通過(guò)直接對(duì)其結(jié)點(diǎn)域(fields)賦值,達(dá)到修改的目的,例如:
daughter_node.text = 2022 # 原值為2021,經(jīng)賦值后,當(dāng)前值為2022 -
對(duì)于一個(gè)結(jié)點(diǎn)的屬性,可以使用Element.set()來(lái)新增或修改結(jié)點(diǎn)屬性:
data[0].set("age", "21") data[0].set("where", "home")data[0]代表data的第一個(gè)子結(jié)點(diǎn)daughter_node,有屬性name和age,沒有屬性where,因此上面的代碼第一條修改了age屬性,將20修改為21;新增了屬性where,其屬性值為home。此時(shí)該節(jié)點(diǎn)有三個(gè)屬性。
-
假定當(dāng)前for循環(huán)遍歷所有son_node,刪掉滿足判斷條件(此處為True)的son_node,那么:
for one_son_node in data.findall("son_node"):if True:data.remove(one_son_node)注意,此處不能用data.iter()替代data.findall(),因?yàn)楹笳咧皇遣檎?#xff0c;返回的是查找的結(jié)果;而前者是迭代,如果在迭代的過(guò)程中修改,會(huì)導(dǎo)致迭代發(fā)生錯(cuò)誤
保存修改后的xml樹
在經(jīng)過(guò)上面的一系列修改后,此時(shí)的xml文件里的內(nèi)容并沒有修改,因此需要將修改后的樹重寫進(jìn)文件中:
ElementTree.write(r"path\to\save\your\xml\file.xml")結(jié)語(yǔ)
寫到到這里,自己完全明白了怎么建立樹形結(jié)構(gòu)、結(jié)點(diǎn)及兩者的相關(guān)操作,能準(zhǔn)確區(qū)分ElementTree和Element到底是什么。本文只講了一些基礎(chǔ)的操作,看完后完全可以自行進(jìn)官網(wǎng)查看兩者的文檔,發(fā)覺更多其他更操作:
- ElementTree
- Element
總結(jié)
以上是生活随笔為你收集整理的「Python」 ElementTree模块解析xml文件,建议小白阅读全文的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 坦克的携弹量有限,会面临淘汰吗
- 下一篇: 八路军渑池兵站位置在哪里