python读取xml|极客教程

python读取xml

一、引言

XML（Extensible Markup Language）是一种标记语言，用于描述数据的结构和内容。在Web开发和数据交换中，常常需要读取和处理XML文件。Python是一种简单而强大的编程语言，提供了许多库和工具，方便我们读取和解析XML文件。本文将详细介绍如何使用Python读取XML文件，并给出示例代码和运行结果。

二、Python读取XML的库

在Python中，有多个库可以用于读取和处理XML文件。其中比较常用的有以下几种：

xml.etree.ElementTree：Python标准库中的一个模块，提供了解析XML文件的功能。
lxml：一个第三方库，基于C语言的libxml2库，提供了更好的性能和更多的功能。
xml.dom：Python标准库中的一个模块，提供了DOM（Document Object Model）接口，可以以树形结构对XML进行访问和操作。

本文将以xml.etree.ElementTree模块为例，介绍如何使用Python读取和解析XML文件。

三、安装和导入xml.etree.ElementTree

xml.etree.ElementTree模块是Python标准库中的一部分，不需要额外安装。只需在代码中导入即可使用：

import xml.etree.ElementTree as ET

四、读取XML文件

要读取XML文件，首先需要将XML文件加载到内存中，然后使用解析器将其转换为可操作的对象。xml.etree.ElementTree模块提供了两个主要的类：ElementTree和Element。

ElementTree表示整个XML文件的树形结构，可以通过解析器将XML文件加载为ElementTree对象：

tree = ET.parse('example.xml')

上述代码将文件example.xml加载为ElementTree对象。如果XML文件存在语法错误，解析过程将抛出异常。

Element代表XML文件中的一个元素，它可以有子元素、属性和文本内容。可以通过以下方式访问ElementTree中的元素：

root = tree.getroot()

上述代码将获取ElementTree的根元素。

五、遍历XML元素

在获得ElementTree和根元素后，我们可以使用Element的方法和属性来遍历XML文件中的元素、属性和文本内容。

1. 遍历子元素

可以使用element.iter()方法遍历当前元素的所有子元素。例如，假设XML文件如下所示：

<bookstore>
  <book category="cooking">
    <title lang="en">Everyday Italian</title>
    <author>Giada De Laurentiis</author>
    <year>2005</year>
    <price>30.00</price>
  </book>
  <book category="children">
    <title lang="en">Harry Potter</title>
    <author>J.K. Rowling</author>
    <year>2005</year>
    <price>29.99</price>
  </book>
</bookstore>

可以使用以下代码遍历所有book元素的子元素：

for book in root.iter('book'):
    for child in book:
        print(child.tag, child.text)

输出如下：

title Everyday Italian
author Giada De Laurentiis
year 2005
price 30.00
title Harry Potter
author J.K. Rowling
year 2005
price 29.99

2. 获取元素的属性和文本内容

要获取元素的属性，可以使用element.attrib属性。例如，可以使用以下代码获取book元素的category属性：

for book in root.iter('book'):
    print(book.attrib['category'])

输出如下：

cooking
children

要获取元素的文本内容，可以使用element.text属性。例如，可以使用以下代码获取每个元素的文本内容：

for book in root.iter('book'):
    print(book.find('title').text)

输出如下：

Everyday Italian
Harry Potter

3. 遍历整个XML树

除了遍历子元素，还可以直接遍历整个XML树。可以使用以下代码遍历XML树：

for elem in tree.iter():
    print(elem.tag, elem.text)

输出为XML文件中所有元素的标签名和文本内容。

六、修改和删除元素

xml.etree.ElementTree模块还提供了修改和删除元素的方法。

1. 修改元素的属性和文本内容

可以使用element.set()方法修改元素的属性值。例如，可以使用以下代码修改第一个book元素的category属性：

for book in root.iter('book'):
    if book.attrib['category'] == 'cooking':
        book.set('category', 'food')
        break

可以使用element.text属性修改元素的文本内容。例如，可以使用以下代码将第一个book元素的title修改为”Italian Cuisine”：

for book in root.iter('book'):
    if book.attrib['category'] == 'cooking':
        book.find('title').text = 'Italian Cuisine'
        break

2. 删除元素

可以使用element.remove()方法删除元素。例如，可以使用以下代码删除第一个book元素：

for book in root.iter('book'):
    if book.attrib['category'] == 'cooking':
        root.remove(book)
        break

七、保存修改后的XML文件

在修改完成后，可以使用ElementTree.write()方法将修改后的ElementTree对象保存为XML文件。例如，可以使用以下代码保存修改后的XML文件：

tree.write('new.xml')

八、总结

本文介绍了如何使用Python读取和解析XML文件，主要使用了xml.etree.ElementTree模块。通过解析XML文件，我们可以方便地遍历元素、获取属性和文本内容，还可以修改和删除元素。Python提供了丰富的库和工具，使得XML的处理变得简单和高效。

python读取xml