如何使用Python提取XML文件内容|极客教程

如何使用Python提取XML文件内容

一、引言

XML（扩展标记语言）作为一种通用的数据交换格式，在很多应用领域得到广泛应用。在处理XML数据时，有时需要从XML文件中提取出所需的内容，这就需要使用Python对XML文件进行解析和提取。

Python提供了多种处理XML的库，如xml.dom、xml.etree.ElementTree、xml.sax等。本文将详细介绍如何使用Python提取XML文件内容，并结合示例代码演示其用法。

二、xml.dom

1. 概述

xml.dom是Python标准库中提供的一种处理XML的方式。它提供了对DOM（文档对象模型）的支持，DOM是一种将XML文档表示为树形结构的模型。

2. 示例

import xml.dom.minidom

# 打开XML文件
dom = xml.dom.minidom.parse("data.xml")

# 获取根元素
root = dom.documentElement

# 获取所有子元素
elements = root.childNodes

# 遍历子元素
for element in elements:
    # 判断元素类型
    if element.nodeType == element.ELEMENT_NODE:
        # 提取元素内容
        content = element.firstChild.data
        print(content)

3. 运行结果

Hello, World!

三、xml.etree.ElementTree

1. 概述

xml.etree.ElementTree是Python标准库中提供的另一种处理XML的方式。它提供了对元素树的支持，以面向对象的方式解析和处理XML数据。

2. 示例

import xml.etree.ElementTree as ET

# 解析XML文件
tree = ET.parse("data.xml")

# 获取根元素
root = tree.getroot()

# 遍历子元素
for element in root:
    # 提取元素内容
    content = element.text
    print(content)

3. 运行结果

Hello, World!

四、xml.sax

1. 概述

xml.sax是Python标准库中提供的一种处理XML的方式。它采用了事件驱动模型，通过回调函数处理XML文档的各种事件。

2. 示例

import xml.sax

# 定义自定义的Handler类
class MyHandler(xml.sax.ContentHandler):
    def __init__(self):
        self.content = ""

    def startElement(self, name, attrs):
        pass

    def endElement(self, name):
        # 输出元素内容
        print(self.content)
        self.content = ""

    def characters(self, content):
        # 提取元素内容
        self.content += content

# 创建解析器
parser = xml.sax.make_parser()

# 关闭命名空间处理
parser.setFeature(xml.sax.handler.feature_namespaces, 0)

# 设置Handler类
handler = MyHandler()
parser.setContentHandler(handler)

# 解析XML文件
parser.parse("data.xml")