Python 读取xml文件

1. 介绍

XML（可扩展标记语言）是一种常用的文本格式，用于存储和传输数据。在Python中，我们可以使用各种库来读取和处理XML文件。本文将介绍如何使用Python读取XML文件，并展示一些常用的方法和技巧。

2. XML文件的结构

XML文件由元素（element）和属性（attribute）组成。元素可以包含其他元素或文本内容，而属性是与元素相关联的键值对信息。

下面是一个例子，展示了一个简单的XML文件的结构：

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
  <book category="cooking">
    <title lang="en">Everyday Italian</title>
    <author>Giada De Laurentiis</author>
    <year>2005</year>
    <price>30.00</price>
  </book>
  <book category="children">
    <title lang="en">Harry Potter</title>
    <author>J.K. Rowling</author>
    <year>2005</year>
    <price>29.99</price>
  </book>
</bookstore>

在这个例子中，bookstore是根元素，它包含了两个book元素。每个book元素有一个category属性，并包含title、author、year和price元素。

3. 使用Python读取XML文件

在Python中，我们可以使用多个库来读取和处理XML文件，例如xml.etree.ElementTree、xml.dom.minidom和lxml等。下面是使用这些库的示例代码：

3.1 使用`xml.etree.ElementTree`

xml.etree.ElementTree是Python的内置库，它提供了一个简单的API来解析和操作XML文档。

首先，我们需要将XML文件加载到内存中，然后使用ElementTree库将其解析为一个树状结构。以下是具体步骤：

import xml.etree.ElementTree as ET

# 加载XML文件
tree = ET.parse('books.xml')

# 获取根元素
root = tree.getroot()

现在，我们可以通过root对象访问XML文件中的元素和属性。下面是一些示例代码：

# 遍历根元素的子元素
for child in root:
    print(child.tag, child.attrib)

输出结果：

bookstore {}

# 遍历book元素
for book in root.findall('book'):
    print(book.find('title').text)
    print(book.find('author').text)
    print(book.find('year').text)
    print(book.find('price').text)

输出结果：

Everyday Italian
Giada De Laurentiis
2005
30.00
Harry Potter
J.K. Rowling
2005
29.99

3.2 使用`xml.dom.minidom`

xml.dom.minidom是Python的内置库，它提供了一种面向对象的API来解析和操作XML文档。

首先，我们需要将XML文件加载到内存中，然后使用minidom库将其解析为一个DOM对象。以下是具体步骤：

import xml.dom.minidom

# 加载XML文件
dom = xml.dom.minidom.parse('books.xml')

# 获取根元素
root = dom.documentElement

现在，我们可以通过root对象访问XML文件中的元素和属性。下面是一些示例代码：

# 获取根元素的属性
print(root.getAttribute('category'))

输出结果：

cooking

# 获取所有book元素
books = root.getElementsByTagName('book')

# 遍历book元素
for book in books:
  # 获取title元素
  title = book.getElementsByTagName('title')[0]
  print(title.firstChild.nodeValue)

  # 获取author元素
  author = book.getElementsByTagName('author')[0]
  print(author.firstChild.nodeValue)

  # 获取year元素
  year = book.getElementsByTagName('year')[0]
  print(year.firstChild.nodeValue)

  # 获取price元素
  price = book.getElementsByTagName('price')[0]
  print(price.firstChild.nodeValue)

输出结果：

Everyday Italian
Giada De Laurentiis
2005
30.00
Harry Potter
J.K. Rowling
2005
29.99

3.3 使用`lxml`

lxml是一个基于C语言的XML处理库，它提供了高性能和易用的API来解析和操作XML文档。

首先，我们需要安装lxml库。在命令行中执行以下命令即可：

pip install lxml

然后，我们可以使用lxml库来解析XML文件。以下是具体步骤：

from lxml import etree

# 加载XML文件
tree = etree.parse('books.xml')

# 获取根元素
root = tree.getroot()

现在，我们可以通过root对象访问XML文件中的元素和属性。下面是一些示例代码：

# 遍历根元素的子元素
for child in root:
    print(child.tag, child.attrib)

输出结果：

bookstore {}

# 遍历book元素
books = root.xpath('book')

for book in books:
    title = book.xpath('title/text()')[0]
    author = book.xpath('author/text()')[0]
    year = book.xpath('year/text()')[0]
    price = book.xpath('price/text()')[0]

    print(title)
    print(author)
    print(year)
    print(price)

输出结果：

Everyday Italian
Giada De Laurentiis
2005
30.00
Harry Potter
J.K. Rowling
2005
29.99

4. 结论

本文介绍了如何使用Python读取XML文件。我们通过示例代码演示了三个库：xml.etree.ElementTree、xml.dom.minidom和lxml的使用方法。无论您选择哪个库，都可以轻松地读取和处理XML文件。

Python 读取xml文件

Python 读取xml文件

1. 介绍

2. XML文件的结构

3. 使用Python读取XML文件

3.1 使用`xml.etree.ElementTree`

3.2 使用`xml.dom.minidom`

3.3 使用`lxml`

4. 结论

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Python 精品教程

回顶部

Python 读取xml文件

1. 介绍

2. XML文件的结构

3. 使用Python读取XML文件

3.1 使用xml.etree.ElementTree

3.2 使用xml.dom.minidom

3.3 使用lxml

4. 结论

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Python 精品教程

回顶部

3.1 使用`xml.etree.ElementTree`

3.2 使用`xml.dom.minidom`

3.3 使用`lxml`