Python读取XML文件|极客教程

Python读取XML文件

在Python中，我们可以使用一些库来读取和处理XML文件。XML是一种用于存储和传输数据的标记语言，常用于配置文件、数据交换和Web服务等方面。本文将介绍如何使用Python来读取XML文件，并对读取后的数据进行处理。

使用ElementTree库读取XML文件

Python标准库中的ElementTree模块提供了一种简单的方式来解析和操作XML数据。我们可以使用该模块来读取XML文件并获得其结构化的数据。

以下是一个示例XML文件data.xml：

<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>

我们可以使用以下代码来读取并解析XML文件：

import xml.etree.ElementTree as ET

tree = ET.parse('data.xml')
root = tree.getroot()

for country in root.findall('country'):
    name = country.attrib['name']
    rank = country.find('rank').text
    year = country.find('year').text
    gdppc = country.find('gdppc').text
    neighbors = ', '.join([n.attrib['name'] for n in country.findall('neighbor')])

    print(f'Country: {name}')
    print(f'Rank: {rank}')
    print(f'Year: {year}')
    print(f'GDP per capita: {gdppc}')
    print(f'Neighbors: {neighbors}')
    print()

运行以上代码将输出每个国家的名称、排名、年份、人均GDP和邻国信息：

Country: Liechtenstein
Rank: 1
Year: 2008
GDP per capita: 141100
Neighbors: Austria, Switzerland

Country: Singapore
Rank: 4
Year: 2011
GDP per capita: 59900
Neighbors: Malaysia

Country: Panama
Rank: 68
Year: 2011
GDP per capita: 13600
Neighbors: Costa Rica, Colombia

使用minidom库读取XML文件

除了ElementTree之外，Python还提供了minidom模块用于解析XML文件。minidom模块将整个XML文件加载为文档对象，并提供了访问和操作XML数据的方法。

以下是一个使用minidom读取XML文件的示例代码：

from xml.dom import minidom

doc = minidom.parse('data.xml')

countries = doc.getElementsByTagName('country')

for country in countries:
    name = country.getAttribute('name')
    rank = country.getElementsByTagName('rank')[0].childNodes[0].data
    year = country.getElementsByTagName('year')[0].childNodes[0].data
    gdppc = country.getElementsByTagName('gdppc')[0].childNodes[0].data
    neighbors = ', '.join([n.getAttribute('name') for n in country.getElementsByTagName('neighbor')])

    print(f'Country: {name}')
    print(f'Rank: {rank}')
    print(f'Year: {year}')
    print(f'GDP per capita: {gdppc}')
    print(f'Neighbors: {neighbors}')
    print()

运行以上代码将得到与上一段代码相同的输出。

使用lxml库读取XML文件

另一个常用的XML处理库是lxml，它提供了更快速和灵活的XML解析方式。lxml是构建在libxml2和libxslt库之上的Python库，可以处理大型XML文件和复杂的XML结构。

以下是一个使用lxml读取XML文件的示例代码：

from lxml import etree

tree = etree.parse('data.xml')
root = tree.getroot()

for country in root.findall('country'):
    name = country.get('name')
    rank = country.find('rank').text
    year = country.find('year').text
    gdppc = country.find('gdppc').text
    neighbors = ', '.join([n.get('name') for n in country.findall('neighbor')])

    print(f'Country: {name}')
    print(f'Rank: {rank}')
    print(f'Year: {year}')
    print(f'GDP per capita: {gdppc}')
    print(f'Neighbors: {neighbors}')
    print()

以上代码与使用ElementTree库的代码类似，同样可以输出相同的结果。