Pandas 使用pd.read_excel()读取同一工作簿的多个工作表

在本文中，我们将介绍如何使用Pandas库中的pd.read_excel()方法来读取同一工作簿的多个工作表。Pandas是一个强大的数据分析库，能够对Excel电子表格数据进行处理和分析，而pd.read_excel()方法则是其中的一个重要工具。

阅读更多：Pandas 教程

一、读取所有工作表

首先，我们可以使用pd.read_excel()方法读取整个工作簿中的所有工作表。代码如下：

import pandas as pd
xl = pd.ExcelFile('workbook.xlsx')
df_dict = {}
for sheet_name in xl.sheet_names:
    df_dict[sheet_name] = xl.parse(sheet_name)

上面的代码中，我们使用pd.ExcelFile()方法读取整个工作簿，然后使用xl.sheet_names属性遍历所有工作表的名称，将每个工作表的数据转化为Pandas数据帧对象，并保存在df_dict字典中。

二、读取部分工作表

如果我们只需要读取工作簿中某些特定的工作表，而非所有工作表，该如何处理呢？此时，我们可以在pd.read_excel()方法中加入sheet_name参数，来指定读取的工作表名称或工作表序号。

例如，我们想要读取工作簿中的第一个和第三个工作表，对应的名称分别为“sheet1”和“sheet3”。则代码如下：

import pandas as pd
sheet_list = ['sheet1', 2] # 注意序号为0的工作表对应sheet_name为1
df_dict = {}
for sheet_name in sheet_list:
    df_dict[sheet_name] = pd.read_excel('workbook.xlsx', sheet_name=sheet_name)

在上述代码中，我们首先定义了一个包含工作表名称和工作表序号的列表sheet_list，然后遍历列表中的元素，使用pd.read_excel()方法读取指定的工作表，同样将数据保存为Pandas数据帧对象，并存储在df_dict字典中。

三、读取工作表某几列数据

在实际的数据处理和分析中，我们通常只需要借助工作表中的某些数据列进行分析，而非需要全部读取。此时，我们可以在pd.read_excel()方法中加入usecols参数来限定读取的列。

例如，我们想要读取工作簿中的第一个工作表中的第一列、第三列和第五列，对应的列名分别为“col1”、“col3”和“col5”。则代码如下：

import pandas as pd
df = pd.read_excel('workbook.xlsx', sheet_name='sheet1', usecols=['col1', 'col3', 'col5'])

在上面的代码中，我们使用pd.read_excel()方法读取指定的工作表“sheet1”，usecols参数指定读取的列，即“col1”、“col3”和“col5”，返回的是一个Pandas数据帧对象df。

四、统计分析读取后的数据

当我们读取了工作簿中的多个工作表或特定的数据列后，我们可以使用Pandas库提供的各种方法来对这些数据进行统计分析。例如，我们可以计算读取后的第一个工作表中各列数据的均值，中位数等统计量。代码如下：

import pandas as pd
df = pd.read_excel('workbook.xlsx', sheet_name='sheet1')
print('Mean:\n', df.mean())
print('Median:\n', df.median())

在上述代码中，我们使用pd.read_excel()方法读取工作簿中的第一个工作表，默认读取所有列，返回一个数据帧对象df。然后，通过使用.mean()和.median()方法来计算该数据帧对象中各列数据的均值、中位数。

还有许多其他的统计方法可以应用于Pandas数据帧对象，例如计算标准差、方差等。同时，在读取的数据中可能存在空值或异常值，我们也可以使用Pandas提供的处理方法进行数据清洗和预处理。

五、异常处理

在实际的数据处理和分析中，经常会遇到数据中存在空值，NaN（not a number）或Inf（infinity）等特殊值的情形。处理这些异常值是数据预处理的重要步骤之一。

在Pandas中，我们可以使用.dropna()方法来丢弃包含NaN值的行或列，使用.fillna()方法来替换NaN值或特殊值，使用.replace()方法来替换其他异常值或字符串等。以下是一些示例代码：

1. 丢弃包含NaN值的行或列

可以使用dropna()方法来删除数据帧对象df中包含NaN值的行或列。例如：

import pandas as pd
df = pd.read_excel('workbook.xlsx', sheet_name='sheet1')
df.dropna() # 删除所有包含NaN值的行
df.dropna(axis=1) # 删除所有包含NaN值的列

在上述代码中，dropna()方法默认丢弃含有NaN的行，axis=1表示删除含有NaN值的列。

2. 替换NaN值或特殊值

使用fillna()方法可以将df中的NaN值或其它特殊值进行替换。例如：

import pandas as pd
df = pd.read_excel('workbook.xlsx', sheet_name='sheet1')
df.fillna(0) # 将df中的所有NaN值替换为0
df.replace([np.inf, -np.inf], np.nan).fillna(0) # 将df中的所有Inf或-inf值替换为NaN，再用0来替换所有NaN值

在上述代码中，我们通过.replace()方法先将所有Inf或-inf替换为NaN值，再通过fillna()方法将所有NaN值替换为0。

3. 替换异常值或字符串

如果我们需要替换数据帧对象df中的异常值或字符串等，可以使用.replace()方法。例如：

import pandas as pd
df.replace('abc', 'def') # 将df中的所有'abc'替换为'def'
df.replace({'col1': 'abc', 'col2': 'def'}, {'col1': 'xyz', 'col2': 'uvw'}) # 将df中的'col1'列的abc替换为xyz，'col2'列的def替换为uvw