如何用pandas合并不同时序的数据|极客教程

如何用pandas合并不同时序的数据

在数据处理和分析过程中，经常会遇到需要合并不同时序的数据的情况。例如，某个数据集中包含了多个不同时间段的数据，我们需要将这些数据合并到一起进行分析。在这种情况下，使用Python中的pandas库可以很方便地实现数据合并。

1. 导入pandas库

首先，我们需要导入pandas库，如果没有安装pandas库，可以使用pip进行安装：

pip install pandas

然后在Python脚本或Jupyter Notebook中导入pandas库：

import pandas as pd

2. 创建不同时序的数据集

为了演示如何合并不同时序的数据，我们首先创建两个数据集，分别代表不同时间段的数据。

# 创建第一个数据集
data1 = {'Date': ['2021-01-01', '2021-01-02', '2021-01-03'],
         'Value1': [10, 20, 30]}
df1 = pd.DataFrame(data1)

# 创建第二个数据集
data2 = {'Date': ['2021-01-03', '2021-01-04', '2021-01-05'],
         'Value2': [40, 50, 60]}
df2 = pd.DataFrame(data2)

现在，我们有了两个数据集df1和df2，它们分别包含了不同时间段的数据。

3. 合并不同时序的数据

方法一：使用concat函数合并数据

可以使用pandas的concat函数将两个数据集按行合并。

merged_df = pd.concat([df1, df2], ignore_index=True)
print(merged_df)

运行结果如下：

         Date  Value1  Value2
0  2021-01-01    10.0     NaN
1  2021-01-02    20.0     NaN
2  2021-01-03    30.0     NaN
3  2021-01-03     NaN    40.0
4  2021-01-04     NaN    50.0
5  2021-01-05     NaN    60.0

concat函数默认是按照列名进行合并，ignore_index=True参数表示忽略原有的索引，重新生成索引。

方法二：使用merge函数合并数据

如果两个数据集有相同的列名，可以使用merge函数按照指定的列进行合并。

merged_df = pd.merge(df1, df2, on='Date', how='outer')
print(merged_df)

运行结果如下：

         Date  Value1  Value2
0  2021-01-01    10.0     NaN
1  2021-01-02    20.0     NaN
2  2021-01-03    30.0    40.0
3  2021-01-04     NaN    50.0
4  2021-01-05     NaN    60.0

merge函数中的on='Date'参数表示按照Date列进行合并，how='outer'参数表示取两个数据集的并集。