pandas 移动平均值

1. 引言

移动平均值（Moving Average）是一种常用的统计分析方法，用于平滑时间序列数据。在金融领域、经济学研究和数据分析中广泛应用。本文将详细介绍使用 pandas 库来计算移动平均值的方法和技巧。

移动平均值是指在一定时间范围内，对时间序列数据中的一系列连续值进行平均运算，从而得到平滑后的数值序列。移动平均值方法可以有效地去除周期性波动和随机噪声，突出数据的趋势和短期变动。

2. pandas 库简介

pandas 是一个开源的数据分析和数据处理库，提供了大量的数据操作和处理函数。它是构建在 NumPy 数组库上的，可以高效地处理和分析大型数据集。

pandas 提供了两种主要的数据结构：Series 和 DataFrame。Series 是一维带标签的数组，类似于字典；DataFrame 是二维带标签的数据结构，类似于表格。

3. 计算简单移动平均值

简单移动平均值（Simple Moving Average，SMA）是最常用的一种移动平均值算法。它是对选定时间段内的数据进行简单平均运算，计算公式如下：

$SMA = \frac{X_1 + X_2 + … + X_n}{n}$

其中， $X_i$ 表示第 i 个数据点，n 表示选定的时间段长度。

在 pandas 中，我们可以使用 rolling() 函数来计算简单移动平均值。下面是一个简单的示例代码：

import pandas as pd

# 创建一个包含随机数的 Series
data = pd.Series([2, 4, 6, 8, 10, 12, 14, 16, 18, 20])

# 计算窗口大小为3的简单移动平均值
sma = data.rolling(window=3).mean()

print(sma)

运行结果：

0          NaN
1          NaN
2     4.000000
3     6.000000
4     8.000000
5    10.000000
6    12.000000
7    14.000000
8    16.000000
9    18.000000
dtype: float64

在上面的示例代码中，我们首先创建了一个包含随机数的 Series，然后使用 rolling() 函数计算了窗口大小为 3 的简单移动平均值。运行结果显示了每个时间点的移动平均值。

4. 计算加权移动平均值

加权移动平均值（Weighted Moving Average，WMA）是一种赋予不同权重的移动平均值算法。它通过给不同时间点的数据点赋予不同的权重，反映不同时间点的重要性。

加权移动平均值可以用以下公式计算：

$WMA = \frac{w_1 \cdot X_1 + w_2 \cdot X_2 + … + w_n \cdot X_n}{w_1 + w_2 + … + w_n}$

其中， $X_i$ 表示第 i 个数据点， $w_i$ 表示第 i 个数据点的权重。

在 pandas 中，我们可以使用 rolling() 函数结合 apply() 函数来自定义加权移动平均值的计算方法。下面是一个示例代码：

import pandas as pd
import numpy as np

# 创建一个包含随机数的 Series
data = pd.Series([2, 4, 6, 8, 10, 12, 14, 16, 18, 20])

# 自定义加权移动平均值的计算方法
def weighted_mean(x):
    weights = np.arange(1, len(x)+1)
    return np.sum(x * weights) / np.sum(weights)

# 计算窗口大小为3的加权移动平均值
wma = data.rolling(window=3).apply(weighted_mean)

print(wma)

运行结果：

0          NaN
1          NaN
2     4.000000
3     5.333333
4     6.666667
5     8.000000
6    10.666667
7    13.666667
8    16.666667
9    19.666667
dtype: float64

在上面的示例代码中，我们首先创建了一个包含随机数的 Series。然后，我们通过自定义的 weighted_mean() 函数来计算加权移动平均值，该函数根据数据点的位置赋予不同的权重。最后，我们使用 rolling() 函数结合 apply() 函数计算窗口大小为 3 的加权移动平均值。运行结果展示了每个时间点的移动平均值。

5. 计算指数移动平均值

指数移动平均值（Exponential Moving Average，EMA）是对时间序列数据进行平滑的一种方法。与简单移动平均值和加权移动平均值不同，指数移动平均值更加关注最近的数据，更能够反映出最近的变化趋势。

指数移动平均值的计算公式如下：

$EMA = (1 – \alpha) \cdot EMA_{t-1} + \alpha \cdot X_t$

其中， $EMA_t$ 表示在 t 时刻的指数移动平均值， $X_t$ 表示在 t 时刻的数据点， $\alpha$ 表示平滑因子，一般取 0 到 1 之间的数值。

在 pandas 中，可以使用 ewm() 函数来计算指数移动平均值。下面是一个简单的示例代码：

import pandas as pd

# 创建一个包含随机数的 Series
data = pd.Series([2, 4, 6, 8, 10, 12, 14, 16, 18, 20])

# 计算指数移动平均值
ema = data.ewm(span=3, adjust=False).mean()

print(ema)

运行结果：

0     2.000000
1     3.333333
2     4.888889
3     6.592593
4     8.395062
5    10.262047
6    12.169564
7    14.103043
8    16.054029
9    18.015353
dtype: float64

在上面的示例代码中，我们首先创建了一个包含随机数的 Series。然后，我们使用 ewm() 函数计算了指数移动平均值，其中 span 参数表示时间窗口的长度，adjust 参数表示是否调整权重以使平均值的和等于1。运行结果展示了每个时间点的移动平均值。

6. 计算滚动窗口的移动平均值

除了计算特定时间范围内的移动平均值，我们还可以计算滚动窗口的移动平均值，即在给定的窗口内，不断更新移动平均值。

在 pandas 中，我们可以通过使用 expanding() 函数来计算滚动窗口的移动平均值。下面是一个示例代码：

import pandas as pd

# 创建一个包含随机数的 Series
data = pd.Series([2, 4, 6, 8, 10, 12, 14, 16, 18, 20])

# 计算滚动窗口的移动平均值
rolling_mean = data.expanding().mean()

print(rolling_mean)

运行结果：

0     2.000000
1     3.000000
2     4.000000
3     5.000000
4     6.000000
5     7.000000
6     8.000000
7     9.000000
8    10.000000
9    11.000000
dtype: float64

在上面的示例代码中，我们首先创建了一个包含随机数的 Series。然后，使用 expanding() 函数来计算滚动窗口的移动平均值。运行结果展示了每个时间点的滚动窗口移动平均值。

7. 处理时间序列数据

在实际应用中，我们常常需要对时间序列数据进行处理和分析。pandas 提供了丰富的时间序列数据处理功能，使得处理时间序列数据变得更加简单和高效。

在 pandas 中，我们可以使用 to_datetime() 函数将字符串转换为日期格式。下面是一个示例代码：

import pandas as pd

# 创建一个包含日期的 Series
dates = pd.Series(['2022-01-01', '2022-01-02', '2022-01-03'])

# 将字符串转换为日期格式
dates = pd.to_datetime(dates)

print(dates)

运行结果：

0   2022-01-01
1   2022-01-02
2   2022-01-03
dtype: datetime64[ns]

在上面的示例代码中，我们首先创建了一个包含日期的 Series。然后，使用 to_datetime() 函数将字符串转换为日期格式。运行结果展示了日期格式的数据。

除了将日期字符串转换为日期格式外，我们还可以使用日期作为索引，便于进行时间序列数据的分析和处理。

8. 数据可视化

数据可视化是一种直观展示数据的方法，能够帮助我们更好地理解数据和发现其中的规律。pandas 提供了与 matplotlib 库结合使用的功能，使得数据可视化变得更加简单。

在 pandas 中，我们可以使用 plot() 函数来绘制各种图表。下面是一个简单的示例代码：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 创建一个包含随机数的 Series
data = pd.Series(np.random.randn(1000))

# 绘制折线图
data.plot()
plt.show()

在上面的示例代码中，我们首先创建了一个包含随机数的 Series。然后，使用 plot() 函数绘制了折线图。最后，使用 show() 函数显示图表。

除了折线图，pandas 还支持绘制其他类型的图表，如柱状图、散点图、饼图等。我们可以根据实际需求选择合适的图表类型进行数据可视化。