Pandas 随机行选择

在本文中，我们将介绍在Pandas中如何进行随机行选择。Pandas是一个数据处理库，其中包含了很多方便易用的函数和方法，其中包括对数据集进行采样的方法。

1. 从头开始随机采样

我们可以使用sample()方法对数据集进行随机采样。这个方法非常灵活，我们可以通过调整参数来改变采样的方式。首先来看一个简单的例子，从一个包含100行的数据集中随机选择5行。

import pandas as pd
import numpy as np

# 创建一个100x3的数据集
df = pd.DataFrame(np.random.randn(100,3), columns=['col1', 'col2', 'col3'])

# 随机选择5行
sample_df = df.sample(n=5)
print(sample_df)

上述代码中，n参数指定了要选择的行数，即5行。如果我们想要从数据集中选择一定比例的行，我们可以使用frac参数，例如下面代码中我们选择了25%的行：

sample_df = df.sample(frac=0.25)
print(sample_df)

需要注意的是，当我们使用frac参数时，n参数会失效。

2. 设置随机种子

为了能够再现实验结果，我们需要设置随机种子。这是一个数字，它可以将随机数列的生成固定下来，以便我们在以后的实验中获得相同的结果。在Pandas中，我们可以使用random_state参数设置随机种子。

# 使用设定好的随机种子
sample_df = df.sample(n=5, random_state=1)
print(sample_df)

上述代码中，我们设置了随机种子为1，所以多次运行结果都是相同的。如果你没有手动设置随机种子，那么每次的结果都会不同。

3. 权重随机采样

有时候，我们需要进行加权随机采样。比如说，我们有一个数据集，其中每个数据都有一个权重，我们希望按照权重选择采样数据。

# 创建一个有权重的数据集
df_weighted = pd.DataFrame({'age': [25, 35, 30, 35, 50, 45, 55, 20, 43, 38],
                            'weight': [50, 45, 70, 90, 50, 80, 95, 50, 70, 75]})

# 计算每个数据点的采样概率
df_weighted['weight'] = df_weighted.weight / df_weighted.weight.sum()
print(df_weighted)

# 进行加权随机采样
sample_weighted = df_weighted.sample(n=3, weights='weight')
print(sample_weighted)

上述代码中，我们首先计算了每个数据的采样概率，即权重除以总权重。然后，我们使用sample()方法进行加权随机采样。注意，我们需要将weights参数设置为'weight'，表示采用我们刚才计算出的采样概率。