Python分层抽样|极客教程

Python分层抽样

1. 什么是分层抽样

分层抽样是一种常见的抽样方法，它将总体分成若干个层（Stratum），从每个层中独立地进行随机抽样，然后将各层的样本合并成一个总体样本。分层抽样的目的是保证不同层次的样本在总体样本中的比例与总体中的比例一致，从而更好地代表总体。

在现实应用中，常用的示例是调查一个城市的人口结构。假设要调查某城市的人口情况，可以将城市按照不同的区域划分为若干个层，然后对不同层次中的居民进行随机抽样。根据每个层次的比例，可以从不同区域中抽取不同数量的样本，以获得代表性的总体样本。

2. Python实现分层抽样的方法

在Python中，可以使用多种方法实现分层抽样。下面介绍两种常用的方法：自定义函数和使用第三方库。

2.1 自定义函数实现分层抽样

自定义函数实现分层抽样的思路是先将总体数据按照不同层次进行分类，然后从每个层次中随机抽取指定数量的样本。下面是一个示例代码：

import random

def stratified_sampling(data, labels, ratio):
    # 分类
    categories = {}
    for i in range(len(data)):
        category = labels[i]
        if category not in categories:
            categories[category] = []
        categories[category].append(data[i])

    # 抽样
    sample = []
    for category, items in categories.items():
        n = int(len(items) * ratio)
        sample.extend(random.sample(items, n))

    return sample

其中，data是总体数据，labels是总体数据的标签，ratio是每个层次中样本所占比例。函数首先将总体数据按照标签进行分类，然后根据每个类别中样本的比例，随机抽取指定数量的样本，并将结果合并成一个总体样本。

以下是一个示例的运行结果：

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
labels = ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B']
ratio = 0.5

sample = stratified_sampling(data, labels, ratio)

print(sample)
# 输出：[1, 3, 5, 7, 9]

上述示例中，总体数据data被分为两个层次（类别）A和B，每个层次中的比例为0.5。函数根据每个层次的比例，抽取了相应数量的样本，将结果合并成了一个总体样本。最终输出的结果是一个长度为5的总体样本。

2.2 使用第三方库实现分层抽样

除了自定义函数外，也可以使用第三方库来实现分层抽样。其中，scikit-learn是一个流行的机器学习库，提供了强大的分层抽样功能。下面是一个示例代码：

from sklearn.model_selection import StratifiedShuffleSplit

def stratified_sampling(data, labels, ratio):
    sss = StratifiedShuffleSplit(n_splits=1, test_size=ratio, random_state=0)
    train_index, _ = sss.split(data, labels)
    sample = [data[i] for i in train_index[0]]
    return sample

以上代码中，StratifiedShuffleSplit是scikit-learn库中用于分层抽样的类。函数首先创建一个StratifiedShuffleSplit对象，并设置抽样的比例。然后使用该对象的split方法进行分层抽样，并获取到抽样结果在总体数据中的索引。最后根据索引将抽样的数据从总体数据中提取出来，返回结果。

以下是一个示例的运行结果：

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
labels = ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B']
ratio = 0.5

sample = stratified_sampling(data, labels, ratio)

print(sample)
# 输出：[2, 9, 6, 4, 1]

上述示例中，通过调用stratified_sampling函数进行分层抽样。总体数据data按照标签labels进行分类，抽样比例为0.5。函数利用scikit-learn库中的StratifiedShuffleSplit类进行了分层抽样，并将抽样结果返回。最终输出的结果是一个长度为5的总体样本。

3. 分层抽样的应用场景

分层抽样在实际应用中有广泛的用途。下面介绍几个常见的应用场景：

3.1 市场调研

在市场调研中，通常需要了解不同用户、不同产品或不同区域的情况。分层抽样可以将总体按照不同特征进行分类，从每个层次中抽取样本，以保证样本更好地代表总体。例如，可以根据年龄、性别、职业等特征进行分层抽样，从不同层次中抽取样本进行调研。

3.2 教育评估

在教育评估中，需要根据不同学校、不同年级或不同地区的情况进行评估分析。分层抽样可以保证样本中包含不同层次的样本，从而更好地代表总体。例如，可以将学校按照不同特征进行分类，从每个层次中抽取样本进行评估。

3.3 生物样本分析

在生物样本分析中，常常需要根据不同属性（如性别、年龄、体重等）对样本进行分类，以便更好地研究不同属性对样本特征的影响。分层抽样可以确保样本中包含不同属性的样本，从而更准确地研究样本特征。例如，可以将样本按照性别进行分类，从每个层次中抽取样本进行分析。

4. 结论

分层抽样是一种常用的抽样方法，它能够在保证样本代表性的同时，更好地反映总体的特征。在Python中，我们可以通过自定义函数或使用第三方库（如scikit-learn）来实现分层抽样。

自定义函数方法需要首先对总体数据进行分类，然后根据每个层次的比例进行随机抽样，最后将抽样结果合并成一个总体样本。这种方法简单直观，但在处理大规模数据时可能效率有限。

而使用第三方库scikit-learn的方法则更为灵活且高效。通过调用StratifiedShuffleSplit类，可以方便地实现分层抽样。该方法不仅适用于数值型数据，还适用于分类型数据。同时，scikit-learn库还提供了其他分层抽样的类和方法，如StratifiedKFold、StratifiedGroupKFold等，能够满足不同应用场景的需求。

分层抽样在市场调研、教育评估、生物样本分析等领域有广泛应用。根据不同特征对总体进行分层，能够更好地捕捉到总体的特征，从而提高数据分析的准确性和可靠性。

总之，分层抽样是一种重要的抽样方法，能够在处理总体数据时更好地代表总体特征，并提高数据分析的效果。在Python中，我们可以借助自定义函数或使用第三方库来实现分层抽样，根据具体情况选择合适的方法。同时，对于不同领域的应用，分层抽样都能发挥其优势，提高数据分析的质量和可靠性。