Pandas中的聚类抽样

Pandas中的聚类抽样

抽样调查是一种方法,我们从一个大的人口中收集或选择一小部分数据,而不去寻找集合中每个个体的意义。我们从人口中进行数据抽样,因为我们无法从整个人口中收集数据。如果我们完成了抽样,那么我们就能将人口带入可管理的形式,并帮助减少由于人口数量庞大而产生的误差。

我们可以用多种方法进行抽样,这里我们只讨论聚类抽样:

集群抽样

集群抽样是一种概率抽样,在这种抽样中,人口中的每一个元素都被平等地选择,我们使用人口的子集作为抽样部分,而不是单个元素进行抽样。

人口被划分为子集或子群,这些子集或子群被认为是聚类,从聚类的数量中,我们选择个别聚类进行下一步。

现在看看对人口进行聚类抽样的步骤:

第1步:定义和确定目标人群。

这是我们进行抽样调查的第一步,我们必须从人口中明确选择目标区域。

为了便于理解,让我们以整数为例,整数是可以不以分数形式书写的数字,如所有的负数和正数(-1,-4,-8,3,5,2,0……等),所以我们把所有的整数作为我们的数据,从这些数据中我们必须选择目标区域进行采样。从这些整数数据中,我们可以选择所有正数或所有负数作为目标。

这里我们假设我们的目标区域是所有的正数,意味着我们从整数数据中抽取所有的正数作为我们的样本。

Pandas中的聚类抽样

步骤2:抽样方法。

这里我们使用概率分组抽样,因为人口中的每一个元素都有同等的机会被选中。

步骤3:将样本分成若干组。

在我们选择了抽样方法之后,我们将样本分为若干个群组,这是执行群组抽样的一个重要部分,我们必须创建一个高质量的群组,因为它们在抽样后会产生更好的准确性。我们提醒,我们正在产生的群组具有更好的影响,这意味着它们很好地代表了我们的人口。聚类必须是平等和类似的分布,因为它们之间没有重复。理想情况下,每个聚类应该是整个人口的一个小型代表。

Pandas中的聚类抽样

第4步:收集数据。

在执行上述步骤后的最后一步,我们从样本中收集我们想要的数据。

我们以聚类抽样为例,取1到n个自然数组成聚类,并从该聚类中随机选择单个聚类进行抽样。

Pandas中的聚类抽样

N=16,所以我们从1到16中抽取样本,并有一个由4个数字组成的单独集群,然后从集群中随机选择一个集群作为样本。

示例 1:

# import pandas
import pandas as pd
  
# import numpy
import numpy as np
  
# creating dictionary of data
data = {'N_numbers':np.arange(1,16)}
  
# creating dataframe
df = pd.DataFrame(data)
  
# sample of data
samples = df.sample(4)
print(samples)

输出:

Pandas中的聚类抽样

4个数字的随机样本构成了1-16个数字的群组。

在这个输出中,我们看到N-numbers列中有随机数,顺便说一下,这是我们的随机群组,包含4个样本。在Sample()的帮助下,可以设置单个聚类的样本数。

示例 2:

# code
# importing modules
import pandas as pd
import numpy as np
  
#creating dictionary of data
dic_data = {'employee_id':np.arange(1,21),
                  'value':np.random.randn(20)}
  
# creating DataFrame from dictonary
df = pd.DataFrame(dic_data)
print(df)

输出:

Pandas中的聚类抽样

在这里,我们创建了DataFrame df,其中包含20个雇员ID,每个ID都有随机值。从数据集df中,我们抽取一个随机群组,其中包含特定的4个随机样本。

代码:

# code
# import pandas 
import pandas as pd
  
# import numpy 
import numpy as np
  
# creating samples
samples = df.sample(4).sort_values(by='employee_id')
  
# show samples
print(samples)

输出:

Pandas中的聚类抽样

这些是随机抽取的雇员

正如你在我们的输出中所看到的,我们收集了4个随机雇员的数据,其中包括他们的雇员ID和价值。首先,我们创建一个样本变量,然后将4个随机雇员的样本分配给它,作为我们的数据。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程