Python Pandas Dataframe.sample()

Python是一种进行数据分析的伟大语言，主要是因为以数据为中心的Python包的奇妙生态系统。Pandas就是这些包中的一个，它使导入和分析数据变得更加容易。

Pandas sample()用于从函数调用者的数据框架中生成一个随机的行或列样本。

语法:

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

参数:

n：int值，要生成的随机行数。
frac：Float value, 返回值 (float value * length of data frame values ). frac不能与n一起使用。
replace：布尔值，如果为真，返回带替换的样本。
random_state：int值或numpy.random.RandomState，可选。如果设置为一个特定的整数，将在每次迭代中返回与样本相同的行。
axis：0或’行’代表行，1或’列’代表列。

返回类型: 与调用者相同类型的新对象。

例子#1：从数据框中随机抽取一行

在这个例子中，两个随机行是由.sample()方法生成的，稍后进行比较。

# importing pandas package
import pandas as pd
  
# making data frame from csv file 
data = pd.read_csv("employees.csv")
  
# generating one row 
row1 = data.sample(n = 1)
  
# display
row1
  
# generating another row
row2 = data.sample(n = 1)
  
# display
row2

输出:
如输出图像所示，生成的两个随机样本行是彼此不同的。
Python Pandas Dataframe.sample()

例子#2：生成25%的数据框架样本
在这个例子中，25%的随机样本数据从数据框架中产生。

# importing pandas package
import pandas as pd
  
# making data frame from csv file 
data = pd.read_csv("employees.csv")
  
# generating one row 
rows = data.sample(frac =.25)
  
# checking if sample is 0.25 times data or not
  
if (0.25*(len(data))== len(rows)):
    print( "Cool")
    print(len(data), len(rows))
  
# display
rows

输出:
如输出图像所示，生成的样本长度是数据框架的25%。同时，样本是随机生成的。

Python Pandas Dataframe.sample()