Python Pandas Dataframe.sample()
Python是一种进行数据分析的伟大语言,主要是因为以数据为中心的Python包的奇妙生态系统。Pandas就是这些包中的一个,它使导入和分析数据变得更加容易。
Pandas sample()用于从函数调用者的数据框架中生成一个随机的行或列样本。
语法:
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
参数:
n:int值,要生成的随机行数。
frac:Float value, 返回值 (float value * length of data frame values ). frac不能与n一起使用。
replace:布尔值,如果为真,返回带替换的样本。
random_state:int值或numpy.random.RandomState,可选。如果设置为一个特定的整数,将在每次迭代中返回与样本相同的行。
axis:0或’行’代表行,1或’列’代表列。
返回类型: 与调用者相同类型的新对象。
例子#1:从数据框中随机抽取一行
在这个例子中,两个随机行是由.sample()方法生成的,稍后进行比较。
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("employees.csv")
# generating one row
row1 = data.sample(n = 1)
# display
row1
# generating another row
row2 = data.sample(n = 1)
# display
row2
输出:
如输出图像所示,生成的两个随机样本行是彼此不同的。
例子#2:生成25%的数据框架样本
在这个例子中,25%的随机样本数据从数据框架中产生。
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("employees.csv")
# generating one row
rows = data.sample(frac =.25)
# checking if sample is 0.25 times data or not
if (0.25*(len(data))== len(rows)):
print( "Cool")
print(len(data), len(rows))
# display
rows
输出:
如输出图像所示,生成的样本长度是数据框架的25%。同时,样本是随机生成的。