Python Pandas Dataframe.sample()

Python Pandas Dataframe.sample()

Python是一种进行数据分析的伟大语言,主要是因为以数据为中心的Python包的奇妙生态系统。Pandas就是这些包中的一个,它使导入和分析数据变得更加容易。

Pandas sample()用于从函数调用者的数据框架中生成一个随机的行或列样本。

语法:

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

参数:

n:int值,要生成的随机行数。
frac:Float value, 返回值 (float value * length of data frame values ). frac不能与n一起使用。
replace:布尔值,如果为真,返回带替换的样本。
random_state:int值或numpy.random.RandomState,可选。如果设置为一个特定的整数,将在每次迭代中返回与样本相同的行。
axis:0或’行’代表行,1或’列’代表列。

返回类型: 与调用者相同类型的新对象。

例子#1:从数据框中随机抽取一行

在这个例子中,两个随机行是由.sample()方法生成的,稍后进行比较。

# importing pandas package
import pandas as pd
  
# making data frame from csv file 
data = pd.read_csv("employees.csv")
  
# generating one row 
row1 = data.sample(n = 1)
  
# display
row1
  
# generating another row
row2 = data.sample(n = 1)
  
# display
row2

输出:
如输出图像所示,生成的两个随机样本行是彼此不同的。
Python Pandas Dataframe.sample()

例子#2:生成25%的数据框架样本
在这个例子中,25%的随机样本数据从数据框架中产生。

# importing pandas package
import pandas as pd
  
# making data frame from csv file 
data = pd.read_csv("employees.csv")
  
# generating one row 
rows = data.sample(frac =.25)
  
# checking if sample is 0.25 times data or not
  
if (0.25*(len(data))== len(rows)):
    print( "Cool")
    print(len(data), len(rows))
  
# display
rows

输出:
如输出图像所示,生成的样本长度是数据框架的25%。同时,样本是随机生成的。

Python Pandas Dataframe.sample()

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程