在Python中使用Pandas替换缺失值
数据集是一个属性和行的集合。数据集可以有缺失的数据,在Python中用NA表示,在这篇文章中,我们将替换缺失的值。
我们考虑这个数据集。数据集
data set
在我们的数据中,数量、价格、买入、上午和下午这几栏都含有缺失值。
因此,我们可以用平均值替换数量栏的缺失值,用中位数替换价格栏,用标准差替换买入栏。前列用该列中的最小值。下午一栏用该栏中的最大值。
步骤:
- 导入该模块
- 加载数据集
- 填上缺失的数值
- 核实数据集
语法:
Mean: data=data.fillna(data.mean())
Median: data=data.fillna(data.median())
Standard Deviation: data=data.fillna(data.std())
Min: data=data.fillna(data.min())
Max: data=data.fillna(data.max())
以下是实现情况。
# importing pandas module
import pandas as pd
# loading data set
data = pd.read_csv('item.csv')
# display the data
print(data)
输出:
然后,我们将继续用平均数、中位数、模式、标准差、最小和最大值来替换缺失值。
# replacing missing values in quantity
# column with mean of that column
data['quantity'] = data['quantity'].fillna(data['quantity'].mean())
# replacing missing values in price column
# with median of that column
data['price'] = data['price'].fillna(data['price'].median())
# replacing missing values in bought column with
# standard deviation of that column
data['bought'] = data['bought'].fillna(data['bought'].std())
# replacing missing values in forenoon column with
# minimum number of that column
data['forenoon'] = data['forenoon'].fillna(data['forenoon'].min())
# replacing missing values in afternoon column with
# maximum number of that column
data['afternoon'] = data['afternoon'].fillna(data['afternoon'].max())
print(Data)
输出:
极客教程