使用Pandas GUI进行数据探索
数据预处理是数据科学管道的一个重要部分,你需要找出数据中的各种不规则现象,你需要操作你的特征,等等。Pandas是一个我们经常使用的操作数据的工具,同时还有seaborn和matplotlib用于数据可视化。PandasGUI是一个库,它提供了一个GUI界面,可以使这项工作变得更加容易。
安装PandasGUI
你可以像其他Python库一样使用pip命令安装PandasGUI。同样的命令是:-
pip install pandasgui
在PandasGUI中打开一个CSV文件
要在PandasGUI中打开一个CSV文件,我们需要使用show()函数。让我们先把它和pandas一起导入。点击这里获得数据集。
from pandasgui import show
import pandas as pd
接下来我们要做的是使用read_csv()将我们的CSV加载为DataFrame,并将该数据框架作为参数传入show()。
df = pd.read_csv('data.csv')
show(df)
输出:
这就是我们的数据框架,我们可以滚动一下,了解数据的概况。你可以看到代表NaN值的空单元格。你可以通过点击一个单元格并编辑其数值来编辑数据。你可以通过简单地点击某一列来对数据框架进行排序。在下图中,我们可以通过点击Total_bill列对数据框进行排序。
PandasGUI中的过滤器
假设我们想查看MSSubClass的值大于或等于120的行。在pandas中,我们可以通过以下命令来实现:-
df[df['total_bill'] >= 40]
输出:
PandasGUI为我们提供了过滤器,在这里你可以写查询表达式来过滤数据。上面的查询表达式将是。
你可以在过滤器中写下这个查询表达式,然后点击添加过滤器来应用它。让我们看一下下图中的数据。正如你所看到的,过滤器被成功应用。
Pandas GUI中的统计数据
摘要统计给你一个数据分布的概述。在pandas中,我们使用describe()方法来获取数据的统计数据。
df.describe()
输出:
**在PandasGUI中,你可以进入统计部分,获得每一列的统计数据。
PandasGUI中的数据可视化
数据可视化并不是pandas通常使用的东西,我们使用matplotlib、seaborn、plotly等库。但是PandasGUI在Grapher部分提供了使用plotly绘制的交互式图表。
你可以绘制各种类型的图表,让我们通过拖动它并将其放在x下,创建一个总账的柱状图。
之后只要点击完成,你就可以看到你的图表了。
让我们做一个柱状图。
除了这些,你还可以创建一个boxplot,3D散点图,线图等。如果你想快速了解你的数据,PandasGUI是一个很好的工具,从检查汇总统计到绘制数据,你都可以轻松完成,不需要编码。