使用Pandas GUI进行数据探索

使用Pandas GUI进行数据探索

数据预处理是数据科学管道的一个重要部分,你需要找出数据中的各种不规则现象,你需要操作你的特征,等等。Pandas是一个我们经常使用的操作数据的工具,同时还有seaborn和matplotlib用于数据可视化。PandasGUI是一个库,它提供了一个GUI界面,可以使这项工作变得更加容易。

安装PandasGUI

你可以像其他Python库一样使用pip命令安装PandasGUI。同样的命令是:-

pip install pandasgui

在PandasGUI中打开一个CSV文件

要在PandasGUI中打开一个CSV文件,我们需要使用show()函数。让我们先把它和pandas一起导入。点击这里获得数据集。

from pandasgui import show
import pandas as pd

接下来我们要做的是使用read_csv()将我们的CSV加载为DataFrame,并将该数据框架作为参数传入show()。

df = pd.read_csv('data.csv')
show(df)

输出:

使用Pandas GUI进行数据探索

这就是我们的数据框架,我们可以滚动一下,了解数据的概况。你可以看到代表NaN值的空单元格。你可以通过点击一个单元格并编辑其数值来编辑数据。你可以通过简单地点击某一列来对数据框架进行排序。在下图中,我们可以通过点击Total_bill列对数据框进行排序。

使用Pandas GUI进行数据探索

PandasGUI中的过滤器

假设我们想查看MSSubClass的值大于或等于120的行。在pandas中,我们可以通过以下命令来实现:-

df[df['total_bill'] >= 40]

输出:

使用Pandas GUI进行数据探索

PandasGUI为我们提供了过滤器,在这里你可以写查询表达式来过滤数据。上面的查询表达式将是。

使用Pandas GUI进行数据探索

你可以在过滤器中写下这个查询表达式,然后点击添加过滤器来应用它。让我们看一下下图中的数据。正如你所看到的,过滤器被成功应用。

使用Pandas GUI进行数据探索

Pandas GUI中的统计数据

摘要统计给你一个数据分布的概述。在pandas中,我们使用describe()方法来获取数据的统计数据。

df.describe()

输出:

使用Pandas GUI进行数据探索

**在PandasGUI中,你可以进入统计部分,获得每一列的统计数据。

使用Pandas GUI进行数据探索

PandasGUI中的数据可视化

数据可视化并不是pandas通常使用的东西,我们使用matplotlibseaborn、plotly等库。但是PandasGUI在Grapher部分提供了使用plotly绘制的交互式图表。

使用Pandas GUI进行数据探索

你可以绘制各种类型的图表,让我们通过拖动它并将其放在x下,创建一个总账的柱状图。

使用Pandas GUI进行数据探索

之后只要点击完成,你就可以看到你的图表了。

使用Pandas GUI进行数据探索

让我们做一个柱状图。

使用Pandas GUI进行数据探索

除了这些,你还可以创建一个boxplot,3D散点图,线图等。如果你想快速了解你的数据,PandasGUI是一个很好的工具,从检查汇总统计到绘制数据,你都可以轻松完成,不需要编码。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程