Python – Bamboolib for Pandas
如果你是一个数据科学爱好者或数据科学家,你知道Pandas是一个不可或缺的库,它允许你进行数据处理,在建立机器学习模型之前,你可以读取你的数据,预处理你的数据,处理丢失的数据等等。
Pandas确实使很多工作变得非常容易,而且非常强大,但是使用它和掌握它可能是一个很大的挑战。为了解决这个问题,使Pandas的使用更加方便,我们在python中有一个库,叫做Bamboolib库。
Bamboolib:它是pandas数据框架的GUI扩展,用于轻松的数据探索和转换,使任何人都能在Jupyter Notebook或JupyterLab中使用Python工作。
让我们来看看这个库的一些功能和如何使用它们。
注意: Bamboolib只在Kaggle和Binder的开放数据上免费提供。你也可以在你的电脑上使用付费版本。
安装Bamboolib库。
在开始之前,我们需要先安装这个库。请按照以下步骤正确安装该库。
#install bamboolib on linux or anaconda prompt
pip install bamboolib
- 如果你想在Kaggle或Binder上使用该库,你可以在这一步停止,否则继续——。
安装完成后,运行以下命令。
jupyter nbextension enable --py qgrid --sys-prefix
jupyter nbextension enable --py widgetsnbextension --sys-prefix
jupyter nbextension install --py bamboolib --sys-prefix
jupyter nbextension enable --py bamboolib --sys-prefix
如果你想在Jupyter笔记本上使用它,那么你可以在这里停止,但如果你也想在JupyterLab上使用它,你可以继续按照步骤完成安装。
确保你安装了node.js和npm。
#install nodejs on anaconda prompt
conda install -c conda-forge nodejs
#install npm on anaconda prompt
pip install npm
接下来运行这些命令。
jupyter labextension install @jupyter-widgets/jupyterlab-manager --no-build
jupyter labextension install @8080labs/qgrid --no-build
jupyter labextension install plotlywidget --no-build
jupyter labextension install jupyterlab-plotly --no-build
jupyter labextension install bamboolib --no-build
jupyter lab build --minimize=False
现在安装完成了。
如何使用Bamboolib。
为了了解如何使用这个库,我们将使用Binder。为此,请浏览github。你也可以按照上述步骤建立你自己的Binder笔记本,或者像我们在这里做的那样使用已经有的笔记本。
在你的笔记本打开后,运行下面的代码,将数据可视化。
现在你可以使用显示bamboolib UI按钮来执行各种功能。
你可以看到主要有3个选项。
1.探索数据框架
2.创建图谱
3.寻找转型
1) 探索DataFrame。
你有4种选择,即。
1.瞥见。在这里你可以得到数据集中各列的信息。你可以知道列的数据类型,唯一值的数量,在’n’行中的列的缺失值,这里n=891。
2.栏目。这提供了每一列的信息。某一列的概述,分类概述 – 某一特定值在该列中出现的次数。
这也提供了两列之间的双变量图,以获得关于数据集的更多信息。
3.预测器模式。你可以通过点击热图的任何单元格来预测数据集的模式,以获得各列之间的关系。
4.相关矩阵。你可以得到任何一列之间的相关矩阵。
2)创建情节。
你可以创建任何图表,如柱状图、直方图、散点图等,并可以添加不同的属性。pandas开发图的代码也是可用的,你也可以复制和粘贴以获得相同的输出。
3)寻找转型。
你可以对数据集进行各种转换。其中一些是。
删除列:由于在所使用的数据集中,我们可以看到Cabin有大量的缺失值,所以我们可以从数据集中删除/删除这一列。选择 “选择或删除列 “选项,填写字段并按执行。
你会自动得到pandas代码,并为你所执行的这个转换而执行。新的数据框架被显示为输出。
过滤器:使用这个选项,你可以创建数据子集,应用某些条件对其进行分析。这是最常用的技术,可以在数据中获得有意义的洞察力。
新的数据框架被显示为输出。
排序:你可以使用这个转换对你的数据集进行排序,排序也可以同时对多列进行。
注意:
- 要撤销或重做你在数据框架上执行的任何转换,你可以点击历史按钮。
- 要获得以前的转换代码,请进入导出。如果勾选了 “实时代码导出”,你会自动得到代码。
Bamboolib提供了许多其他转换选项,如分组和聚合,重命名列,替换值,改变列数据类型等。
使用Bamboolib的好处。
Bamboolib是一个非常方便和容易使用的工具。巨大的数据框架的转换可以在短时间内完成。它对组织来说是非常好的,因为没有什么编程知识的员工也可以使用这个工具,不需要挣扎或寻找语法来完成任务,并可以在事后得到操作或转换的语法。这对程序员也有帮助,因为他们可以玩弄数据,研究用户特定问题的语法,而不是寻找不同的情况并试图提取所需的结果。
现在你已经学会了这个惊人的动手能力的工具,给自己一个尝试,探索你的数据可以提供的隐藏信息。如有任何疑问,请在下面留下评论。