Seaborn 导入数据集和库
在这个章节中,我们将讨论如何导入数据集和库。让我们从了解如何导入库开始。
导入库
让我们从导入Pandas开始,它是一个用于管理关系型(表格式)数据集的强大库。当处理DataFrame时,Seaborn非常方便,DataFrame是用于数据分析最广泛使用的数据结构。
以下命令将帮助您导入Pandas:
# Pandas for managing datasets
import pandas as pd
现在,让我们导入Matplotlib库,它可以帮助我们定制我们的绘图。
# Matplotlib for additional customization
from matplotlib import pyplot as plt
我们将使用以下命令导入Seaborn库:
# Seaborn for plotting and styling
import seaborn as sb
导入数据集
我们已经导入了所需的库。在这个部分,我们将理解如何导入所需的数据集。
Seaborn库中提供了一些重要的数据集。当安装Seaborn时,数据集会自动下载。
您可以使用任何这些数据集进行学习。通过以下函数,您可以加载所需的数据集
load_dataset()
导入数据为Pandas DataFrame
在这一部分,我们将导入一个数据集。该数据集默认以Pandas DataFrame的形式加载。如果Pandas DataFrame中有任何函数,它将在该DataFrame上运行。
以下代码行将帮助你导入数据集 –
# Seaborn for plotting and styling
import seaborn as sb
df = sb.load_dataset('tips')
print df.head()
以上一行代码将生成以下输出 −
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
要查看Seaborn库中所有可用的数据集,您可以使用以下命令与 get_dataset_names() 函数一起使用,如下所示−
import seaborn as sb
print sb.get_dataset_names()
上述代码将返回以下输出作为可用数据集的列表
[u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots',
u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips',
u'titanic']
DataFrames 以矩形网格形式存储数据,使得数据可以轻松地进行概览。矩形网格的每一行包含一个实例的值,而网格的每一列是一个向量,用于保存特定变量的数据。这意味着DataFrame的行不需要包含相同数据类型的值,可以是数值、字符、逻辑等。Python的DataFrames使用Pandas库提供,并且它们被定义为具有可能具有不同类型列的二维标签化数据结构。