Seaborn 导入数据集和库

在这个章节中，我们将讨论如何导入数据集和库。让我们从了解如何导入库开始。

导入库

让我们从导入Pandas开始，它是一个用于管理关系型（表格式）数据集的强大库。当处理DataFrame时，Seaborn非常方便，DataFrame是用于数据分析最广泛使用的数据结构。

以下命令将帮助您导入Pandas：

# Pandas for managing datasets
import pandas as pd

现在，让我们导入Matplotlib库，它可以帮助我们定制我们的绘图。

# Matplotlib for additional customization
from matplotlib import pyplot as plt

我们将使用以下命令导入Seaborn库：

# Seaborn for plotting and styling
import seaborn as sb

导入数据集

我们已经导入了所需的库。在这个部分，我们将理解如何导入所需的数据集。

Seaborn库中提供了一些重要的数据集。当安装Seaborn时，数据集会自动下载。

您可以使用任何这些数据集进行学习。通过以下函数，您可以加载所需的数据集

load_dataset()

导入数据为Pandas DataFrame

在这一部分，我们将导入一个数据集。该数据集默认以Pandas DataFrame的形式加载。如果Pandas DataFrame中有任何函数，它将在该DataFrame上运行。

以下代码行将帮助你导入数据集 –

# Seaborn for plotting and styling
import seaborn as sb
df = sb.load_dataset('tips')
print df.head()

以上一行代码将生成以下输出 −

total_bill  tip   sex    smoker day  time   size
0    16.99    1.01   Female  No    Sun  Dinner  2
1    10.34    1.66   Male    No    Sun  Dinner  3
2    21.01    3.50   Male    No    Sun  Dinner  3
3    23.68    3.31   Male    No    Sun  Dinner  2
4    24.59    3.61   Female  No    Sun  Dinner  4

要查看Seaborn库中所有可用的数据集，您可以使用以下命令与 get_dataset_names() 函数一起使用，如下所示−

import seaborn as sb
print sb.get_dataset_names()

上述代码将返回以下输出作为可用数据集的列表

[u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots', 
u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips', 
u'titanic']

DataFrames 以矩形网格形式存储数据，使得数据可以轻松地进行概览。矩形网格的每一行包含一个实例的值，而网格的每一列是一个向量，用于保存特定变量的数据。这意味着DataFrame的行不需要包含相同数据类型的值，可以是数值、字符、逻辑等。Python的DataFrames使用Pandas库提供，并且它们被定义为具有可能具有不同类型列的二维标签化数据结构。