Pandas 样本数据集

在本文中，我们将介绍Pandas中内置的一些样本数据集，这些数据集可以用于初学者学习Pandas时进行数据操作的练习，也可以用于对Pandas进行高级数据分析和可视化的开发。

Pandas中提供了多个样本数据集，其中最常见的是iris数据集、titanic数据集和tips数据集。以下分别介绍这些数据集。

iris数据集

iris数据集是常用的分类数据集，用于“品种识别”问题，它包括150个样本，分别来自于3种不同的鸢尾花，每个样本包括4个特征：萼片长度、萼片宽度、花瓣长度和花瓣宽度。Pandas中的iris数据集可以通过以下代码导入：

import pandas as pd

iris = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)

读取后的数据集包含5列，分别是4个特征和花的品种，如下所示：

萼片长度	萼片宽度	花瓣长度	花瓣宽度	品种
5.1	3.5	1.4	0.2	Iris-setosa
4.9	3.0	1.4	0.2	Iris-setosa
…	…	…	…	…

需要注意的是，由于iris数据集是一个经典数据集，所以在Pandas中已经内置了该数据集。只需要使用以下代码就可以加载该数据集：

import pandas as pd

iris = pd.read_csv('https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/iris.csv')

titanic数据集

titanic数据集来源于Kaggle竞赛，包含了泰坦尼克号上的2224名乘客和船员中891人的生存情况数据，其中包括性别、船票等级、年龄、兄弟姐妹、配偶与父母、子女的数量等信息。该数据集可以用于二分类问题的练习。Pandas中的titanic数据集可以通过以下代码导入：

import pandas as pd

titanic = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

读取后的数据集包含以下列：

列名	描述
PassengerId	乘客的唯一标识
Survived	乘客是否幸存
Pclass	船票等级
Name	乘客姓名
Sex	乘客性别
Age	乘客年龄
SibSp	乘客兄弟姐妹或配偶的数量
Parch	乘客父母或子女的数量
Ticket	船票号码
Fare	船票价格
Cabin	船舱号码
Embarked	乘客登船的港口
Boat	获救时登上的救生艇编码。
Body	身份证号
Home.dest	乘客的家庭住址

tips数据集

tips数据集是Seaborn中自带的一个示例数据集，包含了有关人们在餐厅消费时所付小费的数据、就餐人数和性别信息。该数据集可以用于分析小费金额与各个特征之间的关系，比如性别、就餐人数、就餐时间、是否抽烟等等。Pandas中的tips数据集可以通过以下代码导入：

import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

读取后的数据集包含以下列：

列名	描述
total_bill	总账单金额（美元）
tip	小费金额（美元）
sex	服务员性别
smoker	是否吸烟
day	周几
time	午餐、晚餐
size	就餐人数

总结

通过本文的介绍，我们了解了Pandas中预置的三个常见样本数据集：iris数据集、titanic数据集和tips数据集。这些数据集包括不同类型的数据，可以用于初学者快速练习Pandas的数据操作技巧，也可以用于深入的数据分析和可视化开发。在实际应用中，我们可以根据需要读取这些数据集，在数据分析和可视化的过程中提高工作效率。