Pandas 样本数据集
在本文中,我们将介绍Pandas中内置的一些样本数据集,这些数据集可以用于初学者学习Pandas时进行数据操作的练习,也可以用于对Pandas进行高级数据分析和可视化的开发。
Pandas中提供了多个样本数据集,其中最常见的是iris数据集、titanic数据集和tips数据集。以下分别介绍这些数据集。
阅读更多:Pandas 教程
iris数据集
iris数据集是常用的分类数据集,用于“品种识别”问题,它包括150个样本,分别来自于3种不同的鸢尾花,每个样本包括4个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。Pandas中的iris数据集可以通过以下代码导入:
读取后的数据集包含5列,分别是4个特征和花的品种,如下所示:
萼片长度 | 萼片宽度 | 花瓣长度 | 花瓣宽度 | 品种 |
---|---|---|---|---|
5.1 | 3.5 | 1.4 | 0.2 | Iris-setosa |
4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
… | … | … | … | … |
需要注意的是,由于iris数据集是一个经典数据集,所以在Pandas中已经内置了该数据集。只需要使用以下代码就可以加载该数据集:
titanic数据集
titanic数据集来源于Kaggle竞赛,包含了泰坦尼克号上的2224名乘客和船员中891人的生存情况数据,其中包括性别、船票等级、年龄、兄弟姐妹、配偶与父母、子女的数量等信息。该数据集可以用于二分类问题的练习。Pandas中的titanic数据集可以通过以下代码导入:
读取后的数据集包含以下列:
列名 | 描述 |
---|---|
PassengerId | 乘客的唯一标识 |
Survived | 乘客是否幸存 |
Pclass | 船票等级 |
Name | 乘客姓名 |
Sex | 乘客性别 |
Age | 乘客年龄 |
SibSp | 乘客兄弟姐妹或配偶的数量 |
Parch | 乘客父母或子女的数量 |
Ticket | 船票号码 |
Fare | 船票价格 |
Cabin | 船舱号码 |
Embarked | 乘客登船的港口 |
Boat | 获救时登上的救生艇编码。 |
Body | 身份证号 |
Home.dest | 乘客的家庭住址 |
tips数据集
tips数据集是Seaborn中自带的一个示例数据集,包含了有关人们在餐厅消费时所付小费的数据、就餐人数和性别信息。该数据集可以用于分析小费金额与各个特征之间的关系,比如性别、就餐人数、就餐时间、是否抽烟等等。Pandas中的tips数据集可以通过以下代码导入:
读取后的数据集包含以下列:
列名 | 描述 |
---|---|
total_bill | 总账单金额(美元) |
tip | 小费金额(美元) |
sex | 服务员性别 |
smoker | 是否吸烟 |
day | 周几 |
time | 午餐、晚餐 |
size | 就餐人数 |
总结
通过本文的介绍,我们了解了Pandas中预置的三个常见样本数据集:iris数据集、titanic数据集和tips数据集。这些数据集包括不同类型的数据,可以用于初学者快速练习Pandas的数据操作技巧,也可以用于深入的数据分析和可视化开发。在实际应用中,我们可以根据需要读取这些数据集,在数据分析和可视化的过程中提高工作效率。