Pandas 样本数据集

Pandas 样本数据集

在本文中,我们将介绍Pandas中内置的一些样本数据集,这些数据集可以用于初学者学习Pandas时进行数据操作的练习,也可以用于对Pandas进行高级数据分析和可视化的开发。

Pandas中提供了多个样本数据集,其中最常见的是iris数据集、titanic数据集和tips数据集。以下分别介绍这些数据集。

阅读更多:Pandas 教程

iris数据集

iris数据集是常用的分类数据集,用于“品种识别”问题,它包括150个样本,分别来自于3种不同的鸢尾花,每个样本包括4个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。Pandas中的iris数据集可以通过以下代码导入:

import pandas as pd

iris = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
Python

读取后的数据集包含5列,分别是4个特征和花的品种,如下所示:

萼片长度 萼片宽度 花瓣长度 花瓣宽度 品种
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa

需要注意的是,由于iris数据集是一个经典数据集,所以在Pandas中已经内置了该数据集。只需要使用以下代码就可以加载该数据集:

import pandas as pd

iris = pd.read_csv('https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/iris.csv')
Python

titanic数据集

titanic数据集来源于Kaggle竞赛,包含了泰坦尼克号上的2224名乘客和船员中891人的生存情况数据,其中包括性别、船票等级、年龄、兄弟姐妹、配偶与父母、子女的数量等信息。该数据集可以用于二分类问题的练习。Pandas中的titanic数据集可以通过以下代码导入:

import pandas as pd

titanic = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
Python

读取后的数据集包含以下列:

列名 描述
PassengerId 乘客的唯一标识
Survived 乘客是否幸存
Pclass 船票等级
Name 乘客姓名
Sex 乘客性别
Age 乘客年龄
SibSp 乘客兄弟姐妹或配偶的数量
Parch 乘客父母或子女的数量
Ticket 船票号码
Fare 船票价格
Cabin 船舱号码
Embarked 乘客登船的港口
Boat 获救时登上的救生艇编码。
Body 身份证号
Home.dest 乘客的家庭住址

tips数据集

tips数据集是Seaborn中自带的一个示例数据集,包含了有关人们在餐厅消费时所付小费的数据、就餐人数和性别信息。该数据集可以用于分析小费金额与各个特征之间的关系,比如性别、就餐人数、就餐时间、是否抽烟等等。Pandas中的tips数据集可以通过以下代码导入:

import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')
Python

读取后的数据集包含以下列:

列名 描述
total_bill 总账单金额(美元)
tip 小费金额(美元)
sex 服务员性别
smoker 是否吸烟
day 周几
time 午餐、晚餐
size 就餐人数

总结

通过本文的介绍,我们了解了Pandas中预置的三个常见样本数据集:iris数据集、titanic数据集和tips数据集。这些数据集包括不同类型的数据,可以用于初学者快速练习Pandas的数据操作技巧,也可以用于深入的数据分析和可视化开发。在实际应用中,我们可以根据需要读取这些数据集,在数据分析和可视化的过程中提高工作效率。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册