Pandas 样本数据集
在本文中,我们将介绍Pandas中内置的一些样本数据集,这些数据集可以用于初学者学习Pandas时进行数据操作的练习,也可以用于对Pandas进行高级数据分析和可视化的开发。
Pandas中提供了多个样本数据集,其中最常见的是iris数据集、titanic数据集和tips数据集。以下分别介绍这些数据集。
阅读更多:Pandas 教程
iris数据集
iris数据集是常用的分类数据集,用于“品种识别”问题,它包括150个样本,分别来自于3种不同的鸢尾花,每个样本包括4个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。Pandas中的iris数据集可以通过以下代码导入:
import pandas as pd
iris = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
读取后的数据集包含5列,分别是4个特征和花的品种,如下所示:
| 萼片长度 | 萼片宽度 | 花瓣长度 | 花瓣宽度 | 品种 |
|---|---|---|---|---|
| 5.1 | 3.5 | 1.4 | 0.2 | Iris-setosa |
| 4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
| … | … | … | … | … |
需要注意的是,由于iris数据集是一个经典数据集,所以在Pandas中已经内置了该数据集。只需要使用以下代码就可以加载该数据集:
import pandas as pd
iris = pd.read_csv('https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/iris.csv')
titanic数据集
titanic数据集来源于Kaggle竞赛,包含了泰坦尼克号上的2224名乘客和船员中891人的生存情况数据,其中包括性别、船票等级、年龄、兄弟姐妹、配偶与父母、子女的数量等信息。该数据集可以用于二分类问题的练习。Pandas中的titanic数据集可以通过以下代码导入:
import pandas as pd
titanic = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
读取后的数据集包含以下列:
| 列名 | 描述 |
|---|---|
| PassengerId | 乘客的唯一标识 |
| Survived | 乘客是否幸存 |
| Pclass | 船票等级 |
| Name | 乘客姓名 |
| Sex | 乘客性别 |
| Age | 乘客年龄 |
| SibSp | 乘客兄弟姐妹或配偶的数量 |
| Parch | 乘客父母或子女的数量 |
| Ticket | 船票号码 |
| Fare | 船票价格 |
| Cabin | 船舱号码 |
| Embarked | 乘客登船的港口 |
| Boat | 获救时登上的救生艇编码。 |
| Body | 身份证号 |
| Home.dest | 乘客的家庭住址 |
tips数据集
tips数据集是Seaborn中自带的一个示例数据集,包含了有关人们在餐厅消费时所付小费的数据、就餐人数和性别信息。该数据集可以用于分析小费金额与各个特征之间的关系,比如性别、就餐人数、就餐时间、是否抽烟等等。Pandas中的tips数据集可以通过以下代码导入:
import pandas as pd
import seaborn as sns
tips = sns.load_dataset('tips')
读取后的数据集包含以下列:
| 列名 | 描述 |
|---|---|
| total_bill | 总账单金额(美元) |
| tip | 小费金额(美元) |
| sex | 服务员性别 |
| smoker | 是否吸烟 |
| day | 周几 |
| time | 午餐、晚餐 |
| size | 就餐人数 |
总结
通过本文的介绍,我们了解了Pandas中预置的三个常见样本数据集:iris数据集、titanic数据集和tips数据集。这些数据集包括不同类型的数据,可以用于初学者快速练习Pandas的数据操作技巧,也可以用于深入的数据分析和可视化开发。在实际应用中,我们可以根据需要读取这些数据集,在数据分析和可视化的过程中提高工作效率。
极客教程