如何将Kaggle数据集直接导入到Google Colab中
我们将在本文中讨论将Kaggle数据集导入Google Colab的过程。
开始 使用。
在本节中,我们将通过两种不同的方式来开始使用Colab。第一种方法,我们将通过Kaggle API下载我们的数据集,然后我们就可以使用它了。另一种方法是手动从Kaggle网站下载我们的数据集,并将其用于生产或分析目的。首先登录你的谷歌账户后访问https://colab.research.google.com。
几乎所有有抱负的数据科学家都会使用Kaggle。每个领域的数据集都保存在那里。每一个可以想象的用例,包括医学领域、电子商务,甚至天体物理学,都有一个数据集可用。用户通过在不同的数据集上进行练习来展示他们的数据科学和机器学习专业知识。
Kaggle数据集有各种不同的大小。一些数据集的大小可能从不到1MB到100GB不等。此外,某些深度学习技术需要GPU支持,这增加了训练时间。一项有前途的技术,即谷歌Colab,可以帮助新人在云环境中测试他们的方案。
1.将Kaggle数据集之一下载到Jupyter笔记本 中
从Kaggle中选择我们的数据集应该是你的首要任务,也是最大的任务。此外,你还可以从竞赛中选择数据集。我为这篇文章选择了两个数据集:一个是随机的,一个是来自当前比赛的。
2.下载基本软件包后,安装这些软件包 。
pip install opendatasets
pip install pandas
3.下载API凭证
我们必须登录Kaggle服务以从Kaggle下载数据。为此我们需要一个API凭证。你可以从我们的Kaggle账户的个人资料页面快速生成这个令牌。只需到我们的Kaggle个人资料,并从那里。
我们会看到一个API部分,在下一页有一个 “创建新的API令牌 “按钮。当你点击它的时候,一个包含你的登录名和密钥的kaggle.json文件就会被下载。在下面的阶段,我们将使用一个用户名和密钥。
选择账户标签后,向下滚动到API部分。
登录名和API密钥将被下载到一个名为Kaggle.json的文件中。你只需要做一次这个步骤,你不需要在我们每次下载数据集时都创建证书。
4. 4. 复制你的Kaggle数据集的链接,并将其粘贴到开放数据集库中进行下载 。
5.启动Google Colab并链接到云主机(基本上启动笔记本界面)。之后,上传你刚从Kaggle获得的 “Kaggle. json “文件。
我们刚刚学会如何使用Google Colab从Kaggle导入数据集。很可能我们只想下载一个文件,因为我们只担心它的问题。然后,我们可以使用”-f “标志和文件名。这将只下载那个文件。contests和datasets命令都支持”-f “标志。
5.现在我们有了我们的数据集,我们可以使用它。
- 用于读取文件的Excel文件
- 用CSV文件读取文件
- 用一个文本文件,读取文件
import pandas as pds
# reading up the XLSX file
File_in = ('Acoustic_Extinguisher_Fire_Dataset/\
Acoustic_Extinguisher_Fire_Dataset.xlsx')
newData_in = pds.read_excel(File_in)
# Displaying up the contents of the XLSX file in it
newData_in.head()
输出
第二种方法是快速下载Kaggle数据集。
- 在Kaggle网站上打开数据集标签。
- 选择任何数据集并按下下载按钮。
- 解压下载的文件(如果是Zip格式)。
- 将你的数据集以文件或文件夹的形式上传到Google Colab Notebook。如图所示,在选择上传你的文件夹/文件后,你将有机会提交你的文件或文件夹。
- 现在我们的数据集已经成功上传到Google Colab Notebook。
- 我们的Kaggle数据集现在可以使用了。
Google Colab的优势
练习数据科学问题的一个绝妙工具是Google Colab。这种免费的GPU支持是Colab的主要优势之一。谷歌Colab帮助有志于数据科学的人解决硬件问题,因为他们最初在计算资源上受到限制。因为Colab笔记本电脑是由Linux实例驱动的,你可以简单地与内核对接并运行所有标准的Linux命令。