如何将TSV文件加载到Pandas的DataFrame中?
有时,任务是分析数据集并使用TSV(制表符分隔值)文件的数据。为此,TSV文件有时会被转换为dataframe。dataframe是一个带标签的二维结构,具有不同类型的列。在本文中,使用名为pandas的Python库和Python代码,使用两个不同的示例读取TSV文件并将其加载到dataframe中。对于这些示例,使用Kaggle上提供的Zomato数据集。 Kaggle数据集可在CSV(逗号分隔值)格式中获取,因此首先下载并使用在线软件链接将其转换为TSV格式。在第一个例子中,使用计算机系统中安装的Python运行编写用于使用pandas函数将TSV文件读入dataframe的Python程序。在另一个示例中,显示了使用Google Colab的方法,在计算机中未安装Python的情况下仍然可以使用Python和pandas,并在使用另一个函数后将TVS文件读入dataframe。
使用的Zomato.TSV文件
图; 此tsv文件包含9551行和21列。
示例1:使用delimiter =’ \ t’函数将TSV文件加载到Pandas DataFrame中-read_table
设计步骤和编码
-
步骤1 – 首先导入pandas。pandas是一个开放源码,易于使用和灵活的库,通常用于使用Python中的数据集进行数据分析和操作。
-
步骤2 – 现在将zomato.tsv文件读取为将要用于将其加载到dataframe中的数据集。
-
步骤3 – 制作dataframe dff1并使用pandas的read_table函数来读取TSV文件。
-
步骤4 – 使用delimiter =’ \ t’和zomato.tsv文件的路径。使用head函数从该dataframe中打印一些行和列。
-
步骤5 – 制作dataframe dff2并再次使用read_table函数,但这次选择索引列。
-
步骤6 – 制作dataframe dff3并再次使用read_table函数,但跳过一些行后打印行。
保存用于数据分析所需的数据文件/ CSV文件
对于这些示例,我们将使用Kaggle上可用的数据。登录Kaggle并从此链接下载CSV文件: https://www.kaggle.com/datasets/shrutimehta/zomato-restaurants-data
该数据集可作为CSV文件使用。
将CSV文件转换为TSV文件,因为TSV文件是示例所需的
使用以下在线转换器将CSV文件转换为TSV文件 format.https://products.groupdocs.app/conversion/csv-to-tsv
上传CSV文件,转换并下载TSV文件。现在使用此zomato.tsv文件进行以下示例。
使用delimiter =’ \ t’函数将TSV文件加载到Pandas DataFrame中-read_table
在Python文件中编写以下代码
输出
在命令窗口中运行Python文件
图1:使用cmd窗口显示结果。
示例2:使用read_csv函数和sep=’\t’将TSV文件加载到Pandas DataFrame中
设计步骤和编码
-
步骤1 – 使用您的Google帐户登录。转到Google Colab。打开一个新的Colab笔记本,在其中编写Python代码。
-
步骤2 – 上传已从Kaggle下载的CSV文件转换为TSV文件的zomato.tsv文件。此处给出的数据集将用于将其加载到数据帧中。
-
步骤3 – 现在导入pandas。 Pandas是一个开源、易于使用、灵活的库,通常用于在Python中使用数据集进行数据分析和操作。
-
步骤4 – 生成一个名为dff的数据帧,并使用pandas的read_csv函数读取TSV文件。
-
步骤5 – 使用sep=’\t’和文件名称’zomato.tsv’。使用head函数打印此数据帧中的一些行和列。
-
步骤6 – 打印数据帧的形状。它将显示数据集中有多少行和列。
-
步骤7 – 接下来,声明几个列名以描述,并且这次不要打印所有列。
-
步骤8 – 单击给定代码单元格上的播放按钮后执行程序。检查结果,因为它将显示在Colab笔记本中。
上传数据,tsv文件
读取TSV文件并将指定列加载到数据帧的代码
输出
结论
这篇Python文章演示了两个不同的示例,以展示如何将TSV加载到数据帧中。首先,给出了从Kaggle下载CSV格式数据集的方法,然后将其转换为TSV格式文件并保存。该程序将使用pandas的read_table函数将此TSV文件加载到数据帧中。在第二个示例中,使用Google Colab编写Python程序,并使用Pandas read_csv函数将相同的TSV格式数据集与数据帧一起使用。