如何将TSV文件加载到Pandas的DataFrame中?

如何将TSV文件加载到Pandas的DataFrame中?

有时,任务是分析数据集并使用TSV(制表符分隔值)文件的数据。为此,TSV文件有时会被转换为dataframe。dataframe是一个带标签的二维结构,具有不同类型的列。在本文中,使用名为pandas的Python库和Python代码,使用两个不同的示例读取TSV文件并将其加载到dataframe中。对于这些示例,使用Kaggle上提供的Zomato数据集。 Kaggle数据集可在CSV(逗号分隔值)格式中获取,因此首先下载并使用在线软件链接将其转换为TSV格式。在第一个例子中,使用计算机系统中安装的Python运行编写用于使用pandas函数将TSV文件读入dataframe的Python程序。在另一个示例中,显示了使用Google Colab的方法,在计算机中未安装Python的情况下仍然可以使用Python和pandas,并在使用另一个函数后将TVS文件读入dataframe。

使用的Zomato.TSV文件

如何将TSV文件加载到Pandas的DataFrame中?

图; 此tsv文件包含9551行和21列。

示例1:使用delimiter =’ \ t’函数将TSV文件加载到Pandas DataFrame中-read_table

设计步骤和编码

  • 步骤1 – 首先导入pandas。pandas是一个开放源码,易于使用和灵活的库,通常用于使用Python中的数据集进行数据分析和操作。

  • 步骤2 – 现在将zomato.tsv文件读取为将要用于将其加载到dataframe中的数据集。

  • 步骤3 – 制作dataframe dff1并使用pandas的read_table函数来读取TSV文件。

  • 步骤4 – 使用delimiter =’ \ t’和zomato.tsv文件的路径。使用head函数从该dataframe中打印一些行和列。

  • 步骤5 – 制作dataframe dff2并再次使用read_table函数,但这次选择索引列。

  • 步骤6 – 制作dataframe dff3并再次使用read_table函数,但跳过一些行后打印行。

保存用于数据分析所需的数据文件/ CSV文件

对于这些示例,我们将使用Kaggle上可用的数据。登录Kaggle并从此链接下载CSV文件: https://www.kaggle.com/datasets/shrutimehta/zomato-restaurants-data

该数据集可作为CSV文件使用。

将CSV文件转换为TSV文件,因为TSV文件是示例所需的

使用以下在线转换器将CSV文件转换为TSV文件 format.https://products.groupdocs.app/conversion/csv-to-tsv

上传CSV文件,转换并下载TSV文件。现在使用此zomato.tsv文件进行以下示例。

使用delimiter =’ \ t’函数将TSV文件加载到Pandas DataFrame中-read_table

在Python文件中编写以下代码

import pandas as pdd
dff1 = pdd.read_table("C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv",delimiter='\t')
print(dff1.head())
dff2 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',index_col=1)
print(dff2.head())
dff3 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',skiprows=range(3,6))
print(dff3.head())
Bash

输出

在命令窗口中运行Python文件

如何将TSV文件加载到Pandas的DataFrame中?

图1:使用cmd窗口显示结果。

示例2:使用read_csv函数和sep=’\t’将TSV文件加载到Pandas DataFrame中

设计步骤和编码

  • 步骤1 – 使用您的Google帐户登录。转到Google Colab。打开一个新的Colab笔记本,在其中编写Python代码。

  • 步骤2 – 上传已从Kaggle下载的CSV文件转换为TSV文件的zomato.tsv文件。此处给出的数据集将用于将其加载到数据帧中。

  • 步骤3 – 现在导入pandas。 Pandas是一个开源、易于使用、灵活的库,通常用于在Python中使用数据集进行数据分析和操作。

  • 步骤4 – 生成一个名为dff的数据帧,并使用pandas的read_csv函数读取TSV文件。

  • 步骤5 – 使用sep=’\t’和文件名称’zomato.tsv’。使用head函数打印此数据帧中的一些行和列。

  • 步骤6 – 打印数据帧的形状。它将显示数据集中有多少行和列。

  • 步骤7 – 接下来,声明几个列名以描述,并且这次不要打印所有列。

  • 步骤8 – 单击给定代码单元格上的播放按钮后执行程序。检查结果,因为它将显示在Colab笔记本中。

上传数据,tsv文件

#上传tsv
from google.colab import files
data_to_load = files.upload()
Bash

读取TSV文件并将指定列加载到数据帧的代码

#导入所需库
import pandas as pdd
#选择所有列 
#dff = pdd.read_csv("zomato.tsv",sep="\t")
#选择指定列 
dff = pdd.read_csv("zomato.tsv",sep="\t", usecols = ['Restaurant ID','Restaurant Name','City'])
#print数据帧头和一些行
dff.head()
Bash

输出

   Restaurant ID          Restaurant Name                City
0        6317637         Le Petit Souffle         Makati City 
1        6304287         Izakaya Kikufuji         Makati City
2        6300002   Heat - Edsa Shangri-La    Mandaluyong City
3        6318506                     Ooma    Mandaluyong City
4        6314302              Sambo Kojin    Mandaluyong City
Bash

结论

这篇Python文章演示了两个不同的示例,以展示如何将TSV加载到数据帧中。首先,给出了从Kaggle下载CSV格式数据集的方法,然后将其转换为TSV格式文件并保存。该程序将使用pandas的read_table函数将此TSV文件加载到数据帧中。在第二个示例中,使用Google Colab编写Python程序,并使用Pandas read_csv函数将相同的TSV格式数据集与数据帧一起使用。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册