Pandas: 自定义 pandas 中的 read_csv 分隔符

Pandas: 自定义 pandas 中的 read_csv 分隔符

在本文中,我们将介绍如何在 pandas 的 read_csv 函数中自定义分隔符。read_csv 函数是 pandas 中常用的一个函数,其作用是将 csv 格式的数据读入 pandas 的 DataFrame 数据结构中。在默认情况下,该函数支持的分隔符是逗号(,)。但是有些情况下,我们可能需要使用其他的分隔符,例如分号(;)、制表符(\t)等。下面,我们将分别介绍如何使用这些分隔符。

阅读更多:Pandas 教程

使用分号(;)作为分隔符

使用分号作为分隔符的情况并不常见,但是在一些国家和地区,人们普遍使用分号作为 csv 文件的分隔符。例如,法国国家统计局就使用分号作为其发布的 csv 文件的分隔符。

要使用分号作为分隔符,我们可以在 read_csv 函数中指定参数 delimiter=’;’ 或 sep=’;’。这里的 delimiter 是 delimiter(分隔符)的缩写,sep 是 separator(分隔符)的缩写。两个参数的效果是一样的,我们可以根据自己的喜好选择使用哪一个。

例如,我们有一个名为 ‘data.csv’ 的 csv 文件,其内容如下所示:

name;age;gender
Tom;18;M
Lucy;20;F
Python

我们可以使用如下代码读入该 csv 文件:

import pandas as pd

df = pd.read_csv('data.csv', delimiter=';')
Python

这样,df 中将包含三列数据,名称分别为 name、age、gender。

使用制表符(\t)作为分隔符

在一些场景下,csv 文件的内容中可能包含了逗号,这时候使用逗号作为分隔符就会产生困扰。例如,我们有一个名为 ‘data.csv’ 的 csv 文件,其内容如下所示:

name    age gender
Tom, Jr.    18  M
Lucy    20  F
Python

这里的第一行中,姓名中包含了逗号。如果我们使用逗号作为分隔符,就会将姓名和姓氏分开。这时候,我们可以使用制表符作为分隔符。制表符不仅不会与逗号混淆,而且在许多文本编辑器中可以很容易地生成(按下 Tab 键即可)。

要使用制表符作为分隔符,我们可以在 read_csv 函数中指定参数 delimiter=’\t’ 或 sep=’\t’。

例如,我们可以使用如下代码读入上述的 csv 文件:

import pandas as pd

df = pd.read_csv('data.csv', delimiter='\t')
Python

这样,df 中将包含三列数据,名称分别为 name、age、gender。

总结

本文介绍了如何在 pandas 的 read_csv 函数中自定义分隔符。我们分别介绍了使用分号和制表符作为分隔符的方法,并给出了相应的示例代码。当读入的 csv 文件中包含逗号等与默认分隔符冲突的字符时,我们可以使用这些方法来正确地读取数据。阅读完本文后,希望读者能够掌握如何使用自定义分隔符读取 csv 文件的方法。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册