Pandas 在读取 CSV 文件时出现的“Tokenize Error”

在本文中，我们将介绍 Pandas 中的一些常见错误，特别是在读取 CSV 文件时出现的“Tokenize Error”。

什么是 Tokenize Error？

在读取 CSV 文件时，Pandas 将其划分为许多“tokens”，这些 tokens 在语言学中代表单个词或单词的词根。如果文件中包含错误或无法解码的字符，则 Pandas 无法正确解析该文件，并显示一个”Tokenize Error”。

例如，假设我们有以下 CSV 文件：

Name,Age,City
Tom,25,New York
Jerry,30,San Francisco
Molly,,

这个文件包含一个缺少年龄的行，因此我们期望 Pandas 会将其读取并生成一个 NaN 值。但是，如果我们意外地在“ Molly”后面添加了一个空格，则会导致 Pandas 执行标记化错误，如下所示：

import pandas as pd

df = pd.read_csv('data.csv')

.....
pandas.errors.ParserError: Error tokenizing data. C error: Expected 2 fields in line 4, saw 3

在这种情况下，Pandas 意识到它正在等待 2 个字段，但在第4行看到了3个字段，由于无法准确解析该行，因此 Pandas 将引发“Tokenize Error” 。

换句话说，Tokenize Error 是在 Pandas 尝试将 CSV 文件转换为 DataFrame 时遭遇的一个错误，通常是由于 CSV 文件中含有意外的字符或格式不正确而引起的。

常见的 Tokenize Error 类型

Missing Another Quote

常见的 Tokenize Error 类型之一是“缺少另一个引号”，这种情况通常是由于 CSV 文件中的字符串中的引号不配对而导致的。

例如，考虑以下 CSV 文件：

"昵称","性别","年龄"
"小明","男",5
"小丽","女",23"
"小华","女",18

它包含在第3行最后一个数据单元格中的字符串：“23″”，这将导致 Pandas 无法解析该文件。实际上，Pandas 会将该行中的所有内容视为一个字符串，因为该单元格中的引号未配对。因此，在尝试解析这个字符串时，Pandas 会引发一个“Tokenize Error”。

EOF in multi-line string

另一个常见的Tokenize Error 类型是“EOF在多行字符串中”，这种情况通常是由于 CSV 文件中的字符串未在末尾得到关闭而导致的。例如，以下 CSV 文件会导致您遇到这种类型的错误：

Name,Location,Date
John,Dallas,June
Sarah,Houston,"July 23
Maria,"Los Angeles,",Aug 1

在这种情况下，Pandas 会在处理第二行和第三行时引发 Tokenize Error。原因是该文件中的第3行中有一个字符串未在其末尾得到关闭，这将导致 Pandas 无法从该字符串中正确解析更多的内容。

解决 Tokenize Error 的方法

指定编码

在读取 CSV 文件时，您可以指定编码来告知 Pandas 如何解码该文件以及如何正确地解析各个单元格。在特定情况下，此选项可能会解密已加密内容或解决事先未知的字符问题。例如，如果您的 CSV 文件使用了不同的编码而不是默认编码，请使用以下命令：

df = pd.read_csv('filename.csv', encoding = 'gb2312')

通过指定特定编码，您可以确保 Pandas 能够正确解析 CSV 文件并成功读取其中的内容。

删除错误行

另一种解决 Tokenize Error 的方法是手动删除包含错误的行或仅包含无效数据的行。

例如，如果您的 CSV 文件包含以下行：

Name,Age,City
Tom,25,New York
Jerry,30,San Francisco
 :,,
Molly,,

您可以通过手动删除“ :,,”行来解决此问题，然后将其重新读取到 Pandas dataframe 中。

df = pd.read_csv('data.csv')
df.dropna(inplace=True)

通过删除包含无效数据或错误的行，您可以有效减少 Tokenize Error 发生的机会。

祛除无效字符

另一个解决 Tokenize Error 的方法是清理文件中的无效字符。这通常涉及删除控制字符或不必要的空格，以便 Pandas 可以更好地解释文件内容。

例如，假设您的 CSV 文件包含以下行：

Name   , Age, City
Tom   , 25, New York
Jerry,30 ,  San Francisco
Molly,  ,

在这种情况下，您可以手动删除额外的空格并使用 Pandas 重新读取该文件。

df = pd.read_csv('data.csv', skipinitialspace=True)

通过祛除无效字符，您可以提高 Pandas 解析 CSV 文件的准确性，并避免 Tokenize Error 的发生。

总结

Tokenize Error 是 Pandas 中 CSV 文件读取过程中常见的错误类型之一。解决此问题的方法包括指定编码、删除无效行、清除无效字符等。通过了解这些技术，您可以更好地理解 Tokenize Error 或其他类似的错误发生的原因，并更好地处理与 Pandas 相关的 CSV 文件。

Pandas 在读取 CSV 文件时出现的“Tokenize Error”

Pandas 在读取 CSV 文件时出现的“Tokenize Error”

什么是 Tokenize Error？

常见的 Tokenize Error 类型

Missing Another Quote

EOF in multi-line string

解决 Tokenize Error 的方法

指定编码

删除错误行

祛除无效字符

总结

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Pandas 精品教程

回顶部