如何使用Python将PDF文件转换为Excel文件?

如何使用Python将PDF文件转换为Excel文件?

Python有许多库可用于处理不同类型的操作。通过本文,我们将看到如何将pdf文件转换为Excel文件。在Python中,有各种包可用于将pdf转换为CSV,但我们将使用Tabula-py模块。tabula-py的主要部分是用Java编写的,它读取pdf文档并将Python DataFrame转换为JSON对象。

为了使用tabula-py工作,我们必须在系统中预先安装Java。现在,要将pdf文件转换为csv,我们将按以下步骤进行-

  • 首先,在命令行中键入 pip install tabula-py 安装所需的软件包。

  • 现在使用 read_pdf(“file location”, pages=number) 函数读取文件。这将返回DataFrame。

  • 使用 tabula.convert_into(‘pdf-filename’, ‘name_this_file.csv’, output_format=”csv”, pages=”all”) 将DataFrame转换为Excel文件。它通常将pdf文件导出为Excel文件。

实例

在本例中,我们使用 IPL比赛时间表文档 将其转换为Excel文件。

# 导入所需的模块
import tabula
# 读取PDF文件
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# 将PDF文件转换为CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)
Python

输出

运行以上代码将把pdf文件转换为Excel(csv)文件。

如何使用Python将PDF文件转换为Excel文件?

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册