如何使用Python将PDF文件转换为Excel文件?
Python有许多库可用于处理不同类型的操作。通过本文,我们将看到如何将pdf文件转换为Excel文件。在Python中,有各种包可用于将pdf转换为CSV,但我们将使用Tabula-py模块。tabula-py的主要部分是用Java编写的,它读取pdf文档并将Python DataFrame转换为JSON对象。
为了使用tabula-py工作,我们必须在系统中预先安装Java。现在,要将pdf文件转换为csv,我们将按以下步骤进行-
- 首先,在命令行中键入 pip install tabula-py 安装所需的软件包。
-
现在使用 read_pdf(“file location”, pages=number) 函数读取文件。这将返回DataFrame。
-
使用 tabula.convert_into(‘pdf-filename’, ‘name_this_file.csv’, output_format=”csv”, pages=”all”) 将DataFrame转换为Excel文件。它通常将pdf文件导出为Excel文件。
实例
在本例中,我们使用 IPL比赛时间表文档 将其转换为Excel文件。
输出
运行以上代码将把pdf文件转换为Excel(csv)文件。