Python – 处理PDF
Python可以读取PDF文件并从中提取文本内容后输出。为此,我们必须首先安装所需的模块——PyPDF2。以下是安装该模块的命令。您应该已经在Python环境中安装了pip。
成功安装此模块后,我们可以使用模块中可用的方法来读取PDF文件。
当运行上面的程序时,我们获得以下输出 −
读取多个页面
为了读取具有多个页面的PDF并打印出每个页面及其页码,我们使用一个循环和getPageNumber()
函数。在下面的示例中,我们使用具有两个页面的PDF文件。内容按照两个单独的页面标题打印。
当运行上面的程序时,我们获得以下输出 −