Python能读取PDF吗|极客教程

Python能读取PDF吗

Python是一种功能强大的编程语言，它能够胜任各种各样的任务。在我们的日常工作中，我们经常会遇到需要处理PDF文件的情况。那么，Python能读取PDF文件吗？答案是肯定的。

Python可以通过使用第三方库来读取PDF文件。目前比较常用的库有PyPDF2和PDFMiner等。下面我们将通过一些示例代码来介绍如何使用Python读取PDF文件。

示例代码1：使用PyPDF2读取PDF文本

PyPDF2是一个纯Python库，它可以用来读取、拆分、合并和转换PDF文件。首先，我们需要安装PyPDF2库。

pip install PyPDF2

然后，我们可以使用以下代码读取PDF文件中的文本内容。

import PyPDF2

# 打开PDF文件
pdf_file = open('example.pdf', 'rb')

# 创建PDF阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取PDF文件的页数
num_pages = pdf_reader.numPages

# 从第一页开始读取文本
for page_num in range(num_pages):
    page = pdf_reader.getPage(page_num)
    text = page.extractText()
    print(text)

# 关闭PDF文件
pdf_file.close()

执行结果：

Welcome to geek-docs.com
This is an example PDF file.

示例代码2：使用PyPDF2读取PDF中的元数据

除了读取文本内容，我们还可以使用PyPDF2读取PDF文件中的元数据，例如作者、标题、创建日期等。

import PyPDF2

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

metadata = pdf_reader.getDocumentInfo()
author = metadata.author
title = metadata.title
creation_date = metadata['/CreationDate']

print(f'Author: {author}')
print(f'Title: {title}')
print(f'Creation Date: {creation_date}')

pdf_file.close()

执行结果：

Author: John Doe
Title: Example PDF
Creation Date: D:20210101000000

示例代码3：使用PDFMiner读取PDF文本

PDFMiner是另一个用于提取PDF文件中文本信息的库。与PyPDF2不同，PDFMiner更适合用于解析复杂的PDF文件，例如包含多种字体和格式的文件。

首先，我们需要安装PDFMiner库。

pip install pdfminer.six

然后，我们可以使用以下代码读取PDF文件中的文本内容。

from pdfminer.high_level import extract_text

text = extract_text('example.pdf')
print(text)

执行结果：

Welcome to geek-docs.com
This is an example PDF file.

示例代码4：使用PDFMiner读取PDF中的布局信息

PDFMiner不仅能够读取文本内容，还能够提取PDF文件中的布局信息。这对于理解PDF文件的结构非常有用。

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextBox

for page_layout in extract_pages('example.pdf'):
    for element in page_layout:
        if isinstance(element, LTTextBox):
            print(element.get_text())

执行结果：

Welcome to geek-docs.com

This is an example PDF file.

示例代码5：使用PyPDF2旋转PDF页面

PyPDF2库还允许我们对PDF文件进行编辑，例如旋转页面。

import PyPDF2

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
pdf_writer = PyPDF2.PdfFileWriter()

# 旋转第一页90度
page = pdf_reader.getPage(0).rotateClockwise(90)
pdf_writer.addPage(page)

# 将修改后的PDF写入新文件
with open('rotated_example.pdf', 'wb') as new_pdf:
    pdf_writer.write(new_pdf)

pdf_file.close()

执行结果：生成了一个新的PDF文件rotated_example.pdf，其中第一页被旋转了90度。

通过上面的示例代码，我们可以看出Python确实能够读取PDF文件。不仅如此，Python还能够对PDF文件进行各种处理，比如提取文本内容、获取元数据、旋转页面等。这使得Python成为处理PDF文件的强有力工具。