Python 如何从PDF文件中提取文本

在本文中，我们将介绍如何使用Python从PDF文件中提取文本。PDF（Portable Document Format）是一种常用的文件格式，用于在各种操作系统和设备上显示文档。然而，由于PDF文件中的文本通常被转换为图像或以其他方式加密，直接提取文本并不容易。幸运的是，Python提供了一些强大的库和工具，使我们能够轻松地从PDF文件中提取文本。

阅读更多：Python 教程

PyPDF2库

PyPDF2是一个流行的Python库，用于处理PDF文件。它提供了一些便捷的方法和功能，使我们能够轻松地提取文本。首先，我们需要安装PyPDF2库：

pip install PyPDF2

然后，我们可以使用以下代码来提取PDF文件中的文本：

import PyPDF2

def extract_text_from_pdf(file_path):
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        text = ''
        for page in reader.pages:
            text += page.extract_text()
    return text

pdf_file = 'example.pdf'
text = extract_text_from_pdf(pdf_file)
print(text)

在上述代码中，我们首先打开PDF文件，然后通过循环遍历每个页面，并使用extract_text()方法提取页面中的文本。最后，我们将所有文本连接在一起，并将其返回。请注意，extract_text()方法可能无法正确提取一些特定类型的PDF文件中的文本。

PDFMiner库

除了PyPDF2，PDFMiner也是另一个强大的Python库，用于提取PDF文件中的文本。相比于PyPDF2，PDFMiner提供了更多的功能和灵活性，以适应各种不同的PDF文件结构。使用以下命令安装PDFMiner库：

pip install pdfminer.six

以下是使用PDFMiner库提取PDF文件中文本的示例代码：

from pdfminer.high_level import extract_text

def extract_text_from_pdf(file_path):
    text = extract_text(file_path)
    return text

pdf_file = 'example.pdf'
text = extract_text_from_pdf(pdf_file)
print(text)

在上述代码中，我们使用了PDFMiner库的extract_text()函数来提取PDF文件中的文本。这个函数会自动处理PDF文件的结构，并返回整个文件的文本。

PyMuPDF库

PyMuPDF是另一个流行的Python库，用于处理PDF文件。它是MuPDF库的Python绑定，提供了一些高级功能，如文本提取、图像提取和PDF文件的元数据访问。我们可以使用以下命令安装PyMuPDF库：

pip install PyMuPDF

以下是使用PyMuPDF库提取PDF文件中文本的示例代码：

import fitz

def extract_text_from_pdf(file_path):
    text = ''
    with fitz.open(file_path) as doc:
        for page in doc:
            text += page.get_text()
    return text

pdf_file = 'example.pdf'
text = extract_text_from_pdf(pdf_file)
print(text)

在上述代码中，我们首先打开PDF文件，然后通过循环遍历每个页面，并使用get_text()方法提取页面中的文本。最后，我们将所有文本连接在一起，并将其返回。