Python 如何使用python-docx从现有docx文件中提取文本

在本文中，我们将介绍如何使用python-docx库从现有的.docx文件中提取文本。python-docx是一个Python库，用于操作.docx文件，可以读取和写入文本、表格、图像和样式。

准备工作

在使用python-docx之前，我们需要先安装该库。可以通过在命令行中运行以下命令来安装python-docx：

pip install python-docx

示例

让我们来看一个实际的例子。假设我们有一个名为“example.docx”的文件，其中包含一段文字。我们希望从该文件中提取文本。

首先，我们需要导入python-docx库，并打开.docx文件：

import docx

doc = docx.Document("example.docx")

接下来，我们可以使用paragraphs属性获取文档中所有段落的列表。然后，我们可以遍历这个列表并提取每个段落的文本：

for paragraph in doc.paragraphs:
    print(paragraph.text)

以上代码将打印出文档中每个段落的文本。

如果我们只想提取特定段落的文本，可以使用索引来定位该段落。例如，如果我们想提取第一个段落的文本，可以使用以下代码：

first_paragraph = doc.paragraphs[0]
print(first_paragraph.text)

除了提取段落文本，我们还可以提取表格中的文本。通过使用tables属性，我们可以获取文档中所有表格的列表。然后，我们可以遍历这个列表并提取每个表格中的文本：

for table in doc.tables:
    for row in table.rows:
        for cell in row.cells:
            print(cell.text)

以上代码将打印出文档中所有表格中的每个单元格的文本。

此外，我们还可以提取图像。通过使用inline_shapes属性，我们可以获取文档中所有内联图像的列表。然后，我们可以遍历这个列表并提取每个图像的文本描述：

for inline_shape in doc.inline_shapes:
    print(inline_shape.text)

总结

本文介绍了如何使用python-docx库从现有的.docx文件中提取文本。我们可以通过paragraphs属性提取段落文本，通过tables属性提取表格文本，通过inline_shapes属性提取图像文本。这个库非常方便，可以帮助我们处理.docx文件的各种需求。希望本文对你有所帮助！