Python 读取 Word 文件
在日常的工作和学习中,我们经常需要处理和编辑 Word 文件,有时候我们也希望能够用 Python 来对 Word 文件进行读取和操作。本文将详细介绍如何使用 Python 操作 Word 文件,包括读取 Word 文件的内容、修改 Word 文件内容、添加表格和图片等操作。
1. 安装 python-docx 模块
要实现对 Word 文件的读取,我们首先需要安装 python-docx 模块。python-docx 模块是一个用于读取、写入和编辑 Word 文档的 Python 库,让我们可以轻松地操作 Word 文件。安装 python-docx 模块可以使用 pip 命令:
pip install python-docx
安装完成后,我们就可以开始使用 python-docx 模块来读取 Word 文件了。
2. 读取 Word 文件内容
下面我们将演示如何读取 Word 文件的内容。首先,我们创建一个名为 example.docx
的 Word 文件,里面包含一些文本内容,并保存在当前目录下。然后使用 python-docx 模块读取该文件的内容:
import docx
# 打开 Word 文件
doc = docx.Document("example.docx")
# 循环遍历每个段落并打印内容
for paragraph in doc.paragraphs:
print(paragraph.text)
上面的代码中,我们使用 docx.Document
方法打开 example.docx
文件,然后通过遍历 doc.paragraphs
属性来获取每个段落的内容,并打印出来。
运行以上代码,会输出 example.docx
文件中的所有文本内容。
3. 修改 Word 文件内容
除了读取 Word 文件的内容外,我们也可以修改 Word 文件的内容。下面我们将演示如何在 Word 文件中添加新的段落:
import docx
# 打开 Word 文件
doc = docx.Document("example.docx")
# 添加新的段落
new_paragraph = doc.add_paragraph("This is a new paragraph added by Python.")
new_paragraph.style = "Heading 1"
# 保存修改
doc.save("example_updated.docx")
上面的代码中,我们使用 doc.add_paragraph
方法在 Word 文档中添加了一个新的段落,并设置了新段落的样式为 “Heading 1″。最后再通过 doc.save
方法将修改后的内容保存到新的文件 example_updated.docx
中。
4. 添加表格和图片
除了文本内容外,我们还可以使用 python-docx 模块来添加表格和图片到 Word 文件中。下面演示如何在 Word 文件中添加一个表格和一张图片:
from docx import Document
from docx.shared import Inches
# 创建一个新的 Word 文档
doc = Document()
# 添加一个表格
table = doc.add_table(rows=2, cols=2)
table.cell(0, 0).text = "geek-docs.com"
table.cell(0, 1).text = "Hello"
table.cell(1, 0).text = "Python"
table.cell(1, 1).text = "Word"
# 添加一张图片
doc.add_picture('example.png', width=Inches(2.0))
# 保存文档
doc.save('example_table_image.docx')
在上面的代码中,我们首先创建一个新的 Word 文档,然后使用 doc.add_table
方法添加一个包含 2 行 2 列的表格,并给表格中的单元格赋值。接着使用 doc.add_picture
方法添加一张名为 example.png
的图片,并设置宽度为 2 英寸。最后通过 doc.save
方法保存文档。
总结
本文详细介绍了如何使用 Python 读取、修改 Word 文件的内容,以及如何在 Word 文件中添加表格和图片。通过 python-docx 模块,我们可以轻松地处理 Word 文件,实现丰富的文档操作功能。