BeautifulSoup 使用Python下载网站上的所有PDF文件

在本文中，我们将介绍如何使用Python的BeautifulSoup库来下载网站上的所有PDF文件。BeautifulSoup是一个强大的库，可以解析HTML和XML文件，并且非常适合网页爬虫。我们将使用它来检索并下载指定网站上的PDF文件。

阅读更多：BeautifulSoup 教程

步骤 1：导入所需的库

首先，我们需要导入使用BeautifulSoup所需的库。我们将使用requests库来获取网页的内容，并使用BeautifulSoup库来解析HTML。

import requests
from bs4 import BeautifulSoup

步骤 2：指定目标网站和保存路径

在代码中指定要下载PDF文件的目标网站和保存路径。您可以根据自己的需求更改这些值。

url = "https://example.com"  # 目标网站的URL
save_path = "pdf_files"  # 下载PDF文件的保存路径

步骤 3：爬取网页内容并解析

使用requests.get()方法获取网页的内容，并将其传递给BeautifulSoup对象进行解析。然后，我们可以使用不同的方法来查找包含链接的元素，例如find_all()或select()。

response = requests.get(url)  # 获取网页内容
soup = BeautifulSoup(response.text, "html.parser")  # 解析HTML

# 查找包含PDF文件链接的元素
pdf_links = soup.find_all("a", href=lambda href: href and href.endswith(".pdf"))

步骤 4：下载PDF文件

遍历找到的PDF文件链接列表，并使用requests.get()方法下载每个PDF文件。将文件保存到指定的路径。为了避免重复下载相同的文件，我们可以通过检查文件是否已存在来进行判断。

import os

# 如果保存路径不存在，则创建它
if not os.path.exists(save_path):
    os.makedirs(save_path)

# 下载并保存PDF文件
for link in pdf_links:
    pdf_url = link.get("href")
    pdf_name = pdf_url.split("/")[-1]
    pdf_path = os.path.join(save_path, pdf_name)

    if not os.path.exists(pdf_path):  # 如果文件不存在
        response = requests.get(pdf_url)
        with open(pdf_path, "wb") as pdf_file:
            pdf_file.write(response.content)
        print(f"已下载文件: {pdf_name}")
    else:
        print(f"文件已存在: {pdf_name}")

总结

通过使用Python的BeautifulSoup库，我们可以轻松地在网站上下载所有的PDF文件。在本文中，我们了解了如何导入所需的库，指定目标网站和保存路径，爬取网页内容并解析，以及下载PDF文件的方法。使用这些步骤，您可以在几行代码中下载一个网站上的所有PDF文件。务必要遵守合适的法律和使用政策，并确保您有权限下载这些文件。祝您成功！