如何使用BeautifulSoup从网站提取’href’链接?

如何使用BeautifulSoup从网站提取’href’链接?

BeautifulSoup是第三方Python库,用于解析网页数据。它有助于网络抓取(web scraping),这是从不同资源中提取、使用和操作数据的过程。

网络抓取也可用于为研究目的提取数据,了解/比较市场趋势,执行SEO监视等。

在Windows上运行以下行以安装BeautifulSoup –

pip install beautifulsoup4

以下是一个例子 –

更多Python相关文章,请阅读:Python 教程

例子

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
    print(link.get('href'))

输出

链接:
...
https://stats.wikimedia.org/#/en.wikipedia.org
https://foundation.wikimedia.org/wiki/Cookie_statement
https://wikimediafoundation.org/
https://www.mediawiki.org/

解释

  • 导入必要的软件包并进行别名处理。

  • 定义网站。

  • 打开URL并从中读取数据。

  • 使用’BeautifulSoup’函数从网页中提取文本。

  • 使用’find_all’函数从网页数据中提取文本。

  • 将href链接打印在控制台上。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程