如何使用BeautifulSoup包来解析Python中网页的数据?

如何使用BeautifulSoup包来解析Python中网页的数据?

BeautifulSoup是一个第三方Python库,用于解析网页的数据。它有助于网络爬取,即从不同资源中提取、使用和处理数据的过程。

网络爬取也可以用于准备研究数据,了解/比较市场趋势,执行SEO监控等。

可以运行以下命令在Windows上安装美丽汤-

pip install beautifulsoup4

更多Python相关文章,请阅读:Python 教程

我们来看个例子 –

例子

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib
url = 'https://en.wikipedia.org/wiki/Algorithm'
html = urlopen(url).read()
print("读取网页中...")
soup = BeautifulSoup(html, features="html.parser")
print("解析网页中...")
for script in soup(["script", "style"]):
   script.extract() # 将其删除
print("从网页中提取文本...")
text = soup.get_text()
print("数据清理中...")
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split(" "))
text = '\n'.join(chunk for chunk in chunks if chunk)
text = str(text)
print(text)

输出

读取网页中...
解析网页中...
从网页中提取文本...
数据清理中...
从上面的流程图中递归C实现Euclid的算法
递归
递归算法是一种重复调用(引用)自身直到满足某种条件(也称为终止条件)的方法,这是一种函数式编程的常用方法....
…..
开发者
统计学
Cookie声明

解释

  • 导入所需的包并进行别名命名。

  • 定义网站。

  • 打开url,删除“script”标签和其他无关的HTML标签。

  • 使用’get_text’函数从网页数据中提取文本。

  • 消除额外的空格和无效的单词。

  • 将文本打印到控制台中。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程