Python URL处理

Python URL处理

在互联网世界中,不同的资源通过URL(统一资源定位符)进行标识。Python的标准库中捆绑了urllib包,提供了一些处理URL的实用工具。它包含以下模块:

  • urllib.parse 模块用于将URL解析为其各个部分。

  • urllib.request 模块包含了打开和读取URL的函数。

  • urllib.error 模块包含了urllib.request引发的异常的定义。

  • urllib.robotparser 模块解析robots.txt文件。

urllib.parse 模块

此模块作为从URL字符串获取各部分的标准接口。该模块包含以下函数:

urlparse(urlstring)

将URL解析为六个组成部分,返回一个包含6个项的命名元组。每个元组项都是与以下属性对应的字符串。

属性 索引
scheme 0 URL方案指示符
netloc 1 网络位置部分
path 2 层次路径
params 3 最后一个路径元素的参数
query 4 查询组件
fragment 5 片段标识符
username 用户名
password 密码
hostname 主机名(小写)
Port 端口号,如果存在则为整数

示例

from urllib.parse import urlparse
url = "https://example.com/employees/name/?salary>=25000"
parsed_url = urlparse(url)
print (type(parsed_url))
print ("Scheme:",parsed_url.scheme)
print ("netloc:", parsed_url.netloc)
print ("path:", parsed_url.path)
print ("params:", parsed_url.params)
print ("Query string:", parsed_url.query)
print ("Frgment:", parsed_url.fragment)

它将产生以下输出

<class 'urllib.parse.ParseResult'>
Scheme: https
netloc: example.com
path: /employees/name/
params:
Query string: salary>=25000
Frgment:

parse_qs(qs))

此函数解析作为字符串参数给出的查询字符串。数据以字典形式返回。字典键是唯一的查询变量名称,值是每个名称的值列表。

要将查询字符串中的查询参数进一步提取到字典中,可以使用ParseResult对象的query属性的parse_qs()函数,方法如下 –

from urllib.parse import urlparse, parse_qs
url = "https://example.com/employees?name=Anand&salary=25000"
parsed_url = urlparse(url)
dct = parse_qs(parsed_url.query)
print ("Query parameters:", dct)

它将产生以下 输出

Query parameters: {'name': ['Anand'], 'salary': ['25000']}

urlsplit(urlstring)

这与urlparse()类似,但不会将参数从URL中拆分。如果想要使用较新的URL语法,允许将参数应用于URL的路径部分的每个段,通常应使用此函数。

urlunparse(parts)

此函数与urlparse()相反。它从由urlparse()返回的元组构造一个URL。parts参数可以是任何具有六个项目的可迭代对象。它返回等效的URL。

示例

from urllib.parse import urlunparse

lst = ['https', 'example.com', '/employees/name/', '', 'salary>=25000', '']
new_url = urlunparse(lst)
print ("URL:", new_url)

它将产生以下 输出

URL: https://example.com/employees/name/?salary>=25000

urlunsplit(parts)

将由urlsplit()返回的元组的元素组合成一个完整的URL字符串。parts参数可以是任何包含五个项的可迭代对象。

urllib.request模块

此模块定义了帮助打开URL的函数和类。

urlopen()函数

此函数打开给定的URL,可以是字符串或请求对象。可选的timeout参数指定阻塞操作的超时时间(以秒为单位)。此实际上仅适用于HTTP、HTTPS和FTP连接。

此函数始终返回一个可作为上下文管理器使用的对象,并具有url、headers和status属性。

对于HTTP和HTTPS URL,此函数返回稍作修改的http.client.HTTPResponse对象。

示例

下面的代码使用urlopen()函数从图像文件中读取二进制数据,并将其写入本地文件。您可以使用任何图像查看器在您的计算机上打开图像文件。

from urllib.request import urlopen
obj = urlopen("https://www.tutorialspoint.com/static/images/simply-easy-learning.jpg")
data = obj.read()
img = open("img.jpg", "wb")
img.write(data)
img.close()

它将产生以下 输出

Python URL处理

请求对象

urllib.request模块包括Request类。这个类是URL请求的抽象。构造函数需要一个必填的字符串参数,表示有效的URL。

语法

urllib.request.Request(url, data, headers, origin_req_host, method=None)

参数

  • url − 一个有效的URL字符串。

  • data − 一个指定要发送到服务器的附加数据的对象。此参数仅适用于HTTP请求。数据可以是字节、类文件对象和字节类对象的可迭代对象。

  • headers − 应该是一个包含头部及其相关值的字典。

  • origin_req_host − 应该是原始事务的请求主机。

  • method − 应该是指示HTTP请求方法的字符串。可以是GET、POST、PUT、DELETE和其他HTTP动词之一,默认为GET。

示例

from urllib.request import Request
obj = Request("https://www.tutorialspoint.com/")

这个Request对象现在可以作为urlopen()方法的参数使用。

from urllib.request import Request, urlopen
obj = Request("https://www.tutorialspoint.com/")
resp = urlopen(obj)

urlopen()函数返回一个HttpResponse对象。调用它的read()方法可以从给定的URL获取资源。

from urllib.request import Request, urlopen
obj = Request("https://www.tutorialspoint.com/")
resp = urlopen(obj)
data = resp.read()
print (data)

发送数据

如果您在请求构造函数中定义了数据参数,将会发送一个POST请求到服务器。数据应该是以字节表示的任意对象。

示例

from urllib.request import Request, urlopen
from urllib.parse import urlencode

values = {'name': 'Madhu',
   'location': 'India',
   'language': 'Hindi' }
data = urlencode(values).encode('utf-8')
obj = Request("https://example.com", data)

发送头信息

请求构造器还接受一个header参数,将头信息推送到请求中。它应该是一个字典对象。

headers = {'User-Agent': user_agent}
obj = Request("https://example.com", data, headers)

urllib.error模块

在urllib.error模块中定义了以下异常:

URLError

URLError被抛出是因为没有网络连接(没有到指定服务器的路由)或指定的服务器不存在。在这种情况下,抛出的异常会有一个’reason’属性。

from urllib.request import Request, urlopen
import urllib.error as err

obj = Request("http://www.nosuchserver.com")
try:
   urlopen(obj)
except err.URLError as e:
   print(e)

它将产生以下的HTML输出:

HTTP Error 403: Forbidden

HTTPError

每当服务器发送一个HTTP响应时,它会关联一个数字型的“状态码”。该状态码表明服务器无法满足请求的原因。默认的处理程序将会为你处理其中一些响应。对于处理不了的响应,urlopen()函数会引发一个HTTPError。HTTPErrors的典型例子包括’404’(页面未找到),’403’(请求被禁止)和’401’(需要身份认证)。

from urllib.request import Request, urlopen
import urllib.error as err

obj = Request("http://www.python.org/fish.html")
try:
   urlopen(obj)
except err.HTTPError as e:
   print(e.code)

它将产生以下输出

404

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程