如何使用Boto3启动AWS Glue数据目录中的爬虫

如何使用Boto3启动AWS Glue数据目录中的爬虫

在本文中,我们将看到用户如何在AWS Glue数据目录中启动爬虫。

更多Python相关文章,请阅读:Python 教程

示例

问题陈述: 使用Python中的 boto3 库启动爬虫。

解决此问题的方法/算法

  • 步骤1: 导入 boto3botocore 异常来处理异常。

  • 步骤2: crawler_name 是这个函数的参数。

  • 步骤3: 使用 boto3 lib 创建AWS会话。 确保在默认配置文件中 region_name 得到提及。 如果没有提及,则在创建会话时明确传递 region_name

  • 步骤4:glue 创建AWS客户端。

  • 步骤5: 现在使用 start_crawler 函数,并将参数 crawler_name 作为名称传递。

  • 步骤6: 它返回响应元数据并启动爬虫,而不考虑其时间表。 如果爬虫的状态为运行状态,则会抛出 CrawlerRunningException

  • 步骤7: 如果启动爬虫时出现错误,请处理通用异常。

示例代码

以下代码在AWS Glue数据目录中启动爬虫 –

import boto3
from botocore.exceptions import ClientError

def start_a_crawler(crawler_name)
   session = boto3.session.Session()
   glue_client = session.client('glue')
   try:
      response = glue_client.start_crawler(Name=crawler_name)
      return response
   except ClientError as e:
      raise Exception("boto3客户端启动爬虫时出错: " + e.__str__())
   except Exception as e:
      raise Exception("启动爬虫时出现意外错误: " + e.__str__())

#第一次启动爬虫
print(start_a_crawler("Data Dimension"))
#第二次运行,在爬虫完成操作之前
print(start_a_crawler("Data Dimension"))

输出结果

#第一次启动爬虫
{'ResponseMetadata': {'RequestId': '73e50130-*****************8e', 'HTTPStatusCode': 200, 'HTTPHeaders': {'date': 'Sun, 28 Mar 2021 07:26:55 GMT', 'content-type': 'application/x-amz-json-1.1', 'content-length': '2', 'connection': 'keep-alive', 'x-amzn-requestid': '73e50130-***************8e'}, 'RetryAttempts': 0}}

#第二次运行,在爬虫完成操作之前
Exception: boto3客户端启动爬虫时出错: 调用StartCrawler操作时发生错误(CrawlerRunningException):名称为Data Dimension的爬虫已经启动了

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程