如何使用Boto3启动AWS Glue数据目录爬虫的调度程序

在本文中，我们将看到用户如何启动AWS Glue数据目录中爬虫的调度程序。

更多Python相关文章，请阅读：Python 教程

示例

启动AWS Glue数据目录中一个爬虫的调度程序。

问题陈述： 使用Python中的boto3库启动爬虫的调度程序。

解决此问题的方法/算法

Step 1： 导入 boto3 和 botocore exception 处理异常。
Step 2： crawler_name 是此函数中所需的参数。
Step 3： 使用 boto3 lib 创建一个AWS会话。确保 ****region_name** ** 在默认配置文件中。如果没有提及，则在创建会话时明确传递 region_name
Step 4： 为研磨创建一个AWS客户端。
Step 5： 现在使用 start_crawler_schedule function 并将参数 crawler_name 作为CrawlerName。
Step 6： 它返回响应元数据并将爬虫的计划状态设置为SCHEDULED。如果爬虫的状态正在运行或计划状态已经是SCHEDULED，则会抛出异常- SchedulerRunningException
Step 7： 如果在启动爬取器的调度程序时出现错误，请处理通用异常。

示例代码

以下代码启动爬虫的调度程序 –

import boto3
from botocore.exceptions import ClientError

def start_scheduler_of_a_crawler(crawler_name)
  session = boto3.session.Session()
  glue_client = session.client('glue')
  try:
    response = glue_client.start_crawler_schedule(CrawlerName=crawler_name)
    return response
  except ClientError as e:
    raise Exception("boto3 client error in start_scheduler_of_a_crawler: " + e.__str__())
  except Exception as e:
    raise Exception("Unexpected error in start_scheduler_of_a_crawler: " + e.__str__())
print(start_scheduler_of_a_crawler("Data Dimension"))

输出

{'ResponseMetadata': {'RequestId': '73e50130-*****************8e', 'HTTPStatusCode': 200, 'HTTPHeaders': {'date': 'Sun, 28 Mar 2021 07:26:55 GMT', 'content-type': 'application/x-amz-json-1.1', 'content-length': '2', 'connection': 'keep-alive', 'x-amzn-requestid': '73e50130-***************8e'}, 'RetryAttempts': 0}}