如何使用Boto3启动AWS Glue数据目录爬虫的调度程序
在本文中,我们将看到用户如何启动AWS Glue数据目录中爬虫的调度程序。
更多Python相关文章,请阅读:Python 教程
示例
启动AWS Glue数据目录中一个爬虫的调度程序。
问题陈述: 使用Python中的boto3库启动爬虫的调度程序。
解决此问题的方法/算法
- Step 1: 导入 boto3 和 botocore exception 处理异常。
-
Step 2: crawler_name 是此函数中所需的参数。
-
Step 3: 使用 boto3 lib 创建一个AWS会话。确保 ****region_name** ** 在默认配置文件中。如果没有提及,则在创建会话时明确传递 region_name
-
Step 4: 为 研磨 创建一个AWS客户端。
-
Step 5: 现在使用 start_crawler_schedule function 并将参数 crawler_name 作为CrawlerName。
-
Step 6: 它返回响应元数据并将爬虫的计划状态设置为SCHEDULED。如果爬虫的状态正在运行或计划状态已经是SCHEDULED,则会抛出异常- SchedulerRunningException
-
Step 7: 如果在启动爬取器的调度程序时出现错误,请处理通用异常。
示例代码
以下代码启动爬虫的调度程序 –
import boto3
from botocore.exceptions import ClientError
def start_scheduler_of_a_crawler(crawler_name)
session = boto3.session.Session()
glue_client = session.client('glue')
try:
response = glue_client.start_crawler_schedule(CrawlerName=crawler_name)
return response
except ClientError as e:
raise Exception("boto3 client error in start_scheduler_of_a_crawler: " + e.__str__())
except Exception as e:
raise Exception("Unexpected error in start_scheduler_of_a_crawler: " + e.__str__())
print(start_scheduler_of_a_crawler("Data Dimension"))
输出
{'ResponseMetadata': {'RequestId': '73e50130-*****************8e', 'HTTPStatusCode': 200, 'HTTPHeaders': {'date': 'Sun, 28 Mar 2021 07:26:55 GMT', 'content-type': 'application/x-amz-json-1.1', 'content-length': '2', 'connection': 'keep-alive', 'x-amzn-requestid': '73e50130-***************8e'}, 'RetryAttempts': 0}}
极客教程