Scrapy – 其他设置

Scrapy – 其他设置

下表显示了Scrapy的其他设置-

Sr.No 设置和描述
1 AJAXCRAWL_ENABLED 它用于启用大型抓取。默认值: 默认值: False
2 AUTOTHROTTLE_DEBUG 启用后,可以看到节流参数的实时调整情况,显示每个收到的响应的统计信息。默认值: 默认值: False
3 AUTOTHROTTLE_ENABLED 它用于启用自动节流扩展。默认值: 默认值: False
4 AUTOTHROTTLE_MAX_DELAY 它用于设置在高延迟情况下的最大下载延迟。默认值:60.0
5 AUTOTHROTTLE_START_DELAY 它用于设置下载的初始延迟。默认值:5.0
6 AUTOTHROTTLE_TARGET_CONCURRENCY 它定义了一个Scrapy向远程站点并行发送的平均请求数。默认值:1.0
7 CLOSESPIDER_ERRORCOUNT 它定义了在蜘蛛被关闭之前应该收到的错误总数。默认值:0
8 CLOSESPIDER_ITEMCOUNT 它定义了在关闭蜘蛛之前的总项目数。默认值:0
9 CLOSESPIDER_PAGECOUNT 它定义了在蜘蛛关闭前要抓取的最大响应数。默认值:0
10 CLOSESPIDER_TIMEOUT 它定义了蜘蛛程序关闭的时间(秒)。默认值:0
11 COMMANDS_MODULE 当你想在你的项目中添加自定义命令时使用。默认值:”
12 COMPRESSION_ENABLED 它表示压缩中间件已经启用。默认值: 真
13 COOKIES_DEBUG 如果设置为 “true”,所有在请求中发送和在响应中接收的cookies都会被记录下来。默认值: 默认值: False
14 COOKIES_ENABLED 它表示启用cookies中间件,并将其发送到网络服务器。默认值: 默认值: True
15 FILES_EXPIRES 它定义了文件过期的延迟。默认值:90天
16 FILES_RESULT_FIELD 当你想为你处理的文件使用其他字段名时,可以设置它。
17 FILES_STORE 它用于存储下载的文件,将其设置为有效值。
18 FILES_STORE_S3_ACL 它用于修改存储在Amazon S3桶中的文件的ACL策略。默认值:私有
19 FILES_URLS_FIELD 当你想用其他字段名来表示你的文件URL时,可以设置这个字段。
20 HTTPCACHE_ALWAYS_STORE 如果启用此设置,Spider将彻底缓存页面。默认值: 默认值: False
21 HTTPCACHE_DBM_MODULE 这是在DBM存储后端使用的数据库模块。默认值:’anydbm’。
22 HTTPCACHE_DIR 它是一个用于启用和存储HTTP缓存的目录。默认值:’httpcache’
23 HTTPCACHE_ENABLED 它表示HTTP缓存已经启用。默认值: 默认值: False
24 HTTPCACHE_EXPIRATION_SECS 它用于设置HTTP缓存的过期时间。默认值:0
25 HTTPCACHE_GZIP 此项设置如果设置为 “true”,所有的缓存数据都将用gzip压缩。默认值是 默认值: False
26 HTTPCACHE_IGNORE_HTTP_CODES 它说明HTTP响应不应该用HTTP代码进行缓存。默认值: []
27 HTTPCACHE_IGNORE_MISSING 该设置如果启用,如果在缓存中没有找到请求,将被忽略。默认值: 默认值: False
28 HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS 这是一个包含要忽略的缓存控制的列表。默认值: []
29 HTTPCACHE_IGNORE_SCHEME 它说明HTTP响应不应该用URI方案进行缓存。默认值: [‘file’]
30 HTTPCACHE_POLICY 它定义了一个实现缓存策略的类。默认值:’scrapy.extensions.httpcache.DummyPolicy’。
31 HTTPCACHE_STORAGE 它是一个实现缓存存储的类。默认值:’scrapy.extensions.httpcache.FilesystemCacheStorage’。
32 HTTPERROR_ALLOWED_CODES 它是一个列表,用于传递所有非200状态代码的响应。默认值: []
33 HTTPERROR_ALLOW_ALL 此项设置启用后,所有的响应都会被传递,无论其状态代码如何。默认值是 默认值: False
34 HTTPPROXY_AUTH_ENCODING 它是用来验证HttpProxyMiddleware上的代理。默认值: “latin-1”
35 IMAGES_EXPIRES 它定义了图像过期的延迟。默认值:90天
36 IMAGES_MIN_HEIGHT 它用于放弃使用最小尺寸的图像。
37 IMAGES_MIN_WIDTH 它用于放弃使用最小尺寸的图片,太小的图片。
38 IMAGES_RESULT_FIELD 当你想使用其他字段名来处理你的图像时,它被设置。
39 IMAGES_STORE 用于存储下载的图像,将其设置为一个有效值。
40 IMAGES_STORE_S3_ACL 它用于修改存储在Amazon S3桶中的图像的ACL策略。默认值:私有
41 IMAGES_THUMBS 它被设置为创建下载图像的缩略图。
42 IMAGES_URLS_FIELD 当你想用其他字段名来表示你的图片URL时,可以设置它。
43 MAIL_FROM 发件人使用此设置来发送邮件。默认值:’scrapy@localhost’。
44 MAIL_HOST 它是用于发送邮件的SMTP主机。默认值:’localhost’。
45 MAIL_PASS 它是一个用于验证SMTP的密码。默认值: 无
46 MAIL_PORT 它是一个用于发送邮件的SMTP端口。默认值:25
47 MAIL_SSL 它用于实现使用SSL加密的连接。默认值: 默认值: False
48 MAIL_TLS 当启用时,它强制使用STARTTLS连接。默认值: 默认值: False
49 MAIL_USER 它定义了一个用户来验证SMTP。默认值: 无
50 METAREFRESH_ENABLED 它表示元刷新中间件已启用。默认值: 真
51 METAREFRESH_MAXDELAY 它是元刷新重定向的最大延迟。默认值: 100
52 REDIRECT_ENABLED 它表示重定向中间件已经启用。默认值: 真
53 REDIRECT_MAX_TIMES 它定义了一个请求重定向的最大次数。默认值:20
54 REFERER_ENABLED 它表示引用者中间件已经启用。默认值: 真
55 RETRY_ENABLED 它表示重试中间件已被启用。默认值: 默认值: True
56 RETRY_HTTP_CODES 它定义了哪些HTTP代码将被重试。默认值: [500, 502, 503, 504, 408]
57 RETRY_TIMES 它定义了重试的最大次数。默认值:2
58 TELNETCONSOLE_HOST 它定义了telnet控制台必须监听的接口。默认值:’127.0.0.1’。
59 TELNETCONSOLE_PORT 它定义了一个用于telnet控制台的端口。默认值: [6023, 6073]

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程