Scrapy – 其他设置
下表显示了Scrapy的其他设置-
Sr.No | 设置和描述 |
---|---|
1 | AJAXCRAWL_ENABLED 它用于启用大型抓取。默认值: 默认值: False |
2 | AUTOTHROTTLE_DEBUG 启用后,可以看到节流参数的实时调整情况,显示每个收到的响应的统计信息。默认值: 默认值: False |
3 | AUTOTHROTTLE_ENABLED 它用于启用自动节流扩展。默认值: 默认值: False |
4 | AUTOTHROTTLE_MAX_DELAY 它用于设置在高延迟情况下的最大下载延迟。默认值:60.0 |
5 | AUTOTHROTTLE_START_DELAY 它用于设置下载的初始延迟。默认值:5.0 |
6 | AUTOTHROTTLE_TARGET_CONCURRENCY 它定义了一个Scrapy向远程站点并行发送的平均请求数。默认值:1.0 |
7 | CLOSESPIDER_ERRORCOUNT 它定义了在蜘蛛被关闭之前应该收到的错误总数。默认值:0 |
8 | CLOSESPIDER_ITEMCOUNT 它定义了在关闭蜘蛛之前的总项目数。默认值:0 |
9 | CLOSESPIDER_PAGECOUNT 它定义了在蜘蛛关闭前要抓取的最大响应数。默认值:0 |
10 | CLOSESPIDER_TIMEOUT 它定义了蜘蛛程序关闭的时间(秒)。默认值:0 |
11 | COMMANDS_MODULE 当你想在你的项目中添加自定义命令时使用。默认值:” |
12 | COMPRESSION_ENABLED 它表示压缩中间件已经启用。默认值: 真 |
13 | COOKIES_DEBUG 如果设置为 “true”,所有在请求中发送和在响应中接收的cookies都会被记录下来。默认值: 默认值: False |
14 | COOKIES_ENABLED 它表示启用cookies中间件,并将其发送到网络服务器。默认值: 默认值: True |
15 | FILES_EXPIRES 它定义了文件过期的延迟。默认值:90天 |
16 | FILES_RESULT_FIELD 当你想为你处理的文件使用其他字段名时,可以设置它。 |
17 | FILES_STORE 它用于存储下载的文件,将其设置为有效值。 |
18 | FILES_STORE_S3_ACL 它用于修改存储在Amazon S3桶中的文件的ACL策略。默认值:私有 |
19 | FILES_URLS_FIELD 当你想用其他字段名来表示你的文件URL时,可以设置这个字段。 |
20 | HTTPCACHE_ALWAYS_STORE 如果启用此设置,Spider将彻底缓存页面。默认值: 默认值: False |
21 | HTTPCACHE_DBM_MODULE 这是在DBM存储后端使用的数据库模块。默认值:’anydbm’。 |
22 | HTTPCACHE_DIR 它是一个用于启用和存储HTTP缓存的目录。默认值:’httpcache’ |
23 | HTTPCACHE_ENABLED 它表示HTTP缓存已经启用。默认值: 默认值: False |
24 | HTTPCACHE_EXPIRATION_SECS 它用于设置HTTP缓存的过期时间。默认值:0 |
25 | HTTPCACHE_GZIP 此项设置如果设置为 “true”,所有的缓存数据都将用gzip压缩。默认值是 默认值: False |
26 | HTTPCACHE_IGNORE_HTTP_CODES 它说明HTTP响应不应该用HTTP代码进行缓存。默认值: [] |
27 | HTTPCACHE_IGNORE_MISSING 该设置如果启用,如果在缓存中没有找到请求,将被忽略。默认值: 默认值: False |
28 | HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS 这是一个包含要忽略的缓存控制的列表。默认值: [] |
29 | HTTPCACHE_IGNORE_SCHEME 它说明HTTP响应不应该用URI方案进行缓存。默认值: [‘file’] |
30 | HTTPCACHE_POLICY 它定义了一个实现缓存策略的类。默认值:’scrapy.extensions.httpcache.DummyPolicy’。 |
31 | HTTPCACHE_STORAGE 它是一个实现缓存存储的类。默认值:’scrapy.extensions.httpcache.FilesystemCacheStorage’。 |
32 | HTTPERROR_ALLOWED_CODES 它是一个列表,用于传递所有非200状态代码的响应。默认值: [] |
33 | HTTPERROR_ALLOW_ALL 此项设置启用后,所有的响应都会被传递,无论其状态代码如何。默认值是 默认值: False |
34 | HTTPPROXY_AUTH_ENCODING 它是用来验证HttpProxyMiddleware上的代理。默认值: “latin-1” |
35 | IMAGES_EXPIRES 它定义了图像过期的延迟。默认值:90天 |
36 | IMAGES_MIN_HEIGHT 它用于放弃使用最小尺寸的图像。 |
37 | IMAGES_MIN_WIDTH 它用于放弃使用最小尺寸的图片,太小的图片。 |
38 | IMAGES_RESULT_FIELD 当你想使用其他字段名来处理你的图像时,它被设置。 |
39 | IMAGES_STORE 用于存储下载的图像,将其设置为一个有效值。 |
40 | IMAGES_STORE_S3_ACL 它用于修改存储在Amazon S3桶中的图像的ACL策略。默认值:私有 |
41 | IMAGES_THUMBS 它被设置为创建下载图像的缩略图。 |
42 | IMAGES_URLS_FIELD 当你想用其他字段名来表示你的图片URL时,可以设置它。 |
43 | MAIL_FROM 发件人使用此设置来发送邮件。默认值:’scrapy@localhost’。 |
44 | MAIL_HOST 它是用于发送邮件的SMTP主机。默认值:’localhost’。 |
45 | MAIL_PASS 它是一个用于验证SMTP的密码。默认值: 无 |
46 | MAIL_PORT 它是一个用于发送邮件的SMTP端口。默认值:25 |
47 | MAIL_SSL 它用于实现使用SSL加密的连接。默认值: 默认值: False |
48 | MAIL_TLS 当启用时,它强制使用STARTTLS连接。默认值: 默认值: False |
49 | MAIL_USER 它定义了一个用户来验证SMTP。默认值: 无 |
50 | METAREFRESH_ENABLED 它表示元刷新中间件已启用。默认值: 真 |
51 | METAREFRESH_MAXDELAY 它是元刷新重定向的最大延迟。默认值: 100 |
52 | REDIRECT_ENABLED 它表示重定向中间件已经启用。默认值: 真 |
53 | REDIRECT_MAX_TIMES 它定义了一个请求重定向的最大次数。默认值:20 |
54 | REFERER_ENABLED 它表示引用者中间件已经启用。默认值: 真 |
55 | RETRY_ENABLED 它表示重试中间件已被启用。默认值: 默认值: True |
56 | RETRY_HTTP_CODES 它定义了哪些HTTP代码将被重试。默认值: [500, 502, 503, 504, 408] |
57 | RETRY_TIMES 它定义了重试的最大次数。默认值:2 |
58 | TELNETCONSOLE_HOST 它定义了telnet控制台必须监听的接口。默认值:’127.0.0.1’。 |
59 | TELNETCONSOLE_PORT 它定义了一个用于telnet控制台的端口。默认值: [6023, 6073] |