Scrapy – 其他设置
下表显示了Scrapy的其他设置-
| Sr.No | 设置和描述 | 
|---|---|
| 1 | AJAXCRAWL_ENABLED 它用于启用大型抓取。默认值: 默认值: False | 
| 2 | AUTOTHROTTLE_DEBUG 启用后,可以看到节流参数的实时调整情况,显示每个收到的响应的统计信息。默认值: 默认值: False | 
| 3 | AUTOTHROTTLE_ENABLED 它用于启用自动节流扩展。默认值: 默认值: False | 
| 4 | AUTOTHROTTLE_MAX_DELAY 它用于设置在高延迟情况下的最大下载延迟。默认值:60.0 | 
| 5 | AUTOTHROTTLE_START_DELAY 它用于设置下载的初始延迟。默认值:5.0 | 
| 6 | AUTOTHROTTLE_TARGET_CONCURRENCY 它定义了一个Scrapy向远程站点并行发送的平均请求数。默认值:1.0 | 
| 7 | CLOSESPIDER_ERRORCOUNT 它定义了在蜘蛛被关闭之前应该收到的错误总数。默认值:0 | 
| 8 | CLOSESPIDER_ITEMCOUNT 它定义了在关闭蜘蛛之前的总项目数。默认值:0 | 
| 9 | CLOSESPIDER_PAGECOUNT 它定义了在蜘蛛关闭前要抓取的最大响应数。默认值:0 | 
| 10 | CLOSESPIDER_TIMEOUT 它定义了蜘蛛程序关闭的时间(秒)。默认值:0 | 
| 11 | COMMANDS_MODULE 当你想在你的项目中添加自定义命令时使用。默认值:” | 
| 12 | COMPRESSION_ENABLED 它表示压缩中间件已经启用。默认值: 真 | 
| 13 | COOKIES_DEBUG 如果设置为 “true”,所有在请求中发送和在响应中接收的cookies都会被记录下来。默认值: 默认值: False | 
| 14 | COOKIES_ENABLED 它表示启用cookies中间件,并将其发送到网络服务器。默认值: 默认值: True | 
| 15 | FILES_EXPIRES 它定义了文件过期的延迟。默认值:90天 | 
| 16 | FILES_RESULT_FIELD 当你想为你处理的文件使用其他字段名时,可以设置它。 | 
| 17 | FILES_STORE 它用于存储下载的文件,将其设置为有效值。 | 
| 18 | FILES_STORE_S3_ACL 它用于修改存储在Amazon S3桶中的文件的ACL策略。默认值:私有 | 
| 19 | FILES_URLS_FIELD 当你想用其他字段名来表示你的文件URL时,可以设置这个字段。 | 
| 20 | HTTPCACHE_ALWAYS_STORE 如果启用此设置,Spider将彻底缓存页面。默认值: 默认值: False | 
| 21 | HTTPCACHE_DBM_MODULE 这是在DBM存储后端使用的数据库模块。默认值:’anydbm’。 | 
| 22 | HTTPCACHE_DIR 它是一个用于启用和存储HTTP缓存的目录。默认值:’httpcache’ | 
| 23 | HTTPCACHE_ENABLED 它表示HTTP缓存已经启用。默认值: 默认值: False | 
| 24 | HTTPCACHE_EXPIRATION_SECS 它用于设置HTTP缓存的过期时间。默认值:0 | 
| 25 | HTTPCACHE_GZIP 此项设置如果设置为 “true”,所有的缓存数据都将用gzip压缩。默认值是 默认值: False | 
| 26 | HTTPCACHE_IGNORE_HTTP_CODES 它说明HTTP响应不应该用HTTP代码进行缓存。默认值: [] | 
| 27 | HTTPCACHE_IGNORE_MISSING 该设置如果启用,如果在缓存中没有找到请求,将被忽略。默认值: 默认值: False | 
| 28 | HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS 这是一个包含要忽略的缓存控制的列表。默认值: [] | 
| 29 | HTTPCACHE_IGNORE_SCHEME 它说明HTTP响应不应该用URI方案进行缓存。默认值: [‘file’] | 
| 30 | HTTPCACHE_POLICY 它定义了一个实现缓存策略的类。默认值:’scrapy.extensions.httpcache.DummyPolicy’。 | 
| 31 | HTTPCACHE_STORAGE 它是一个实现缓存存储的类。默认值:’scrapy.extensions.httpcache.FilesystemCacheStorage’。 | 
| 32 | HTTPERROR_ALLOWED_CODES 它是一个列表,用于传递所有非200状态代码的响应。默认值: [] | 
| 33 | HTTPERROR_ALLOW_ALL 此项设置启用后,所有的响应都会被传递,无论其状态代码如何。默认值是 默认值: False | 
| 34 | HTTPPROXY_AUTH_ENCODING 它是用来验证HttpProxyMiddleware上的代理。默认值: “latin-1” | 
| 35 | IMAGES_EXPIRES 它定义了图像过期的延迟。默认值:90天 | 
| 36 | IMAGES_MIN_HEIGHT 它用于放弃使用最小尺寸的图像。 | 
| 37 | IMAGES_MIN_WIDTH 它用于放弃使用最小尺寸的图片,太小的图片。 | 
| 38 | IMAGES_RESULT_FIELD 当你想使用其他字段名来处理你的图像时,它被设置。 | 
| 39 | IMAGES_STORE 用于存储下载的图像,将其设置为一个有效值。 | 
| 40 | IMAGES_STORE_S3_ACL 它用于修改存储在Amazon S3桶中的图像的ACL策略。默认值:私有 | 
| 41 | IMAGES_THUMBS 它被设置为创建下载图像的缩略图。 | 
| 42 | IMAGES_URLS_FIELD 当你想用其他字段名来表示你的图片URL时,可以设置它。 | 
| 43 | MAIL_FROM 发件人使用此设置来发送邮件。默认值:’scrapy@localhost’。 | 
| 44 | MAIL_HOST 它是用于发送邮件的SMTP主机。默认值:’localhost’。 | 
| 45 | MAIL_PASS 它是一个用于验证SMTP的密码。默认值: 无 | 
| 46 | MAIL_PORT 它是一个用于发送邮件的SMTP端口。默认值:25 | 
| 47 | MAIL_SSL 它用于实现使用SSL加密的连接。默认值: 默认值: False | 
| 48 | MAIL_TLS 当启用时,它强制使用STARTTLS连接。默认值: 默认值: False | 
| 49 | MAIL_USER 它定义了一个用户来验证SMTP。默认值: 无 | 
| 50 | METAREFRESH_ENABLED 它表示元刷新中间件已启用。默认值: 真 | 
| 51 | METAREFRESH_MAXDELAY 它是元刷新重定向的最大延迟。默认值: 100 | 
| 52 | REDIRECT_ENABLED 它表示重定向中间件已经启用。默认值: 真 | 
| 53 | REDIRECT_MAX_TIMES 它定义了一个请求重定向的最大次数。默认值:20 | 
| 54 | REFERER_ENABLED 它表示引用者中间件已经启用。默认值: 真 | 
| 55 | RETRY_ENABLED 它表示重试中间件已被启用。默认值: 默认值: True | 
| 56 | RETRY_HTTP_CODES 它定义了哪些HTTP代码将被重试。默认值: [500, 502, 503, 504, 408] | 
| 57 | RETRY_TIMES 它定义了重试的最大次数。默认值:2 | 
| 58 | TELNETCONSOLE_HOST 它定义了telnet控制台必须监听的接口。默认值:’127.0.0.1’。 | 
| 59 | TELNETCONSOLE_PORT 它定义了一个用于telnet控制台的端口。默认值: [6023, 6073] | 
极客教程