Scrapy – Feed exports

Scrapy – Feed exports

描述

Feed exports是一种存储从网站搜刮来的数据的方法,即生成一个 “导出文件”。

序列化格式

使用多种序列化格式和存储后端,Feed Exports使用Item exporters并生成一个带有刮削项目的feed。

下表显示了支持的格式-

序列号 格式和描述
1 JSON FEED_FORMAT是 json 输出器使用的是 scrapy.exporters.JsonItemExporter类
2 JSON行 FEED_FROMAT是 jsonlines ,出口者使用的是 scrapy.exporters.JsonLinesItemExporter类
3 CSV FEED_FORMAT是 CSV Exporter,使用的是 scrapy.exporters.CsvItemExporter类
4 XML FEED_FORMAT是 xml ,使用的是 scrapy.exporters.XmlItemExporter类

使用 FEED_EXPORTERS 设置,也可以扩展支持的格式

序号 格式和描述
1 Pickle FEED_FORMAT是pickel 出口者使用的是 scrapy.exporters.PickleItemExporter类
2 Marshal FEED_FORMAT是marshal格式,出口器使用的是 scrapy.exporters.MarshalItemExporter类

存储后端

存储后端定义了使用URI来存储feed的地方。

下表显示了支持的存储后端。

序号 存储后端和描述
1 本地文件系统 URI方案是 文件 ,它被用来存储饲料。
2 FTP URI方案是 ftp ,它被用来存储饲料。
3 S3 URI方案是 S3 ,feeds存储在Amazon S3上。需要外部库botocore boto
4 标准输出 URI方案是 stdout ,feeds被存储到标准输出。

存储URI参数

以下是存储URL的参数,在创建feed的时候会被替换:

  • %(时间)s:这个参数被替换为时间戳。
  • %(name)s:这个参数会被蜘蛛的名字所取代。

设置

下表显示了可以用来配置Feed导出的设置。

序号 设置和描述
1 FEED_URI 它是用于启用饲料出口的出口饲料的URI。
2 FEED_FORMAT 它是一个用于饲料的序列化格式。
3 FEED_EXPORT_FIELDS 它用于定义需要导出的字段。
4 FEED_STORE_EMPTY 它定义是否导出没有项目的feeds。
5 FEED_STORAGES 它是一个字典,包含额外的饲料存储后端。
6 FEED_STORAGES_BASE 它是一个具有内置feed存储后端的字典。
7 FEED_EXPORTERS 它是一个具有额外饲料出口商的字典。
8 FEED_EXPORTERS_BASE 它是一个具有内置饲料出口商的字典。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程