导出Feed描述
Feed Exports是一种存储从网站爬取的数据的方法,即生成一个 “export文件”。
序列化格式
使用多种序列化格式和存储后端,Feed Exports使用Item exporters,并生成一个带有搜刮项目的Feed。
下表显示了支持的格式-
格式 | 描述 |
---|---|
JSON | 使用的导出器是scrapy.exporters.JsonItemExporter类 |
JSON lines | 使用的导出器是scrapy.exporters.JsonLinesItemExporter类 |
CSV | 使用的导出器是scrapy.exporters.CsvItemExporter类 |
XML | 使用的导出器是scrapy.exporters.XmlItemExporter类 |
使用FEED_EXPORTERS设置,也可以扩展支持的格式
格式 | 描述 |
---|---|
Pickle | 使用的导出器是scrapy.exporters.PickleItemExporter类 |
Marshal | 使用的导出器是scrapy.exporters.MarshalItemExporter类 |
存储后端
存储后端使用URI定义了存储饲料的位置。
下表显示了支持的存储后端。
存储后端 | 描述 |
---|---|
本地文件系统 | URI方案是文件,它被用来存储feeds |
FTP | URI方案是ftp,它被用来存储feeds |
S3 | URI方案是S3,feeds存储在Amazon S3上。需要外部库botocore或boto |
标准输出 | URI方案是stdout,feeds被存储到标准输出 |
存储URI参数
以下是存储URL的参数,这些参数在创建饲料时被替换。
- %(time)s: 这个参数会被一个时间戳取代.
- %(name)s: 这个参数会被spider的名字所取代.
设置
下表显示了可用于配置饲料出口的设置
设置 | 描述 |
---|---|
FEED_URI | 它是用于启用 feed exports的URI |
FEED_FORMAT | 它是一种用于feed的序列化格式 |
FEED_EXPORT_FIELDS | 它用于定义需要导出的字段 |
FEED_STORE_EMPTY | 它定义了是否要导出没有项目的feed |
FEED_STORAGES | 它是一个带有附加feed存储后端的字典 |
FEED_STORAGES_BASE | 它是一个内置feed存储后端的字典 |
FEED_EXPORTERS | 这是一本带有额外feed出口商的字典 |
FEED_EXPORTERS_BASE | 它是一个内置feed输出器的字典 |