Scrapy – 导出Feed

导出Feed描述

Feed Exports是一种存储从网站爬取的数据的方法,即生成一个 “export文件”。

序列化格式

使用多种序列化格式和存储后端,Feed Exports使用Item exporters,并生成一个带有搜刮项目的Feed。

下表显示了支持的格式-

格式 描述
JSON 使用的导出器是scrapy.exporters.JsonItemExporter类
JSON lines 使用的导出器是scrapy.exporters.JsonLinesItemExporter类
CSV 使用的导出器是scrapy.exporters.CsvItemExporter类
XML 使用的导出器是scrapy.exporters.XmlItemExporter类

使用FEED_EXPORTERS设置,也可以扩展支持的格式

格式 描述
Pickle 使用的导出器是scrapy.exporters.PickleItemExporter类
Marshal 使用的导出器是scrapy.exporters.MarshalItemExporter类

存储后端

存储后端使用URI定义了存储饲料的位置。

下表显示了支持的存储后端。

存储后端 描述
本地文件系统 URI方案是文件,它被用来存储feeds
FTP URI方案是ftp,它被用来存储feeds
S3 URI方案是S3,feeds存储在Amazon S3上。需要外部库botocoreboto
标准输出 URI方案是stdout,feeds被存储到标准输出

存储URI参数

以下是存储URL的参数,这些参数在创建饲料时被替换。

  • %(time)s: 这个参数会被一个时间戳取代.
  • %(name)s: 这个参数会被spider的名字所取代.

设置

下表显示了可用于配置饲料出口的设置

设置 描述
FEED_URI 它是用于启用 feed exports的URI
FEED_FORMAT 它是一种用于feed的序列化格式
FEED_EXPORT_FIELDS 它用于定义需要导出的字段
FEED_STORE_EMPTY 它定义了是否要导出没有项目的feed
FEED_STORAGES 它是一个带有附加feed存储后端的字典
FEED_STORAGES_BASE 它是一个内置feed存储后端的字典
FEED_EXPORTERS 这是一本带有额外feed出口商的字典
FEED_EXPORTERS_BASE 它是一个内置feed输出器的字典

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程