Scrapy – 搜集的数据
描述
存储搜刮数据的最佳方式是使用Feed导出,这可以确保数据使用多种序列化格式被正确存储。JSON、JSON线、CSV、XML是序列化格式中容易支持的格式。可以用以下命令来存储这些数据 −
scrapy crawl dmoz -o data.json
该命令将创建一个 data.json 文件,包含JSON格式的搜刮数据。这种技术对少量的数据很有效。如果需要处理大量的数据,那么我们可以使用项目管线。就像data.json文件一样,在 tutorial/pipelines.py 中创建项目时,也会设置一个保留文件。