Scrapy – 搜集的数据

Scrapy – 搜集的数据

描述

存储搜刮数据的最佳方式是使用Feed导出,这可以确保数据使用多种序列化格式被正确存储。JSON、JSON线、CSV、XML是序列化格式中容易支持的格式。可以用以下命令来存储这些数据 −

scrapy crawl dmoz -o data.json

该命令将创建一个 data.json 文件,包含JSON格式的搜刮数据。这种技术对少量的数据很有效。如果需要处理大量的数据,那么我们可以使用项目管线。就像data.json文件一样,在 tutorial/pipelines.py 中创建项目时,也会设置一个保留文件。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程