Scrapy – 概述

Scrapy – 概述

Scrapy是一个用Python编写的快速、开源的网络抓取框架,用于在基于XPath的选择器的帮助下从网页上提取数据。

Scrapy于2008年6月26日首次发布,采用BSD授权,2015年6月发布了里程碑式的1.0版本。

为什么使用Scrapy

  • 它更容易建立和扩展大型抓取项目。

  • 它有一个内置的机制,叫做选择器,用于从网站中提取数据。

  • 它以异步方式处理请求,速度很快。

  • 它使用自动节流机制 自动调整爬行速度。

  • 保证了开发者的可及性。

Scrapy的特点

  • Scrapy是一个开源的、免费使用的网络抓取框架。

  • Scrapy生成JSON、CSV和XML等格式的feed输出。

  • Scrapy内置支持通过XPath或CSS表达式从源头选择和提取数据。

  • Scrapy基于爬虫,可以自动从网页上提取数据。

优点

  • Scrapy易于扩展,速度快,功能强大。

  • 它是一个跨平台的应用框架(Windows、Linux、Mac OS和BSD)。

  • Scrapy的请求是异步安排和处理的。

  • Scrapy内置了名为 Scrapyd 的服务,允许上传项目并使用JSON网络服务控制蜘蛛。

  • 它可以搜刮任何网站,尽管该网站没有原始数据访问的API。

缺点

  • Scrapy只适用于Python 2.7.+

  • 对于不同的操作系统,安装是不同的。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程