Scrapy – 概述
Scrapy是一个用Python编写的快速、开源的网络抓取框架,用于在基于XPath的选择器的帮助下从网页上提取数据。
Scrapy于2008年6月26日首次发布,采用BSD授权,2015年6月发布了里程碑式的1.0版本。
为什么使用Scrapy
-
它更容易建立和扩展大型抓取项目。
-
它有一个内置的机制,叫做选择器,用于从网站中提取数据。
-
它以异步方式处理请求,速度很快。
-
它使用自动节流机制 自动调整爬行速度。
-
保证了开发者的可及性。
Scrapy的特点
-
Scrapy是一个开源的、免费使用的网络抓取框架。
-
Scrapy生成JSON、CSV和XML等格式的feed输出。
-
Scrapy内置支持通过XPath或CSS表达式从源头选择和提取数据。
-
Scrapy基于爬虫,可以自动从网页上提取数据。
优点
-
Scrapy易于扩展,速度快,功能强大。
-
它是一个跨平台的应用框架(Windows、Linux、Mac OS和BSD)。
-
Scrapy的请求是异步安排和处理的。
-
Scrapy内置了名为 Scrapyd 的服务,允许上传项目并使用JSON网络服务控制蜘蛛。
-
它可以搜刮任何网站,尽管该网站没有原始数据访问的API。
缺点
-
Scrapy只适用于Python 2.7.+
-
对于不同的操作系统,安装是不同的。