Scrapy – 概述
Scrapy是一个用Python编写的快速、开源的网络抓取框架,用于在基于XPath的选择器的帮助下从网页上提取数据。
Scrapy于2008年6月26日首次发布,采用BSD授权,2015年6月发布了里程碑式的1.0版本。
为什么使用Scrapy
- 
它更容易建立和扩展大型抓取项目。
 - 
它有一个内置的机制,叫做选择器,用于从网站中提取数据。
 - 
它以异步方式处理请求,速度很快。
 - 
它使用自动节流机制 自动调整爬行速度。
 - 
保证了开发者的可及性。
 
Scrapy的特点
- 
Scrapy是一个开源的、免费使用的网络抓取框架。
 - 
Scrapy生成JSON、CSV和XML等格式的feed输出。
 - 
Scrapy内置支持通过XPath或CSS表达式从源头选择和提取数据。
 - 
Scrapy基于爬虫,可以自动从网页上提取数据。
 
优点
- 
Scrapy易于扩展,速度快,功能强大。
 - 
它是一个跨平台的应用框架(Windows、Linux、Mac OS和BSD)。
 - 
Scrapy的请求是异步安排和处理的。
 - 
Scrapy内置了名为 Scrapyd 的服务,允许上传项目并使用JSON网络服务控制蜘蛛。
 - 
它可以搜刮任何网站,尽管该网站没有原始数据访问的API。
 
缺点
- 
Scrapy只适用于Python 2.7.+
 - 
对于不同的操作系统,安装是不同的。
 
极客教程