Scrapy是一个用Python编写的快速、开源的网络抓取框架,用于在基于XPath的选择器的帮助下从网页上提取数据。
Scrapy于2008年6月26日首次发布,采用BSD授权,2015年6月发布了里程碑式的1.0版本。
为什么使用Scrapy
- 它更容易建立和扩展大型抓取项目。
- 它有一个内置的机制,称为选择器,用于从网站中提取数据。
- 它以异步方式处理请求,速度很快。
- 它使用Auto-throttling机制自动调整爬行速度。
- 确保开发者的可及性。
Scrapy的功能
- Scrapy是一个开源的、免费使用的网络抓取框架。
- Scrapy生成JSON、CSV和XML等格式的feed输出。
- Scrapy内置支持通过XPath或CSS表达式从源头选择和提取数据。
- 基于爬虫的Scrapy,可以自动从网页中提取数据。
Scrapy的优势
- Scrapy易于扩展,速度快,功能强大。
- 它是一个跨平台的应用框架(Windows、Linux、Mac OS和BSD)。
- Scrapy的请求被计划并以异步方式处理。
- Scrapy内置了名为Scrapyd的服务,允许上传项目并使用JSON网络服务控制蜘蛛。
- 它可以爬取任何网站,尽管该网站没有原始数据访问的API。
Scrapy的劣势
- Scrapy只适用于Python 2.7.+
- 不同操作系统的安装是不同的。