Scrapy – 概述

Scrapy是一个用Python编写的快速、开源的网络抓取框架,用于在基于XPath的选择器的帮助下从网页上提取数据。

Scrapy于2008年6月26日首次发布,采用BSD授权,2015年6月发布了里程碑式的1.0版本。

为什么使用Scrapy

  • 它更容易建立和扩展大型抓取项目。
  • 它有一个内置的机制,称为选择器,用于从网站中提取数据。
  • 它以异步方式处理请求,速度很快。
  • 它使用Auto-throttling机制自动调整爬行速度。
  • 确保开发者的可及性。

Scrapy的功能

  • Scrapy是一个开源的、免费使用的网络抓取框架。
  • Scrapy生成JSON、CSV和XML等格式的feed输出。
  • Scrapy内置支持通过XPath或CSS表达式从源头选择和提取数据。
  • 基于爬虫的Scrapy,可以自动从网页中提取数据。

Scrapy的优势

  • Scrapy易于扩展,速度快,功能强大。
  • 它是一个跨平台的应用框架(Windows、Linux、Mac OS和BSD)。
  • Scrapy的请求被计划并以异步方式处理。
  • Scrapy内置了名为Scrapyd的服务,允许上传项目并使用JSON网络服务控制蜘蛛。
  • 它可以爬取任何网站,尽管该网站没有原始数据访问的API。

Scrapy的劣势

  • Scrapy只适用于Python 2.7.+
  • 不同操作系统的安装是不同的。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程