Scrapy 爬取图片方法二,本章采用系统方法爬取图片,前一章节的方法虽然能爬取下来图片,但是图片的名字是scrapy 根据某些规则(哈希) 为我们命名的,但是我们想用图片原本的名字进行命名时,这种方法就明显不行了, 这时就需要另外一种办法来解决。
下面将以站长素材网为例,爬取图标,并根据名字保存下来。
编辑 Spider
前面已经介绍了如何创建scapy的方法,这里不再赘述,还是和前一章节,使用xpath提取我们想要的数据。
创建爬虫项目
创建爬虫
通过xpath
提取数据,这里我们需要两个数据,一个是标题,一个是每一个图片的链接地址
配置settings
在settings.py里进行设置,大致在67行前后的位置
编辑 pipelines
关于下载的函数, 我们进入到pipelines.py
文件进行修改(也可以全部重写),但是函数的名字是固定的。
查看运行结果
命令行执行指令运行爬虫
看到运行结果如图所示,恭喜你,图像爬取成功!