Scrapy css 语法,可以采用Selector.css()
获取SelectorList对象, 本章介绍了scrapy css的使用方法和具体语法。
Scrapy CSS使用方法
如下为Scrapy CSS的使用方法:
- response.css(‘a’)返回的是selector对象,
- response.css(‘a’).extract()返回的是a标签对象
- response.css(‘a::text’).extract_first()返回的是第一个a标签中文本的值
- response.css(‘a::attr(href)’).extract_first()返回的是第一个a标签中href属性的值
- response.css(‘a[href*=image]::attr(href)’).extract()返回所有a标签中href属性包含image的值
- response.css(‘a[href*=image] img::attr(src)’).extract()返回所有a标签下image标签的src属性
Scrapy CSS 基本语法
Scrapy CSS 的基本语法参考如下表格:
语法 | 说明 |
---|---|
* | 选择所有节点 |
#container | 选择id为container的节点 |
.container | 选择所有class包含container的节点 |
div,p | 选择所有 div 元素和 所有 p 元素 |
li a | 选取所有li 下所有a节点 |
ul + p | 选取ul后面的第一个p元素 |
div#container > ul | 选取id为container的div的第一个ul子元素 |
ul ~p | 选取与ul相邻的所有p元素 |
a[title] | 选取所有有title属性的a元素 |
a[href=”http://baidu.com”] | 选取所有href属性为http://baidu.com的a元素 |
a[href*=”baidu”] | 选取所有href属性值中包含baidu的a元素 |
a[href^=”http”] | 选取所有href属性值中以http开头的a元素 |
a[href$=”.jpg”] | 选取所有href属性值中以.jpg结尾的a元素 |
input[type=radio]:checked | 选择选中的radio的元素 |
div:not(#container) | 选取所有id为非container 的div属性 |
li:nth-child(3) | 选取第三个li元素 |
li:nth-child(2n) | 选取第偶数个li元素 |
a::attr(href) | 选取a标签的href属性 |
a::text | 选取a标签下的文本 |
更多语法参考如下表格:
选择器
是一种模式,用于选择需要添加样式的元素。
CSS列
指示该属性是在哪个 CSS 版本中定义的。(CSS1、CSS2 还是 CSS3)
选择器 | 例子 | 例子描述 | CSS |
---|---|---|---|
.class | .intro | 选择 class=”intro” 的所有元素。 | 1 |
#id | #firstname | 选择 id=”firstname” 的所有元素。 | 1 |
* | * | 选择所有元素。 | 2 |
element | p | 选择所有 <p> 元素。 |
1 |
element,element | div,p | 选择所有<div> 元素和所有<p> 元素。 |
1 |
element element] | div p | 选择<div> 元素内部的所有<p> 元素。 |
1 |
element>element | div>p | 选择父元素为 <div> 元素的所有<p> 元素。 |
2 |
element+element | div+p | 选择紧接在<div> 元素之后的所有 <p> 元素。 |
2 |
[attribute] | [target] | 选择带有 target 属性所有元素。 | 2 |
[attribute=value] | [target=_blank] | 选择 target=”_blank” 的所有元素。 | 2 |
[attribute~=value] | [title~=flower] | 选择 title 属性包含单词 “flower” 的所有元素。 | 2 |
[attribute|=value] | [lang|=en] | 选择 lang 属性值以 “en” 开头的所有元素。 | 2 |
:link | a:link | 选择所有未被访问的链接。 | 1 |
:visited | a:visited | 选择所有已被访问的链接。 | 1 |
:active | a:active | 选择活动链接。 | 1 |
:hover | a:hover | 选择鼠标指针位于其上的链接。 | 1 |
:focus | input:focus | 选择获得焦点的 input 元素。 | 2 |
:first-letter | p:first-letter | 选择每个 <p> 元素的首字母。 |
1 |
:first-line | p:first-line | 选择每个 <p> 元素的首行。 |
1 |
:first-child | p:first-child | 选择属于父元素的第一个子元素的每个 <p> 元素。 |
2 |
:before | p:before | 在每个 <p> 元素的内容之前插入内容。 |
2 |
:after | p:after | 在每个<p> 元素的内容之后插入内容。 |
2 |
:lang(language) | p:lang(it) | 选择带有以 “it” 开头的 lang 属性值的每个<p> 元素。 |
2 |
element1~element2 | p~ul | 选择前面有 <p> 元素的每个 <ul> 元素。 |
3 |
[attribute^=value] | a[src^=”https”] | 选择其 src 属性值以 “https” 开头的每个 <a> 元素。 |
3 |
[attribute$=value] | a[src$=”.pdf”] | 选择其 src 属性以 “.pdf” 结尾的所有 <a> 元素。 |
3 |
[attribute*=value] | a[src*=”abc”] | 选择其 src 属性中包含 “abc” 子串的每个 <a> 元素。 |
3 |
:first-of-type | p:first-of-type | 选择属于其父元素的首个 <p> 元素的每个 <p> 元素。 |
3 |
:last-of-type | p:last-of-type | 选择属于其父元素的最后 <p> 元素的每个 <p> 元素。 |
3 |
:only-of-type | p:only-of-type | 选择属于其父元素唯一的 <p> 元素的每个 <p> 元素。 |
3 |
:only-child | p:only-child | 选择属于其父元素的唯一子元素的每个 <p> 元素。 |
3 |
:nth-child(n) | p:nth-child(2) | 选择属于其父元素的第二个子元素的每个 <p> 元素。 |
3 |
:nth-last-child(n) | p:nth-last-child(2) | 同上,从最后一个子元素开始计数。 | 3 |
:nth-of-type(n) | p:nth-of-type(2) | 选择属于其父元素第二个 <p> 元素的每个 <p> 元素。 |
3 |
:nth-last-of-type(n) | p:nth-last-of-type(2) | 同上,但是从最后一个子元素开始计数。 | 3 |
:last-child | p:last-child | 选择属于其父元素最后一个子元素每个 <p> 元素。 |
3 |
:root | :root | 选择文档的根元素。 | 3 |
:empty | p:empty | 选择没有子元素的每个 <p> 元素(包括文本节点)。 |
3 |
:target | #news:target | 选择当前活动的 #news 元素。 | 3 |
:enabled | input:enabled | 选择每个启用的 <input> 元素。 |
3 |
:disabled | input:disabled | 选择每个禁用的 <input> 元素 |
3 |
:checked | input:checked | 选择每个被选中的 <input> 元素。 |
3 |
:not(selector) | :not(p) | 选择非 <p> 元素的每个元素。 |
3 |
::selection | ::selection | 选择被用户选取的元素部分。 | 3 |