Scrapy xpath语法,Xpath是XML Path的简介,基于XML树状结构,可以在整个树中寻找锁定目标节点。由于HTML文档本身就是一个标准的XML页面,因此我们可以使用XPath的语法来定位页面元素。
Xpath 路径表达式
| 表达式 | 描述 | 实例 |
|---|---|---|
| nodename | 选取nodename节点的所有子节点 | //div |
| / | 从根节点选取 | /div |
| // | 选取任意位置的节点,不考虑他们的位置 | //div |
| . | 选取当前节点 | ./div |
| .. | 选取当前节点的父节点 | .. |
| @ | 选取属性 | //@calss |
举例元素为artical标签:
| 语法 | 说明 |
|---|---|
| artical | 选取所有artical元素的子节点 |
| /artical | 选取根元素artical |
| ./artical | 选取当前元素下的artical |
| ../artical | 选取父元素下的artical |
| artical/a | 选取所有属于artical的子元素a元素 |
| //div | 选取所有div 子元素,无论div在任何地方 |
| artical//div | 选取所有属于artical的div 元素,无论div元素在artical的任何位置 |
| //@class | 选取所有class属性 |
| a/@href | 选取a标签的href属性 |
| a/text() | 选取a标签下的文本 |
| string(.) | 解析出当前节点下所有文字 |
| string(..) | 解析出父节点下所有文字 |
更多实例:

Xpath 谓语
谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点
| 语法 | 说明 |
|---|---|
| /artical/div[1] | 选取所有属于artical 子元素的第一个div元素 |
| /artical/div[last()] | 选取所有属于artical子元素的最后一个div元素 |
| /artical/div[last()-1] | 选取所有属于artical子元素的倒数第2个div元素 |
| /artical/div[position()<3] | 选取所有属于artical子元素的前2个div元素 |
| //div[@class] | 选取所有拥有属性为class的div节点 |
| //div[@class=”main”] | 选取所有div下class属性为main的div节点 |
| //div[price>3.5] | 选取所有div下元素值price大于3.5的div节点 |
Xpath 通配符
Xpath通过通配符来选取未知的XML元素
| 表达式 | 结果 |
|---|---|
| //* | 选取所有元素 |
| //div/* | 选取所有属于div元素的所有子节点 |
| //div[@*] | 选取所有带属性的元素 |
Xpath 取多个路径
使用 | 运算符可以选取多个路径
| 表达式 | 结果 |
|---|---|
| //div | //table | 选取文档中所有的div和table节点 |
| //div/a | //div/p | 选取所有div元素的a和p 元素 |
| artical/div/pl | //span | 选取所有div下的pl和文档中所有span |
Xpath 轴
轴可以定义相对于当前节点的节点集
| 轴名称 | 表达式 | 描述 |
|---|---|---|
| ancestor | ./ancestor::* | 选取当前节点的所有先辈节点(父、祖父) |
| ancestor-or-self | ./ancestor-or-self::* | 选取当前节点的所有先辈节点以及节点本身 |
| descendant | ./descendant::* | 返回当前节点的所有后代节点(子节点、孙节点) |
| child | ./child::* | 返回当前节点的所有子节点 |
| parent | ./parent::* | 选取当前节点的父节点 |
| following | ./following::* | 选取文档中当前节点结束标签后的所有节点 |
| following-sibling | ./following-sibling::* | 选取当前节点之后的兄弟节点 |
| preceding | ./preceding::* | 选取文档中当前节点开始标签前的所有节点 |
| preceding-sibling | ./preceding-sibling::* | 选取当前节点之前的兄弟节点 |
| self | ./self::* | 选取当前节点 |
| attribute | ./attribute::* | 选取当前节点的所有属性 |
极客教程