@songying 2018-07-18T03:39:23.000000Z 字数 383 阅读 1683

选择器(Selectors)

Scrapy

选择器

Scrapy提取数据有自己的一套机制。它们被称作选择器(seletors)，因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML文件中的某个部分。

Scrapy选择器构建于 lxml 库之上，这意味着它们在速度和解析准确性上非常相似。

Scrapy selector是以 文字(text) 或 TextResponse 构造的 Selector 实例。其根据输入的类型自动选择最优的分析方法(XML vs HTML):

from scrapy.selector import Selector
from scrapy.http import HtmlResponse

以文字构造

Selector(text=body).xpath('//span/text()').extract()  # body为html文本