@songying
2018-07-18T11:39:23.000000Z
字数 383
阅读 1204
Scrapy
Scrapy提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML文件中的某个部分。
Scrapy选择器构建于 lxml 库之上,这意味着它们在速度和解析准确性上非常相似。
Scrapy selector是以 文字(text) 或 TextResponse
构造的 Selector
实例。 其根据输入的类型自动选择最优的分析方法(XML vs HTML):
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
以文字构造
Selector(text=body).xpath('//span/text()').extract() # body为html文本