@EggGump
2018-07-02T15:45:12.000000Z
字数 7460
阅读 529
scrapy
body = '<html><body><span>good</span></body></html>'
Selector(text=body).xpath('//span/text()').extract()
response = HtmlResponse(url='http://example.com', body=body)
Selector(response=response).xpath('//span/text()').extract()
selector有两程构造方式,文字、response
示例html
<html>
<head>
<base href='http://example.com/' />
<title>Example website</title>
</head>
<body>
<div id='images'>
<a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
<a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
<a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
<a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
<a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
</div>
</body>
</html>
打开shell
scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html
使用示例
response.selector.xpath('//title/text()')
[<Selector (text) xpath=//title/text()>]
>>> response.xpath('//title/text()')
[<Selector (text) xpath=//title/text()>]
>>> response.css('title::text')
[<Selector (text) xpath=//title/text()>]
如你所见, .xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。这个API可以用来快速的提取嵌套数据。
为了提取真实的原文数据,你需要调用 .extract() 方法如下:
>>> response.xpath('//title/text()').extract()
[u'Example website']
注意CSS选择器可以使用CSS3伪元素(pseudo-elements)来选择文字或者属性节点:
>>> response.css('title::text').extract()
[u'Example website']
现在我们将得到根URL(base URL)和一些图片链接
>>> response.xpath('//base/@href').extract()
[u'http://example.com/']
>>> response.css('base::attr(href)').extract()
[u'http://example.com/']
>>> response.xpath('//a[contains(@href, "image")]/@href').extract()
[u'image1.html',
u'image2.html',
u'image3.html',
u'image4.html',
u'image5.html']
>>> response.css('a[href*=image]::attr(href)').extract()
[u'image1.html',
u'image2.html',
u'image3.html',
u'image4.html',
u'image5.html']
>>> response.xpath('//a[contains(@href, "image")]/img/@src').extract()
[u'image1_thumb.jpg',
u'image2_thumb.jpg',
u'image3_thumb.jpg',
u'image4_thumb.jpg',
u'image5_thumb.jpg']
>>> response.css('a[href*=image] img::attr(src)').extract()
[u'image1_thumb.jpg',
u'image2_thumb.jpg',
u'image3_thumb.jpg',
u'image4_thumb.jpg',
u'image5_thumb.jpg']
选择器方法( .xpath() or .css() )返回相同类型的选择器列表,因此你也可以对这些选择器调用选择器方法。下面是一个例子:
>>> links = response.xpath('//a[contains(@href, "image")]')
>>> links.extract()
[u'<a href="image1.html">Name: My image 1 <br><img src="image1_thumb.jpg"></a>',
u'<a href="image2.html">Name: My image 2 <br><img src="image2_thumb.jpg"></a>',
u'<a href="image3.html">Name: My image 3 <br><img src="image3_thumb.jpg"></a>',
u'<a href="image4.html">Name: My image 4 <br><img src="image4_thumb.jpg"></a>',
u'<a href="image5.html">Name: My image 5 <br><img src="image5_thumb.jpg"></a>']
>>> for index, link in enumerate(links):
args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract())
print 'Link number %d points to url %s and image %s' % args
Link number 0 points to url [u'image1.html'] and image [u'image1_thumb.jpg']
Link number 1 points to url [u'image2.html'] and image [u'image2_thumb.jpg']
Link number 2 points to url [u'image3.html'] and image [u'image3_thumb.jpg']
Link number 3 points to url [u'image4.html'] and image [u'image4_thumb.jpg']
Link number 4 points to url [u'image5.html'] and image [u'image5_thumb.jpg']
Selector 也有一个 .re() 方法,用来通过正则表达式来提取数据。然而,不同于使用 .xpath() 或者 .css() 方法, .re() 方法返回unicode字符串的列表。所以你无法构造嵌套式的 .re() 调用。
下面是一个例子,从上面的 HTML code 中提取图像名字:
>>> response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
[u'My image 1',
u'My image 2',
u'My image 3',
u'My image 4',
u'My image 5']
记住如果你使用嵌套的选择器,并使用起始为 / 的XPath,那么该XPath将对文档使用绝对路径,而且对于你调用的 Selector 不是相对路径。
比如,假设你想提取在
元素。首先,你将先得到所有的
>>> divs = response.xpath('//div')
开始时,你可能会尝试使用下面的错误的方法,因为它其实是从整篇文档中,而不仅仅是从那些
元素:
for p in divs.xpath('//p'):
# this is wrong - gets all <p> from the whole document
print p.extract()
下面是比较合适的处理方法(注意 .//p XPath的点前缀):
>>> for p in divs.xpath('.//p'): # extracts all <p> inside
... print p.extract()
另一种常见的情况将是提取所有直系
的结果:
>>> for p in divs.xpath('p'):
... print p.extract()
例如在XPath的 starts-with() 或 contains() 无法满足需求时, test() 函数可以非常有用。
>>> from scrapy import Selector
>>> doc = """
... <div>
... <ul>
... <li class="item-0"><a href="link1.html">first item</a></li>
... <li class="item-1"><a href="link2.html">second item</a></li>
... <li class="item-inactive"><a href="link3.html">third item</a></li>
... <li class="item-1"><a href="link4.html">fourth item</a></li>
... <li class="item-0"><a href="link5.html">fifth item</a></li>
... </ul>
... </div>
... """
>>> sel = Selector(text=doc, type="html")
>>> sel.xpath('//li//@href').extract()
[u'link1.html', u'link2.html', u'link3.html', u'link4.html', u'link5.html']
>>> sel.xpath('//li[re:test(@class, "item-\d$")]//@href').extract()
[u'link1.html', u'link2.html', u'link4.html', u'link5.html']
>>>
集合操作
集合操作可以方便地用于在提取文字元素前从文档树中去除一些部分。
例如使用itemscopes组和对应的itemprops来提取微数据(来自http://schema.org/Product的样本内容):
这个没看懂,不贴了
Selector 的实例是对选择某些内容响应的封装。
response 是 HtmlResponse 或 XmlResponse 的一个对象,将被用来选择和提取数据。
text 是在 response 不可用时的一个unicode字符串或utf-8编码的文字。将 text 和 response 一起使用是未定义行为。
type 定义了选择器类型,可以是 "html", "xml" or None (默认).
如果 type 是 None ,选择器会根据 response 类型(参见下面)自动选择最佳的类型,或者在和 text 一起使用时,默认为 "html" 。
如果 type 是 None ,并传递了一个 response ,选择器类型将从response类型中推导如下:
"html" for HtmlResponse type
"xml" for XmlResponse type
"html" for anything else
其他情况下,如果设定了 type ,选择器类型将被强制设定,而不进行检测。
寻找可以匹配xpath query 的节点,并返回 SelectorList 的一个实例结果,单一化其所有元素。列表元素也实现了 Selector 的接口。
query 是包含XPATH查询请求的字符串。
注解
为了方便起见,该方法也可以通过 response.xpath() 调用
应用给定的CSS选择器,返回 SelectorList 的一个实例。
query 是一个包含CSS选择器的字符串。
在后台,通过 cssselect 库和运行 .xpath() 方法,CSS查询会被转换为XPath查询。
注解
为了方便起见,该方法也可以通过 response.css() 调用
串行化并将匹配到的节点返回一个unicode字符串列表。 结尾是编码内容的百分比。
re(regex)
应用给定的regex,并返回匹配到的unicode字符串列表。、
regex 可以是一个已编译的正则表达式,也可以是一个将被 re.compile(regex) 编译为正则表达式的字符串。
register_namespace(prefix, uri)
注册给定的命名空间,其将在 Selector 中使用。 不注册命名空间,你将无法从非标准命名空间中选择或提取数据。参见下面的例子。
remove_namespaces()
移除所有的命名空间,允许使用少量的命名空间xpaths遍历文档。参加下面的例子。
nonzero()
如果选择了任意的真实文档,将返回 True ,否则返回 False 。 也就是说, Selector 的布尔值是通过它选择的内容确定的。
class scrapy.selector.SelectorList
SelectorList 类是内建 list 类的子类,提供了一些额外的方法。
xpath(query)
对列表中的每个元素调用 .xpath() 方法,返回结果为另一个单一化的 SelectorList 。
query 和 Selector.xpath() 中的参数相同。
css(query)
对列表中的各个元素调用 .css() 方法,返回结果为另一个单一化的 SelectorList 。
query 和 Selector.css() 中的参数相同。
extract()
对列表中的各个元素调用 .extract() 方法,返回结果为单一化的unicode字符串列表。
re()
对列表中的各个元素调用 .re() 方法,返回结果为单一化的unicode字符串列表。
nonzero()
列表非空则返回True,否则返回False。
这里是一些 Selector 的样例,用来说明一些概念。 在所有的例子中,我们假设已经有一个通过 HtmlResponse 对象实例化的 Selector ,如下:
sel = Selector(html_response)
从HTML响应主体中提取所有的 元素,返回:class:Selector 对象(即 SelectorList 的一个对象)的列表:
sel.xpath("//h1")
从HTML响应主体上提取所有 元素的文字,返回一个unicode字符串的列表:
sel.xpath("//h1").extract() # this includes the h1 tag
sel.xpath("//h1/text()").extract() # this excludes the h1 tag
在所有
标签上迭代,打印它们的类属性:
for node in sel.xpath("//p"):
print node.xpath("@class").extract()
这里是一些样例,用来说明一些概念。在两个例子中,我们假设已经有一个通过 XmlResponse 对象实例化的 Selector ,如下:
sel = Selector(xml_response)
从XML响应主体中选择所有的 元素,返回 Selector 对象(即 SelectorList 对象)的列表:
sel.xpath("//product")
从 Google Base XML feed 中提取所有的价钱,这需要注册一个命名空间:
sel.register_namespace("g", "http://base.google.com/ns/1.0")
sel.xpath("//g:price").extract()
在处理爬虫项目时,完全去掉命名空间而仅仅处理元素名字,写更多简单/实用的XPath会方便很多。你可以为此使用 Selector.remove_namespaces() 方法。
让我们来看一个例子,以Github博客的atom订阅来解释这个情况。
首先,我们使用想爬取的url来打开shell:
$ scrapy shell https://github.com/blog.atom
一旦进入shell,我们可以尝试选择所有的 对象,可以看到没有结果(因为Atom XML命名空间混淆了这些节点):
response.xpath("//link")
[]
但一旦我们调用 Selector.remove_namespaces() 方法,所有的节点都可以直接通过他们的名字来访问:response.selector.remove_namespaces()
response.xpath("//link")
[,
,
...
如果你对为什么命名空间移除操作并不总是被调用,而需要手动调用有疑惑。这是因为存在如下两个原因,按照相关顺序如下:
1、移除命名空间需要迭代并修改文件的所有节点,而这对于Scrapy爬取的所有文档操作需要一定的性能消耗
2、会存在这样的情况,确实需要使用命名空间,但有些元素的名字与命名空间冲突。尽管这些情况非常少见。