@songying 2018-09-25T09:37:00.000000Z 字数 803 阅读 1422

反爬虫技术

python爬虫

参考： http://bigsec.com/bigsec-news/anan-16825-Antireptile-zonghe

一般网站从三个方面反爬虫：

请求网站访问时的请求头Headers
用户行为
目标网站的目录和数据加载方式，如ajax异步加载。

1. Headers 反爬

一般网站会在收到请求时校验Headers中的User-Agent字段，如果不是携带正常的User-Agent信息的请求便无法通过请求。还有一部分网站为了防盗链，还会校验请求Headers中的Referer字段。
解决方法很简单：设置headers，分析Referer，然后设置即可。

2. 基于用户行为反爬虫

主要分为两方面： 1. 同一IP短时间内多次访问同一页面。 2. 同一账户短时间内多次进行相同操作

解决方法：
1. 使用代理ip，如果需要抓取高价值数据的话也可以考虑购买宽带adsl拨号的VPS，如果ip被目标网站被封掉，重新拨号即可。
2. 降低请求频率。例如每个一个时间段请求一次或者请求若干次之后sleep一段时间。由于网站获取到的ip是一个区域网的ip，该ip被区域内的所有人共享，因此这个间隔时间并不需要特别长
3. 可以通过请求几次，退出登录，重新登录，继续请求来绕过同一账号短时间内不能多次进行相同请求的限制，如果能有多个账户，切换使用，效果更佳。

3. 动态页面

采用selenium + headless方法
分析网络请求过程，分析出具体的参数和响应的具体含义

4. Cookie限制

分析cookie，获取必要参数

5. 验证码

https://mp.weshineapp.com/2.0/text2img/imglist?timestamp=1537864728&sign=838dce86f88a219d43b46e06906ea220&h=c32ec0b7-48d0-4682-97d2-764cc2b43c99&v=3.5.18