@songying
2018-09-25T17:37:00.000000Z
字数 803
阅读 1167
python爬虫
参考: http://bigsec.com/bigsec-news/anan-16825-Antireptile-zonghe
一般网站从三个方面反爬虫:
一般网站会在收到请求时校验Headers中的User-Agent字段,如果不是携带正常的User-Agent信息的请求便无法通过请求。还有一部分网站为了防盗链,还会校验请求Headers中的Referer字段。
解决方法很简单: 设置headers, 分析Referer, 然后设置即可。
主要分为两方面: 1. 同一IP短时间内多次访问同一页面。 2. 同一账户短时间内多次进行相同操作
解决方法:
1. 使用代理ip, 如果需要抓取高价值数据的话也可以考虑购买宽带adsl拨号的VPS,如果ip被目标网站被封掉,重新拨号即可。
2. 降低请求频率。例如每个一个时间段请求一次或者请求若干次之后sleep一段时间。由于网站获取到的ip是一个区域网的ip,该ip被区域内的所有人共享,因此这个间隔时间并不需要特别长
3. 可以通过请求几次,退出登录,重新登录,继续请求来绕过同一账号短时间内不能多次进行相同请求的限制,如果能有多个账户,切换使用,效果更佳。
分析cookie,获取必要参数