@songying
2018-09-29T22:11:26.000000Z
字数 504
阅读 1181
当被网站封杀时
python爬虫
- 首先,如果你从网络服务器收到的页面是空白的,缺少信息,或其遇到他不符合你预期的情况(或者不是你在浏览器上看到的内容),有可能是因为网站创建页面的 JavaScript执行有问题。
- 如果你准备向网站提交表单或发出 POST请求,记得检查一下页面的内容,看看你想提交的每个字段是不是都已经填好,而且格式也正确。
- 如果你已经登录网站却不能保持登录状态,或者网站上出现了其他的“登录状态”异常,请检查你的 cookie。确认在加载每个页面时 cookie 都被正确调用,而且你的 cookie 在每次发起请求时都发送到了网站上。
- 如果你在客户端遇到了 HTTP 错误,尤其是 403 禁止访问错误,这可能说明网站已经把你的 IP 当作机器人了,不再接受你的任何请求。你要么等待你的 IP 地址从网站黑名单里移除,要么就换个 IP 地址。
- 确认你的爬虫在网站上的速度不是特别快。
- 修改你的请求头!有些网站会封杀任何声称自己是爬虫的
访问者。如果你不确定请求头的值怎样才算合适,就用你自己浏览器的请求头吧
- 确认你没有点击或访问任何人类用户通常不能点击或接入的信息
- 如果你用了一大堆复杂的手段才接入网站,考虑联系一下网管吧,告诉他们你的目的。