@songying 2018-09-29T14:11:26.000000Z 字数 504 阅读 1620

当被网站封杀时

python爬虫

首先，如果你从网络服务器收到的页面是空白的，缺少信息，或其遇到他不符合你预期的情况（或者不是你在浏览器上看到的内容），有可能是因为网站创建页面的 JavaScript执行有问题。
如果你准备向网站提交表单或发出 POST请求，记得检查一下页面的内容，看看你想提交的每个字段是不是都已经填好，而且格式也正确。
如果你已经登录网站却不能保持登录状态，或者网站上出现了其他的“登录状态”异常，请检查你的 cookie。确认在加载每个页面时 cookie 都被正确调用，而且你的 cookie 在每次发起请求时都发送到了网站上。
如果你在客户端遇到了 HTTP 错误，尤其是 403 禁止访问错误，这可能说明网站已经把你的 IP 当作机器人了，不再接受你的任何请求。你要么等待你的 IP 地址从网站黑名单里移除，要么就换个 IP 地址。
1. 确认你的爬虫在网站上的速度不是特别快。
2. 修改你的请求头！有些网站会封杀任何声称自己是爬虫的
  访问者。如果你不确定请求头的值怎样才算合适，就用你自己浏览器的请求头吧
3. 确认你没有点击或访问任何人类用户通常不能点击或接入的信息
4. 如果你用了一大堆复杂的手段才接入网站，考虑联系一下网管吧，告诉他们你的目的。