SlimIt is a JavaScript minifier written in Python. It compiles JavaScript into more compact code so that it downloads and runs faster.
SlimIt also provides a library that includes a JavaScript parser, lexer, pretty printer and a tree visitor.

实战设计一个爬虫

dns 就近抓取
可伸缩性，简单可扩展，可应对更多需求
有效利用硬盘，cpu ,多核和内存

celery

http://www.bjhee.com/celery.html
http://funhacks.net/2016/12/13/celery/

asyncio,twisted,greenlet，多线程，错进程

爬虫策略
并发读取
队列批量插取有效率
选择合适的数据库，建立合适索引（mongondb,mysql）

断点续爬，摸清楚对方的id策略，或是时间戳

scrapy 框架

新手还是自己写的好，不要用框架，后期可以用框架提高效率
scrapy 爬取豆瓣网站
http://www.ituring.com.cn/article/114408

反爬虫策略

* 高密代理
* 隐藏域input,返回假数据或测试数据
* 检查robots.txt文件
* 蜜罐：隐藏A链接，被ip访问时就可以判定为不友好访问
* 绝大多数场景大公司爬虫ip是可以拿到，可以被判断出来
* 判断为爬虫后返回给你测试数据或假数据，循环数据，部分数据
* 封禁策略，手工封禁，
* 可能你的机器是肉机，所以封禁也不是永久的封禁，一段时间可以解封

多进程和多线程兼容写法

from multiprocessing import Pool
from multiprocessing.dummy import Pool
哪个速度快就用那个。从此以后我都尽量在写兼容的方式，这样在多线程/多进程之间切换非常方便。 
FROM https://zhuanlan.zhihu.com/p/22246193

分布式爬虫

https://github.com/istresearch/scrapy-cluster

扩展

爬取京东的评论信息，并分析
https://github.com/awolfly9/jd_comment
扩展：爬取造作网站的评论做舆情分析，时段舆情分析，按月，按周，按季度
监听appstore 排名变化，seo排名变化，android市场排名变化，zaouo 页面seo变化，

Python 爬虫

start

入门大法

运用请求伪造，浏览器伪造,浏览器自动化，图像处理，ip处理等方式进行反爬虫技术的通用化代码库

众包识别二维码，分布式识别

刚才说获取大量免费代理ip的项目

python生成二维码

ECharts 生成图标

huey 一个基于redis的消息队列（peewee 作者写）

requests html解析

xpath w3cschool

时光网项目

模拟登陆

请求跳转

app 手机数据格式规整

tornado web 爬虫

bloomfilter 网址去重（数学之美）

动态网页抓取很困难

传统 Ajax 已死，Fetch 永生

SlimIt