@Cesar
2016-01-14T17:46:44.000000Z
字数 427
阅读 1681
Python 爬虫学习步骤
学习
1. 初步了解Python
- 安装python和pycharm
- 第三方库的安装(pip,easy install,以及本地安装方法)参考
- 基本数据类型(尤其是字符串)
- 基本数据结构(字典、列表、元组)
- 基本语句(判断、循环等)
- 函数模块
- 参考书:python基础教程第二版
2. 爬取无需登录的简单网站
- 了解urllib、urllib2模块的使用
- 懂得查看并提取html页面源码
- 学习正则表达式
- python的文件读写
- 测试:爬取并保存知乎1000个问题的题干和问题详情
3. 爬取需要登录的网站
- 网络请求的post和get方法
- 了解Http协议的内容
- 了解urllib2模块对应的http协议的方法
- 了解chrome的f12开发者使用工具
- 了解Json数据格式
- 测试:调用网页版微信接口使用自己写的代码给别人发送微信消息
4. 拓展:学会使用框架
- 宽度优先遍历和广度优先遍历
- Scrapy框架的使用
5. 其他
- 编码格式(utf8,gbk等编码格式的区别)参考文档
- 操作数据库(mysql)