@websec007 2020-08-13T09:00:04.000000Z 字数 1754 阅读 933

爬虫学习笔记（疫情数据可视化）

爬虫学习

1. 项目展示

2. 前置技能

熟悉python基本语法
了解html网页框架
了解json格式

3. 技术亮点

采用requests 库爬取数据；
采用BS4解析页面数据；
采用正则表达式提取不规则数据；
采用json模块处理json数据；
采用类封装爬虫项目；
对爬虫代码进行重构，提供其可扩展性和复用性；

4. 开发环境

1. 采用框架

python
requests
beautifulsoups4
lxml

2. 开发工具

pycharm 2020

5. requests 库

5.1 requests 库介绍与安装

什么requests？

requests库是一个模仿浏览器客户端向服务器发送网页请求的第三方python库；

requests 安装

# requests 镜像安装
pip install requests -i https://mirrors.aliyun.com/pypi/simples

5.2 requests 库基本使用

# 导入库
import requests
# 发送情况，获取响应
url = https://xxx.com
response = requests.get(url)
# 获取响应数据
response.encoding = 'utf-8'
print(response.content)
print(response.text)
print(response.content.decode('utf-8'))

5.3 response 基本属性

response.text：响应体字符类型
response.encoding = 'utf-8' ：指定响应体的编码方式为utf-8
response.content：响应体二进制原始流类型
response.content.decode('utf-8')

# 将二进制流转换为字符串，并打印输出
print(response.content.decode('utf-8'))
# 指定响应体编码方式为utf-8，然后打印输出响应体字符类数据
response.coding = 'utf-8'
print(response.text)

5.4 reque 实例

# 导入第三方模块
import requests
# 发送get请求，获取响应体
url = 'https://www.baidu.com'
response = request.get(url)
# 获取响应体文本内容
text = response.content.encode('utf-8')
print(text)
# 或使用以下方法
# response.encoding = 'utf-8'
# text = response.text

6. BeautifulSoup 库

6.1 BeautifulSoup库介绍与安装

什么是 BeautifulSoup

BeautifulSoup 是一个可以从html 或 xml中提取数据的第三方库。

BeautifulSoup 库安装

# 安装 bs4
pip install bs4
# 安装 lxml
pip instal lxml

6.2 BeautifulSoup 基本使用

# 导入模块
from bs4 import BeautifulSoup4
# 指定解析器进行html文档的解析
soup = BeautifulSoup('<html>data</html>', 'lxml')
print(soup.prettify())

6.3 BeautifulSoup对象find()方法和Tag标签

（1）find()方法

标签名查找

tag_a = soup.find('a')

属性查找

attr = soup.find(id='link1') 
或
attr = soup.find(attrs={'id':'link1'})

内容查找

text = soup.find(text='Elise')

所有内容查找

tags_a = soup.findall('a')

（2）Tag标签

什么是Tag对象？

我们可以直接打印下以Tag标签的类型，就可以看到其就是Tag类型。
```
a = soup.find('a')
print(type(a))
# 打印输出结果如下
<class 'bs4.element.Tag'>
```

Tag对象的属性

a.name
a.attrs
a.text

tag = soup.find('title')
print(tag.name)
print(tag.attrs)
print(tag.text)

爬虫学习笔记（疫情数据可视化）

1. 项目展示

2. 前置技能

3. 技术亮点

4. 开发环境

1. 采用框架

2. 开发工具

5. requests 库

5.1 requests 库介绍与安装

5.2 requests 库基本使用

5.3 response 基本属性

5.4 reque 实例

6. BeautifulSoup 库

6.1 BeautifulSoup库介绍与安装

6.2 BeautifulSoup 基本使用

6.3 BeautifulSoup对象find()方法和Tag标签

（1）find()方法

（2）Tag标签

内容目录