[关闭]
@myles 2018-12-20T20:50:05.000000Z 字数 853 阅读 690

BeautifulSoup4 基本使用

未分类


1、BeautifulSoup 环境准备

个人习惯使用pycharm作为python集成开发环境,所以这里记录下BeatifulSoup库需要安装的过程信息。

(1)软件包准备

在pycharm中使用BeatifulSoup 需要提前在pycharm中安装好以下 2 个模块:

安装好后,直接导入即可使用,导入语句:from bs4 import BeautifulSoup

(2)安装方法

进入到 pycharm project Interpreter 位置进行模块bs4lxml 查找和安装即可;

pycharm 路径信息:file - setting - project:xxx - project Interpreter`

2、BeautifulSoup 基本使用

(1)导入BeautfulSoup 库

  1. from bs4 import BeautifulSoup

(2)获取需要解析的字符串对象

  1. with open('html_doc','r') as f:
  2. html_text = f.read() # 获取到html字符串对象

(3)解析html字符串对象为html文档对象

将获取到的html字符对象传入 BeatufulSoup()中,创建html文档树的结构对象,以方便后续进行tag标签信息的定位于提取;

  1. soup = BeautifulSoup(html_text,lxml)
  2. print(type(soup))

(4)进行 html tag 标签信息提取

  1. tag_info = soup.select('body > div.main-content > ul > li:nth-type-of(1) > img')
  1. tag_info = soup.find_all('a',{'class':'read'})
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注