@songying 2018-07-26T09:20:56.000000Z 字数 728 阅读 1638

urllib.parse

python库

参考： https://docs.python.org/3/library/urllib.parse.html

简介

urllib.parse模块可以将URLS各个组件分离开来，也可以将这些组件组合起来。

from urllib.parse import urlparse
from urllib.parse import urldefrag

parsing(解析): urlparse()

parsed = urlparse(url)   # 将url解析成为各个组件。这些组件可以参见《HTTP权威指南》
# 返回值： 解析后的对象，可以像操作元组来操作它
# scheme : 使用协议
# netloc : 域名
# path : 文件路径
# params : 参数
# query : 查询参数
# fragment : 片段

解析后的内容

parsed.scheme
parsed.netloc
parsed.path
parsed.params
parsed.query
parsed.fragment
parsed.username
parsed.password
parsed.hostname
parsed.port

urllib.parse.unquote

参考： https://foofish.net/urllib-unquote.html
对url进行解码，把类似"%xx" 的字符替换成单个字符。如： “%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92”解码后会转换成“法国红酒”，但是使用过程中，如果姿势不对，最终转换出来的字符会是乱码“æ³å½çº¢é”。

urllib.parse.unquote(string, encoding='utf-8', errors='replace')

urllib.parse

简介

parsing(解析): urlparse()

解析后的内容

urllib.parse.unquote

内容目录

选择主题