@songying
2018-07-26T17:20:56.000000Z
字数 728
阅读 1124
python库
参考 : https://docs.python.org/3/library/urllib.parse.html
urllib.parse模块可以将URLS各个组件分离开来,也可以将这些组件组合起来。
from urllib.parse import urlparse
from urllib.parse import urldefrag
parsed = urlparse(url) # 将url解析成为各个组件。这些组件可以参见《HTTP权威指南》
# 返回值: 解析后的对象,可以像操作元组来操作它
# scheme : 使用协议
# netloc : 域名
# path : 文件路径
# params : 参数
# query : 查询参数
# fragment : 片段
parsed.scheme
parsed.netloc
parsed.path
parsed.params
parsed.query
parsed.fragment
parsed.username
parsed.password
parsed.hostname
parsed.port
参考: https://foofish.net/urllib-unquote.html
对url进行解码,把类似"%xx" 的字符替换成单个字符。 如: “%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92”解码后会转换成“法国红酒”,但是使用过程中,如果姿势不对,最终转换出来的字符会是乱码“æ³å½çº¢é
”。
urllib.parse.unquote(string, encoding='utf-8', errors='replace')