@songying
2018-07-26T09:20:56.000000Z
字数 728
阅读 1345
python库
参考 : https://docs.python.org/3/library/urllib.parse.html
urllib.parse模块可以将URLS各个组件分离开来,也可以将这些组件组合起来。
from urllib.parse import urlparsefrom urllib.parse import urldefrag
parsed = urlparse(url) # 将url解析成为各个组件。这些组件可以参见《HTTP权威指南》# 返回值: 解析后的对象,可以像操作元组来操作它# scheme : 使用协议# netloc : 域名# path : 文件路径# params : 参数# query : 查询参数# fragment : 片段
parsed.schemeparsed.netlocparsed.pathparsed.paramsparsed.queryparsed.fragmentparsed.usernameparsed.passwordparsed.hostnameparsed.port
参考: https://foofish.net/urllib-unquote.html
对url进行解码,把类似"%xx" 的字符替换成单个字符。 如: “%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92”解码后会转换成“法国红酒”,但是使用过程中,如果姿势不对,最终转换出来的字符会是乱码“æ³å½çº¢é
”。
urllib.parse.unquote(string, encoding='utf-8', errors='replace')
