@bergus 2015-12-02T06:05:10.000000Z 字数 846 阅读 2865

python笔记之提取网页中的超链接

python 爬虫

对于提取网页中的超链接，先把网页内容读取出来，然后用beautifulsoup来解析是比较方便的。但是我发现一个问题，如果直接提取a标签的href，就会包含javascript:xxx和#xxx之类的，所以要对这些进行特殊处理。

#!/usr/bin/env python
#coding: utf-8
from bs4 import BeautifulSoup
import urllib
import urllib2
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# 要分析的网页url
url = 'http://www.ruanyifeng.com/blog/2015/05/co.html'
def findAllLink(url):
    '''
    提取网页中的超链接
    '''
    # 获取协议，域名
    proto, rest = urllib.splittype(url)
    domain = urllib.splithost(rest)[0]
    # 读取网页内容
    html = urllib2.urlopen(url).read()
    # 提取超链接
    a = BeautifulSoup(html).findAll('a')
    # 过滤
    alist = [i.attrs['href'] for i in a if i.attrs['href'][0] != 'j']
    # 将形如#comment-text的锚点补全成http://www.ruanyifeng.com/blog/2015/05/co.html,将形如/feed.html补全为http://www.ruanyifeng.com/feed.html
    alist = map(lambda i: proto + '://' + domain + i if i[0] == '/' else url + i if i[0] == '#' else i, alist)
    return alist
if __name__ == '__main__':
    for i in findAllLink(url):
        print i

内容目录

- - API 2
  - 活动报名 APIs v1
  - API 设计文档
- - API设计 2
  - HTTP API 设计指南
  - REST API设计最佳实践
- - API设计软件 1
  - API BluePrint
- - Cmd 1
  - python Cmd实例之网络爬虫应用
- - Dockerfile 2
  - Docker 2 -- 关于Dockerfile
  - dockerfile
- - KNN 1
  - 机器学习之K近邻算法（KNN）
- - KPI 1
  - KPI绩效考核为何在国内不管用？
- - Makefile 1
  - Sphinx Makefile
- - Sphinx 1
  - Sphinx Makefile
- - StringIO 1
  - python中的StringIO模块
- - ZipFile 1
  - python笔记之ZipFile模块
- - blog 1
  - zybuluo 博客平台文档
- - bools.py 1
  - python三元表达式
- - cmd 1
  - python笔记之Cmd模块
- - cmd模块 1
  - python cmd模块练习
- - consul 4
  - 测试环境使用方案
  - 17mei Docker Consul 运行服务注册查看所有当前服务配置
  - consul 简单教程
  - consul 简单教程
- - django 1
  - django settings最佳配置
- - docker 13
  - docker微服务最佳实践
  - 数据库操作
  - 测试环境使用方案
  - Docker持续交付说明
  - Docker 所有种类容器运行方法
  - postgresql数据库
  - docker MongoDB搭建
  - docker平台搭
  - docker备份
  - 搭建基于Docker的MongoDB复制集群环境
  - docker安装
  - Ｄocker 后台进程参数
  - Docker 2 -- 关于Dockerfile
- - docker-machine 1
  - docker-machine
- - dtcp 1
  - dtcp格式定义
- - firefox 1
  - 火狐插件推荐
- - flask 3
  - flask-sqlalchemy 关系表简单操作
  - python表单校验摘录
  - flask 后台表单验证模块
- - gbk 1
  - UNICODE,GBK,UTF-8区别
- - github 1
  - github 资源
- - golang 1
  - golang 代理服务器
- - groovy 1
  - groovy 弹出菜单
- - hashlib 1
  - 快速入门
- - http 1
  - HTTP请求错误大全
- - ipc 1
  - 进程间通信IPC、LPC、RPC
- - itertools 2
  - python模块之itertools模块
  - python笔记之itertools模块
- - javascript 1
  - 修改jquery的remote让前段显示服务器错误信息
- - jquery 1
  - 修改jquery的remote让前段显示服务器错误信息
- - json 2
  - pjson
  - Python处理JSON
- - kity 2
  - Kity 动画 API 设计
  - Kity Graphic Layer API
- - leveldb 1
  - python leveldb 文档
- - linux 1
  - 利用 ssh 的用户配置文件 config 管理 ssh 会话
- - lpc 1
  - 进程间通信IPC、LPC、RPC
- - mac 1
  - mac 使用手册
- - mesos 1
  - mesos集群搭建
- - mht 1
  - 将一个网络链接保存为mht格式的文件
- - mime 1
  - 将一个网络链接保存为mht格式的文件
- - mongodb 4
  - docker MongoDB搭建
  - mongodb操作
  - 搭建基于Docker的MongoDB复制集群环境
  - mongodb3 权限认证问题总结
- - nodejs 1
  - webpack配置
- - nsq 1
  - 基于nsq的rpc探索和远程代码执行demo
- - openvpn 1
  - ubuntu 搭建 OPENVPN
- - oracle 1
  - 运营报告 oracle 数据库字段设计
- - pipetools 1
  - pipetools类库代码研究
- - plan_morning 1
  - plan_morning
- - postgresql 1
  - postgresql数据库
- - pycharm 1
  - pycharm 密钥
- - pyshell 2
  - python执行外部程序模块pyshell
  - pyshell
- - python 37
  - 基于nsq的rpc探索和远程代码执行demo
  - python leveldb 文档
  - pjson
  - python三元表达式
  - 基于数据挖掘的智能任务发布系统的设计与实现
  - 有两个序列a,b，大小都为n,序列元素的值任意整数，无序；要求：通过交换a,b 中的元素，使[序列a 元素的和]与[序列b 元素的和]之间的差最小。
  - Ubuntu下安装PyV8
  - python快速排序
  - 让人耳目一新的Python库
  - Python处理JSON
  - python执行外部程序模块pyshell
  - python模块之itertools模块
  - pyzmq简单的在线聊天室
  - django settings最佳配置
  - python cmd模块练习
  - python shutil模块
  - flask-sqlalchemy 关系表简单操作
  - python表单校验摘录
  - flask 后台表单验证模块
  - python笔记之Cmd模块
  - python笔记之subprocess模块
  - 快速入门
  - python笔记之调用系统命令
  - python笔记之ZipFile模块
  - python笔记之提取网页中的超链接
  - python笔记之itertools模块
  - python笔记之bisect模块
  - python笔记之编程风格大比拼
  - python笔记之常用模块用法分析
  - python笔记之中缀语法和管道实现
  - 将一个网络链接保存为mht格式的文件
  - 快速原型开发总结
  - 机器学习之K近邻算法（KNN）
  - python中的StringIO模块
  - python多进程多点分片下载器
  - python Cmd实例之网络爬虫应用
  - pyshell
- - python模块 8
  - python模块之itertools模块
  - python shutil模块
  - python笔记之Cmd模块
  - python笔记之subprocess模块
  - 快速入门
  - python笔记之ZipFile模块
  - python笔记之itertools模块
  - python笔记之bisect模块
- - pyv8 1
  - Ubuntu下安装PyV8
- - restful 2
  - HTTP API 设计指南
  - REST API设计最佳实践
- - rpc 2
  - 基于nsq的rpc探索和远程代码执行demo
  - 进程间通信IPC、LPC、RPC
- - shell 1
  - pyshell
- - shutil 1
  - python shutil模块
- - simplejson 1
  - pjson
- - smb 1
  - 搭建简单的smb服务器
- - software 1
  - ubuntu 下载器
- - spyder 1
  - spyder
- - sqlalchemy 1
  - flask-sqlalchemy 关系表简单操作
- - ssh 1
  - 利用 ssh 的用户配置文件 config 管理 ssh 会话
- - sublime 1
  - !/bin/zsh
- - subprocess 1
  - python笔记之subprocess模块
- - test 1
  - test
- - ubuntu 4
  - 我的linux操作习惯
  - ubuntu 搭建 OPENVPN
  - ubuntu 下载器
  - ubuntu内核升级
- - utf-8 1
  - UNICODE,GBK,UTF-8区别
- - vim 1
  - 我的vim配置
- - webpack 1
  - webpack配置
- - wtf 1
  - python表单校验摘录
- - zmq 1
  - pyzmq简单的在线聊天室
- - zybuluo 1
  - zybuluo 博客平台文档
- - 三元表达式 1
  - python三元表达式
- - 下载器 2
  - ubuntu 下载器
  - python多进程多点分片下载器
- - 中缀语法 1
  - python笔记之中缀语法和管道实现
- - 书籍推荐 1
  - 书籍推荐
- - 代理 1
  - golang 代理服务器
- - 代码分析 1
  - pipetools类库代码研究
- - 任务发布平台 1
  - 基于数据挖掘的智能任务发布系统的设计与实现
- - 优化 1
  - flask 优化
- - 养生 1
  - 腹式呼吸
- - 内核升级 1
  - ubuntu内核升级
- - 团队合作 1
  - Github 团队协作
- - 备忘录 1
  - repaire boot in ubuntu
- - 多进程 1
  - python多进程多点分片下载器
- - 学习笔记 1
  - 随时笔记
- - 密钥 1
  - pycharm 密钥
- - 工具 2
  - 日常使用工具
  - 常用工具推荐
- - 常用模块 1
  - python笔记之常用模块用法分析
- - 微服务 4
  - 微服务系统设计的思考
  - docker微服务最佳实践
  - 微服务架构漫谈
  - 17mei 微服务的坑，检查点，以及一些操作细节
- - 心理学 1
  - 混蛋逻辑
- - 快速原型 1
  - 快速原型开发总结
- - 快速开发 1
  - 快速原型开发总结
- - 快速排序 1
  - python快速排序
- - 插件 2
  - 火狐插件推荐
  - 常用工具推荐
- - 数据库 4
  - 数据库操作
  - postgresql数据库
  - 数据
  - mongodb3 权限认证问题总结
- - 数据库设计 1
  - 运营报告 oracle 数据库字段设计
- - 文档驱动开发 1
  - 文档驱动开发编程规范
- - 方便 1
  - 常用工具推荐
- - 旅游 1
  - 旅游攻略
- - 显示服务器错误信息 1
  - 修改jquery的remote让前段显示服务器错误信息
- - 最佳操作 1
  - 我的linux操作习惯
- - 服务器 1
  - 服务器
- - 未处理 1
  - dockerfile
- - 机械学习 1
  - 机器学习之K近邻算法（KNN）
- - 权限 1
  - mongodb3 权限认证问题总结
- - 模块 1
  - pjson
- - 毕业设计 1
  - 基于数据挖掘的智能任务发布系统的设计与实现
- - 活动 1
  - 活动报名 APIs v1
- - 混蛋逻辑 1
  - 混蛋逻辑
- - 热点问题 1
  - 时评
- - 爬虫 4
  - 大众点评爬虫
  - python笔记之提取网页中的超链接
  - 爬虫网站分析
  - python Cmd实例之网络爬虫应用
- - 眼睛行业广告 1
  - 眼镜
- - 算法 3
  - 有两个序列a,b，大小都为n,序列元素的值任意整数，无序；要求：通过交换a,b 中的元素，使[序列a 元素的和]与[序列b 元素的和]之间的差最小。
  - python快速排序
  - 机器学习之K近邻算法（KNN）
- - 管道 1
  - python笔记之中缀语法和管道实现
- - 类库推荐 1
  - 让人耳目一新的Python库
- - 系统命令 1
  - python笔记之调用系统命令
- - 系统设计 1
  - 微服务系统设计的思考
- - 编码 1
  - UNICODE,GBK,UTF-8区别
- - 编程规范 1
  - 文档驱动开发编程规范
- - 编程风格 1
  - python笔记之编程风格大比拼
- - 网站 1
  - 爬虫网站分析
- - 网络链接 1
  - 将一个网络链接保存为mht格式的文件
- - 美容 1
  - 油性皮肤的保养
- - 聊天室 1
  - pyzmq简单的在线聊天室
- - 腹式呼吸 1
  - 腹式呼吸
- - 表单验证 1
  - flask 后台表单验证模块
- - 认证 1
  - mongodb3 权限认证问题总结
- - 请求错误 1
  - HTTP请求错误大全
- - 资源列表 1
  - 资源列表
- - 进程通信 1
  - 进程间通信IPC、LPC、RPC
- - 迷惑，忙碌，收获 1
  - 为什么我如此忙碌却毫无收获
- - 邻里问题 1
  - 城市邻里陌生问题解决方案
- - 配置 1
  - django settings最佳配置
- - 问卷 1
  - 问卷最新讨论
- - 问题 1
  - 面试经典问题解答
- - 面试 2
  - 面试经典问题解答
  - 面试总结
- - 项目环境 1
  - 新项目整理
- - 未分类 3
  - 在此处输入标题
  - 董事长、总裁和CEO的权力详解
  - 欢迎使用 Cmd - 在线 Markdown 编辑阅读器
- 以下【标签】将用于标记这篇文稿：

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注