[关闭]
@Arbalest-Laevatain 2018-08-16T09:54:03.000000Z 字数 875 阅读 1083

Python 爬虫 实战一 爬取电影天堂的下载链接

Python 爬虫


爬虫的基本概念

爬虫就是模拟客户端或者浏览器发送网络请求已获取响应,然后按照一定的规则来获取数据的程序
搜索引擎就是一个功能强大的爬虫

  1. import requests #网络请求模块
  2. import re #提取数据
  3. import time #time.sleep
  4. #用pip install requests
  5. #python的for循环
  6. #for n in [1,2,3,4,5]
  7. for n in range(1,169): #循环的范围要大1
  8. a_url='http://www.ygdy8.net/html/gndy/dyzz/list_23_'+str(n)+'.html'
  9. #网址变量
  10. print(a_url)
  11. #打印链接
  12. html_1 = requests.get(a_url)
  13. print(html_1.status_code) #请求状态的标志量
  14. html_1.encoding='gb2312' #为了防止出现乱码,所以解码
  15. #print(html_1.text)
  16. #findall函数返回的是一个列表
  17. detail_list = re.findall('<a href="(.*?)" class="ulink',html_1.text)
  18. #print(detail_list)
  19. for m in detail_list:
  20. b_url = 'http://www.ygdy8.net' + m
  21. #print(b_url)
  22. html_2 = requests.get(b_url)
  23. html_2.encoding='gb2312'
  24. ftp = re.findall('<a href="(.*?)">.*?</a></td>',html_2.text)
  25. print(ftp)
  26. # 写入桌面的一个txt文件
  27. with open(r'C:\Users\Administrator\Desktop\爬虫\dytt.txt','a',encoding='utf-8') as ff:
  28. ff.write(ftp[0]+'\n')

如何确定requests的方法:
在Chrome浏览器(其他浏览器都大同小异)中找到下面这个:
image_1cd4j3jl7qq214dr92a1uv317fj9.png-40.2kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注