@mwumli
2015-11-19T06:38:14.000000Z
字数 5093
阅读 13520
测试
安装 python
scripts 目录到 PATH 环境变量下python 的基础包工具 -- setuptools
安装 pip
安装 selenium : pip install -U selenium
下载相应的浏览器驱动, Firefox 是默认的
本文以 chrome 为主
ChromeDriver 官方下载地址 : 所有版本的 ChromeDriver
下载完成放到 python 安装目录
关于 360 haosou.com 的测试 :
#coding=utf-8from selenium import webdriverimport osimport time# set little time stop and big time stop for viewing changeslittle_time_stop = 1big_time_stop = 2# 默认广告条数ads_num_require = 8# 请求连接req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1"# 打开浏览器print "Opening chrome ..."browser = webdriver.Chrome()# 开始请求print "Visit %s ..." %(req_url)browser.get(req_url)# 获取所有的广告print "Get all advertisement ..."all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li')# 当前广告条数ads_num_current = len(all_ads_li)print "Has been got %d ads" %(ads_num_current)# 如果广告条数与默认不符if ads_num_current < ads_num_require:print "The number of ads is not enough ( current : %d require: %d)" %(ads_num_current,ads_num_require)# exit()# 获取顶部连接i = 0for ads_li in all_ads_li:time.sleep(big_time_stop)i = i+1print "ads %d :" %itry:main = ads_li.find_element_by_css_selector('h3 a')except:print "\tError: ads %d cann't find" %(i)else:print "\tReady: visit ads %d" %(i)main.click()print "\tSucess: visit ads %d" %(i)time.sleep(little_time_stop)try:img_link = ads_li.find_element_by_class_name('e_biyi_img')except:print "\tError : no img in ads %d " %(i)else:print "\tReady : visit img_link %d" %(i)img_link.click()print "\tSuccess : visit img_link %d" %(i)time.sleep(little_time_stop)try:child_div = ads_li.find_element_by_class_name('e_biyi_childLink');except:print "\tError : no child link in ads %d" %(i)else:try:child_links = child_div.find_elements_by_css_selector('a')except:print "\tError : find child_links error"else:num_links = len(child_links)print "\tSuccess : there are %d child_links" %(num_links)j = 0for child_a in child_links:j = j + 1print "\t\tReady : visit child link %d in ads %d" %(j, i)child_a.click()print "\t\tSuccess : visit child link %d in ads %d" %(j, i)time.sleep(little_time_stop)print "End and thanks for your using!"# 下面代码选择取消注释# 延时# time.sleep(5)# 关闭当前窗口# browser.close()# 关闭所有已经打开的窗口# browser.quit()
好搜一下 去搜索 psid, 不知道有什么特别的作用 以下是所有定位操作的 API :
# 返回一个匹配元素, 即一个 WebElement 元素find_element_by_id()find_element_by_name()find_element_by_class_name()find_element_by_tag_name()find_element_by_link_text()find_element_by_partial_link_text()find_element_by_xpath()find_element_by_css_selector()# 返回一个列表, 包含所有匹配的元素, 即一个 WebElement 列表find_elements_by_id()find_elements_by_name()find_elements_by_class_name()find_elements_by_tag_name()find_elements_by_link_text()find_elements_by_partial_link_text()find_elements_by_xpath()find_elements_by_css_selector()
关于 API 的具体介绍, 请参考 :
module-selenium.webdriver.chrome.webdriver
使用的时候需注意下面几点 :
WebDriver 和 WebElement try: .. except: ... 机制避免错误的行为影响程序继续进行 WebDriver 调用以上 API 进行全局定位 WebElement 调用以上 API 可以进行层级定位, 即 查找当前元素的子元素开始的时候必须要有初始化一个 WebDriver 实例, 即下面的 browser 用来对浏览器进行控制以及页面的访问
# 请求连接req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1"# 打开浏览器print "Opening chrome ..."browser = webdriver.Chrome()# 开始请求print "Visit %s ..." %(req_url)browser.get(req_url)
接着, 就可以使用异常 API 进行当前页面的全局查找, 比如 :
# 获取所有的广告print "Get all advertisement ..."all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li')
使用 browser.find_element_by_xx() 得到的是一个 WebElement 实例
使用获得的实例调用上面的 API 即可进行层级查找
使用 browser.find_elements_by_xx() 的到的是一个元素是 WebElement 实例的 list
通过对 list 的遍历, 即可对各个实例进行相应的操作
browser.curren_url : 获取当前加载页面的 URLbrowser.close() : 关闭当前窗口, 如果当前窗口是最后一个窗口, 浏览器将关闭browser.quit() : 关闭所有窗口并停止 ChromeDriver 的执行browser.add_cookie(cookie_dict) : 为当前会话添加 cookie
browser.get_cookie(name) : 得到执行 cookie
browser.get_cookies() : 得到所有的 cookie
driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’, ‘secure’:True})
browser.delete_all_cookies() : 删除当前会话的所有cookie
browser.delete_cookie(name) : 删除指定 cookie
browser.back() : 相当于浏览器的后退历史记录browser.forward() : 相当于浏览器的前进历史记录browser.execute_script(script, *args) : 同步执行 js 脚本 browser.execute_async_script(script, *args) : 异步执行 js 脚本browser.get(url) : 在当前窗口加载 urlbrowser.refresh() : 刷新当前页面browser.current_window_handle : 当前窗口的 handle, 相当于一个指针一样的东西, 用来指向当前窗口browser.window_handles : 当前浏览器中的已经打开的所有窗口, 是一个 listbrowser.switch_to_window(window_handle) : 切换 window_handle 指向的窗口browser.title : 当前页面的 titlebrowser.name : 当前浏览器的名字具体参照 : module-selenium.webdriver.remote.webdriver
webEle.clear() : 清楚元素的内容, 假如这个元素是一个文本元素webEle.click() : 点击当前元素webEle,is_displayed() : 当前元素是否可见webEle.is_enabled() : 当前元素是否禁止, 比如经常会禁用一些元素的点击webEle.is_selected() : 当前元素是否选中, 文本输入框的内容webEle.send_keys(*value) : 向当前元素模拟键盘事件webEle.submit() : 提交表单webEle.tag_name : 当前元素的标签名webEle.text : 当前元素的内容webEle.get_attribute(name) : 获取当前元素执行属性的值