Python 爬虫:Selenium 安装与测试

作者: 使用说明  发布:2020-02-19

  中最麻烦的不是那些需要登录才能获取数据的网站,而是那些通过Java获取数据的站点。Python对Java的支持不太好。想用Python获取网站中Java返回的数据,唯一的方法就是模拟浏览器了。这个模拟浏览器跟Mechanize模块稍有不同,Mechanize模块并不支持Java,所以这里需要一款可以模拟真实浏览器的模块——Selenium模块。

  在Windows中安装Selenium模块可以采用最简单的pip安装,执行命令:

  在Linux中安装软件尽可能地使用apt-get,这样便于管理软件。执行命令:

  在编写Python时,主要用到Selenium的Webdriver。易语言 句柄模块Selenium.Webdrive不可能支持所有的浏览器,也没必要支持所有的浏览器。实际上目前流行的浏览器核心也就是那么几种。先看看Selenium.Webdriver支持哪几种浏览器。

  查看模块的功能,最简单也是最方便的方法就是直接使用help命令。打开cmd.exe工具,执行命令:

  PhantomJS是一个基于WebKit的端Java API。它全面支持而不需浏览器支持,其快速、原生支持各种标准:DOM处理、CSS选择器、JSON、Canvas和SVG。PhantomJS可以用于页面自动化、网络监测、网页截屏以及无界面测试等。

  无界面意味着开销小,也意味着速度快。网上有牛人测试过,使用Selenium调用上面的浏览器,速度前三分别是PhantomJS、Chrome和IE(remote调用HtmlUnit速度才是最快的,但HtmlUnit对Java的支持不太好),开销小、速度快对的支持也不错。唯一的缺点是没有GUI,但在下运行程序时,这又成了优点。所以无须犹豫,就选PhantomJS了。事实上,在爬行才能返回数据的网站时,没有比Selenium和PhantomJS更适合的组合了。

  PhantomJS的官网主页是。在浏览器中打开主页,单击Download V2.1按钮进入下载页面,如图4所示。

  进入下载页面后,选择Windows版本的PhantomJS下载软件,如图5所示。

  因为未知的原因,直接用浏览器下载PhantomJS速度极慢。有时根本就没反应,建议使用迅雷下载PhantomJS。迅雷上若有用户曾下载过PhantomJS,后面的迅雷用户再次下载速度就很快了。

  下载完成后,解压压缩包,然后将exe文件加入系统路径中就可以了。安装程序已自动将的路径加入到系统路径中了,反正PhantomJS也是配合使用的,直接将解压后的PhtomJS.exe复制到的目录中就可以了,如图6所示。

  还是打开PhantomJS官网的下载页面,选择合适的版本,使用迅雷下载,如图8所示。

  将下载好的压缩文件上传到后解压缩,然后将可执行文件复制到系统路径/usr/local/bin文件夹下(的系统路径有很多,随意选一个即可)。打开Putty,连接到上,执行命令:

  Linux下的PhantomJS环境已配置好,可以直接使用了。返回搜狐,查看更多

本文由佛山市光源模块有限公司发布于使用说明,转载请注明出处:Python 爬虫:Selenium 安装与测试

关键词: