您当前的位置:首页 > 计算机 > 编程开发 > Python

Python+selenium+PhantomJS获取百度搜索结果真实链接地址

时间:12-29来源:作者:点击数:

问题描述:在爬取百度搜索结果时,往往会得到一个中转链接,而不是真实地址,在浏览器打开这个中转链接之后才会变成真实地址。可以通过破解算法、抓包跟踪等不同手段来还原这样的地址,也可以模拟浏览器打开百度跳转链接之后获取真实地址,虽然速度稍慢一点,但是方便实现。本文使用selenium+PhantomJS来模拟这个过程并获取真实地址。

1、打开网址http://phantomjs.org/download.html,下载PhantomJS,本文以Windows平台为例。下载压缩文件,把解压缩得到的phantomjs.exe复制到Python 3.6的安装目录下,也就是解释器主程序python.exe所在的文件夹。

2、使用pip命令安装Python扩展库selenium。

3、使用PhantomJS打开中转链接,然后获取真实地址。以前面文章Python 3.6模拟输入并爬取百度前10页密切相关链接为例,在代码中增加下面几行代码。

运行结果:

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门