余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

[Phantomjs系列] 概述(phantomJS)

xiyangw 2022-12-05 10:21 18 浏览 0 评论

互联网上数据万千,只要适当的整理和分析就可以得到极有用的信息用来辅助决策,可问题是,海量的数据不会凭空而来,手动搜索更不现实,那该怎么办?爬虫,没错。就是万千在服务器后台运行的爬虫程序,能帮我们自动化的完成数据的目标性抓取和持久化,本系列主要就是介绍一种能够以模拟用户浏览器操作进而获取信息,抓取信息的工具---Phantomjs,当然,它是基于Nodejs的。

本系列准备包含以下几个部分:

一 Phantomjs是个什么鬼?

它的开发者Ariya Hidayat 在官方网站上这样介绍:

PhantomJS is a headless WebKit scriptable with a JavaScript API. It has fast andnative support for various web standards: DOM handling, CSS selector, JSON, Canvas, and SVG.

也就是说它是一套具有JS编程接口的无头Webkit浏览器内核。所谓无头,就是没有浏览器的用户界面;所谓Webkit,众所周知,它是chrome的开源浏览器引擎,它WebKit的优势在于高效稳定,兼容性好,且源码结构清晰,易于维护。

二 它的核心功能是什么?

  • 网站的无头测试(HEADLESS WEBSITE TESTING)

使用开源测试框架对网站页面进行功能性测试。

  • 屏幕抓取(SCREEN CAPTURE)

根据网页生成截图。

  • 操作页面元素(PAGE AUTOMATION)

操作网页DOM文档树,注入JS代码或者类库到代码中完成功能

  • 网络监测(NETWORK MONITORING)

分析网站性能。

以上特性,使得Phantomjs结合任何一种语言或者框架都能轻松地完成网页数据的推送和抓取,本系列采用的框架是Nodejs成名已久的Express。通过前台页面生成子任务,出发爬虫进行数据的推送和爬取,还可以进行一定的持久化工作。

三. 谁在用它?

基于上述优良特性和开源品质,毋庸置疑,Phantomjs会成为开源社区的宠儿,就像它的作者在主页上写的那样:

PhantomJS is used in the test workflow of various open-source projects:

Bootstrap, CodeMirror, Ember.js, jQuery Mobile, Less.js, Modernizr, YUI3, and many more.

四. 有什么竞品可以参考吗?

Casperjs:Casperjs继承了Phantomjs的优良特性,且改善了接口的易用性,结束了前者的当多个动作连续发生时的处理问题,采用简单的同步方式来处理逻辑流程,对开发者更加友好和易用。

系列简介

本系列主要将介绍Phantomjs以及其相关技术的使用和技术细节,并且也会附上一些笔者开发过程中遇到的问题和思考,希望和读者同仁共勉。

相关推荐

spring利用spring.handlers解析自定义配置(spring validation 自定义)

一、问题我们在spring的xml配置文件里经常定义各种各样的配置(tx、bean、mvc、bean等等)。以及集成第三方框架时,也会看到一些spring之外的配置,例如dubbo的配置、securi...

「Spring源码分析」AOP源码解析(上篇)(spring源码深度解析(第2版))

前言前面写了六篇文章详细地分析了SpringBean加载流程,这部分完了之后就要进入一个比较困难的部分了,就是AOP的实现原理分析。为了探究AOP实现原理,首先定义几个类,一个Dao接口:1&nbs...

Spring 解析注册BeanDefinition这一篇就Over
Spring 解析注册BeanDefinition这一篇就Over

一、简介:学习过Spring框架的人一定都会听过Spring的IoC(控制反转)、DI(依赖注入)这两个概念,对于初学Spring的人来说,总觉得IoC、...

2023-03-20 14:53 xiyangw

域、模块、空间、闭包,你真的懂了吗?(模块控制域与作用域的关系)

Javascript有一个特性叫做域。尽管对于初学者来说理解域是有难度的,但我会尽力用最简单的方式让你理解域。理解域能让你的代码更优秀,减少错误,及有助于你做出更强大的模式设计。什么是域域是在运行时,...

这一次搞懂Spring自定义标签以及注解解析原理
这一次搞懂Spring自定义标签以及注解解析原理

前言在上一篇文章中分析了Spring是如何解析默认标签的,并封装为BeanDefinition注册到缓存中,这一篇就来看看对于像context这种自定义标签是如...

2023-03-20 14:53 xiyangw

前端基础进阶(七)-前端工程师最容易出错的问题-this关键字
前端基础进阶(七)-前端工程师最容易出错的问题-this关键字

我们在学习JavaScript的时候,因为对一些概念不是很清楚,但是又会通过一些简洁的方式把它给记下来,那么这样自己记下来的概念和真正的概念产生了很强的偏差.当...

2023-03-20 14:52 xiyangw

深入K8s:守护进程DaemonSet及其源码分析(k8s 进程)
深入K8s:守护进程DaemonSet及其源码分析(k8s 进程)

建议学习:膜拜!阿里内部都在强推的K8S(kubernetes)学习指南,不能再详细了最近也一直在加班,处理项目中的事情,发现问题越多越是感觉自己的能力不足,...

2023-03-20 14:52 xiyangw

Spring 是如何解析 bean 标签的?(spring beans标签)
Spring 是如何解析 bean 标签的?(spring beans标签)

前情回顾上回「SpringIoC容器初始化(2)」说到了Spring如何解析我们定义的<bean>标签,代码跟进了一层又一层,跋山涉水,...

2023-03-20 14:52 xiyangw

快速了解JavaScript文本框操作(javascript文本框代码)
快速了解JavaScript文本框操作(javascript文本框代码)

HTML中使用<input>元素表示单行输入框和<textarea>元素表示多行文本框。HTML中使用的<input&...

2023-03-20 14:51 xiyangw

荐读|30道JavaOOP面试题,可以和面试官扯皮了
荐读|30道JavaOOP面试题,可以和面试官扯皮了

面试是我们每个人都要经历的事情,大部分人且不止一次,今天给大家准备了30道JavaOOP面试题,希望能够帮助到对Java感兴趣的同学,让大家在找工作的时候能够...

2023-03-20 14:51 xiyangw

源码系列——mybatis源码刨析总结,下(mybatis源码分析)
源码系列——mybatis源码刨析总结,下(mybatis源码分析)

接上文简答题一.1.Mybatis动态sql是做什么的?1.动态sql就是根据条件标签动态的拼接sql,包括判空,循环,拼接等2.哪些动态sql?动态sql大...

2023-03-20 14:50 xiyangw

Java面试题(第二弹)(java面试题及答案整理)
Java面试题(第二弹)(java面试题及答案整理)

1.抽象类和接口的区别?接口可以被多重implements,抽象类只能被单一extends接口只有定义,抽象类可以有定义和实现接口的字段定义默认为:public...

2023-03-20 14:50 xiyangw

mybatis3 源码深度解析-动态 sql 实现原理(sql数据库基础知识)
mybatis3 源码深度解析-动态 sql 实现原理(sql数据库基础知识)

大纲动态sql使用示例SqlSource和BoundSql以及实现类LanguageDriver以及实现类SqlNode以及实现类动态sql解...

2023-03-20 14:50 xiyangw

第43节 Text、Comment及CDATASection(第43节 Text、Comment及CDATASection)
第43节 Text、Comment及CDATASection(第43节 Text、Comment及CDATASection)

本内容是《Web前端开发之Javascript视频》的课件,请配合大师哥《Javascript》视频课程学习。文本节点用Text类型表示,包含的是可以按字面解释...

2023-03-20 14:49 xiyangw

Qt读写三种文件(qt读取文件数据并赋值给变量)

第一种INI配置文件.ini文件是InitializationFile的缩写,即初始化文件。除了windows现在很多其他操作系统下面的应用软件也有.ini文件,用来配置应用软件以实现不同用户的要...

取消回复欢迎 发表评论: