基于浏览器的网络资源的提取方法及装置制造方法

文档序号:6514593阅读:304来源:国知局
基于浏览器的网络资源的提取方法及装置制造方法
【专利摘要】本发明公开一种基于浏览器的网络资源的提取方法,其包括:从包含多个文档消息的消息队列中提取文档消息或者接收通过任务调度方式所传送的包含多个文档消息的消息队列中的文档消息,其中每一文档消息包含需要操作的网页的URL节点以及对该网页进行操作的操作策略;用浏览器将与所述文档消息中包含的URL节点对应的网页打开;依照所述文档消息中包含的所述操作策略对该网页进行操作;以及输出对该网页操作的操作结果。另外,本发明还公开一种基于浏览器的网络资源的提取装置。利用本发明,可以借助浏览器对网络技术高度支持的优势,将复杂的http通讯过程、加密、JS事件等技术交给浏览器执行,减少了用户在网络资源提取的操作过程中的时间。
【专利说明】基于浏览器的网络资源的提取方法及装置
【技术领域】
[0001]本发明涉及计算机网络技术,尤其涉及网络资源的提取方法及装置。
【背景技术】
[0002]目前,越来越多的网络技术被广泛应用,例如目的在于节约开发成本的异步请求处理技术;通过JS或者cookie对资源的链接实施加密,目的在于防止网络蜘蛛的抓取的链接加密技术等等。无论出于何种目的,对于这类资源的抓取都有一定的难度,而且在无法破解加密算法的情况下,无法实现自动化抓取工作。

【发明内容】

[0003]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网络资源的提取方法及装置。
[0004]依据本发明的一个方面,提供了网络资源的提取方法,其包括:从包含多个文档消息的消息队列中提取文档消息,其中每一文档消息包含需要操作的网页的URL节点以及对该网页进行操作的操作策略;将与所述文档消息中包含的URL节点对应的网页用浏览器打开;依照所述文档消息中包含的所述操作策略对该网页进行操作;以及输出对该网页操作的操作结果。
[0005]依据本发明的另一个方面,提供了网络资源的提取装置,其包括:消息获取模块,其适于从多个文档消息的消息队列中提取文档消息,其中每一文档消息包含需要操作的网页的URL节点以及对该网页进行操作的操作策略;网页打开模块,其适于将与所述文档消息中包含的URL节点对应的网页用浏览器打开;网页操作模块,其适于依照所述文档消息中包含的所述操作策略对该网页进行操作;以及结果输出模块,其适于输出对该网页操作的操作结果。
[0006]本发明的网络资源的提取方法及装置借助浏览器对网络技术高度支持的优势,将复杂的http通讯过程,加密,JS事件等技术交给浏览器执行,节约了大量的人力。通过使用本发明,用户只需专注于简单的人工浏览器操作,将操作步骤通过配置信息告知本发明的网络资源的提取装置或者通过本发明的网络资源的提取方法来执行,就可以获取最终有效的网页信息或资源。另外,本发明对网络爬虫复杂网页及资源的抓取自动化提供了基础。
[0007]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0008]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:[0009]图1示出了根据本发明的一种实施方式的基于浏览器的网络资源的提取方法的流程图;
[0010]图2示出了根据本发明的另一个实施方式的基于浏览器的网络资源的提取装置的方框示意图。
【具体实施方式】
[0011]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0012]在现有的网络资源下载技术中,由于网页或者资源采用了异步请求处理技术、或者通过JS或cookie对网页或资源的链接进行加密等技术,一方面,常用的curl, urllib,socket等网络技术采用直接下载的方式将无法获取网页信息或资源的网络链接;另一方面,需要逐个分析http通讯协议,加密算法等等,耗费大量的人力,且存在无法破解的风险,极其不利于生产流程的自动化。
[0013]由于浏览器具有对网络技术高度支持的优势,其支持异步请求处理技术以及在打开网页时能够自动解密并加载网页资源,所以通过浏览器能够直接获取网页信息或资源的网络链接。因此,本发明提出了一种网络资源的提取方法和装置,其借助于浏览器、按照定制步骤获取最终的有效的网络信息或资源。
[0014]图1示出了根据本发明的一种实施方式的网络资源的提取方法。
[0015]如图1所示,首先,在步骤S110,从包含多个文档消息的消息队列中提取文档消息或者接收通过任务调度的方式所传送的包含多个文档消息的消息队列中的文档消息,其中每一文档消息包含需要操作的网页的URL节点以及对该网页进行操作的操作策略。所述文档消息可以由XML、JS0N、或protobuf来创建。其中protobuf是google定义的序列化格式,可以用于编制文档消息。所述对该网页进行操作的操作策略可以包括对该网页进行操作的操作步骤,其中每一操作步骤对应于XML、JS0N、或protobuf的一个OPTION节点,每个OPTION节点包括如下属性:对网页进行的操作方式;和对网页进行操作的部分。其中所述对网页进行的操作方式可以根据需要设置包括点击鼠标左键;点击鼠标右键;下载文件;以及获取网页的DOM结构。所述对网页进行操作的部分包括在网页上点击的坐标、点击的控件名称、或记录的点击的URL。
[0016]下面具体描述如何用XML文档创建文档消息。
[0017]当用户想对某一网站的网页进行某一操作时,例如从某一网站上下载资源、对网页进行渲染等,可以根据该网站中网页的特点、按照用户对网页的真实操作步骤编制XML文档。在该XML文档中,存储了用户需要操作的网页的URL节点以及对网页进行操作的操作步骤,其中每一操作步骤对应于XML的一个OPTION节点,每个OPTION节点可以具有以下属性:
[0018]〈1>对网页进行的操作方式type,其中可以设置:
[0019]O代表鼠标左键点击,其只是一个点击的操作,可以用于得到网页的渲染结果、打开网页、触发JS事件等等;[0020]I代表鼠标右键点击,其只是一个点击的操作,通常操作时会弹出一个菜单;
[0021]2代表下载文件,其用于执行下载操作,例如,在鼠标右键点击而弹出的菜单中选择“目标另存为”选项,即可执行下载操作;
[0022]3代表获取网页的DOM结构,其主要在想得到某个网页的渲染结果时使用。
[0023]以上给出的对网页进行的操作方式type都是普通的用户操作,也可以根据需要设置包括其它的用户操作。
[0024]这里举一个通过设置XML获取网页的渲染结果的例子。当用户需要获得页面A(A即该页面的URL)上的信息时,只有在点击控件H后,才能获取,这时人工操作所需的步骤如下:
[0025]al)左键单击A页面上的控件H,这时该控件会执行js,改变网页的DOM结构。
[0026]bl)获取A页面的渲染结果(经过al)操作后的结果)。
[0027]这时对应上述人工操作的步骤,用XML编制相应的文档消息如下:
[0028](I)设置的URL节点为A ;
[0029](2)对网页A进行操作的操作步骤:
[0030]操作步骤一:对应于上述人工操作的实际步骤al),在用XML编制时,option设置为:type = O ;click_info =控件H的名称,具体编制成如下形式:
[0031]
【权利要求】
1.一种基于浏览器的网络资源的提取方法,包括: 从包含多个文档消息的消息队列中提取文档消息或者接收通过任务调度方式所传送的包含多个文档消息的消息队列中的文档消息,其中每一文档消息包含需要操作的网页的URL节点以及对该网页进行操作的操作策略; 用浏览器将与所述文档消息中包含的URL节点对应的网页打开; 依照所述文档消息中包含的所述操作策略对该网页进行操作;以及 输出对该网页操作的操作结果。
2.根据权利要求1所述的方法,其中, 所述文档消息由XML、JSON、或protobuf来创建。
3.根据权利要求2所述的方法,其中, 所述对该网页进行操作的操作策略包括对该网页进行操作的操作步骤,其中每一操作步骤对应于XML、JS0N、或protobuf的一个OPTION节点,每个OPTION节点包括如下属性:对网页进行的操作方式;以及对网页进行操作的部分。
4.根据权利要求3所述的方法,其中, 所述对网页进行的操 作方式包括: 点击鼠标左键; 点击鼠标右键; 下载文件;以及 获取网页的DOM结构。
5.根据权利要求3或4所述的方法,其中, 所述对网页进行操作的部分包括在网页上点击的坐标、点击的控件名称、或记录的点击的URL。
6.根据权利要求1-5中任何一项所述的方法,其中, 所述输出对该网页操作的操作结果包括: 将操作结果进行编码,存储至XML、JS0N、或protobuf的结果节点中; 输出 XML、JS0N、或 protobuf 文件。
7.一种基于浏览器的网络资源的提取装置,包括: 消息获取模块,其适于从多个文档消息的消息队列中提取文档消息或者接收通过任务调度的方式所传送的包含多个文档消息的消息队列中的文档消息,其中每一文档消息包含需要操作的网页的URL节点以及对该网页进行操作的操作策略; 网页打开模块,其适于将与所述文档消息中包含的URL节点对应的网页用浏览器打开; 网页操作模块,其适于依照所述文档消息中包含的所述操作策略对该网页进行操作;以及 结果输出模块,其适于输出对该网页操作的操作结果。
8.根据权利要求7所述的装置,其中, 所述文档消息由XML、JS0N、或protobuf来创建。
9.根据权利要求8所述的装置,其中,所述对该网页进行操作的操作策略包括对该网页进行操作的操作步骤,其中每一操作步骤对应于XML、JSON、或protobuf的一个OPTION节点,每个OPTION节点包括如下属性:对网页进行的操作方式;以及对网页进行操作的部分。
10.根据权利要求9所述的装置,其中, 所述对网页进行的操作方式包括: 点击鼠标左键; 点击鼠标右键; 下载文件;以及 获取网页的DOM结构。·
【文档编号】G06F17/30GK103593396SQ201310464253
【公开日】2014年2月19日 申请日期:2013年10月8日 优先权日:2013年10月8日
【发明者】徐锐波 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1