一种面向网页采集任务的插件管理方法及其装置的制造方法_2

文档序号:8445391阅读:来源:国知局
成Java脚本插件,并选择Java脚本插件的配置模式,所述配置模式包括,选择上传所述Java脚本插件、在所述网页界面内录入所述抽取规则、在所述网页界面内编写所述Java脚本插件。
[0063]S15,将所述插件抽取规则或者所述Java脚本插件发送到插件管理中心。首先,建立插件管理中心,该插件管理中心依据特定的索引逻辑对上传到该插件管理中心的插件进行管理,例如,根据插件类型进行分类存储、根据插件版本号进行分类存储等等。
[0064]图3是图1示出的步骤SI的另一子步骤流程图。步骤SI还包括以下子步骤:
[0065]S15,选择要进行测试的插件。
[0066]S16,输入用于测试所述插件的网络链接地址。
[0067]S17,选择测试模式,其中,所述测试模式包括单元测试以及集成测试。对于单元测试,可以比对测试页面左右两边的测试数据,其中,一边为插件测试结果,另一边为带有根据抽取规则框选相应内容的原网页。集成测试会将测试数据录入到缓存数据库,会提供简单的查询功能。
[0068]S18,获取测试结果,并分析处理所述测试的结果。例如,针对该插件的性能进行测试,得到抓取效率值、抓取重要内容的权重值等等。
[0069]图4是图1示出的步骤S2的具体子步骤流程图。步骤S2具体包括以下子步骤:
[0070]S21,根据用户提供的身份信息对用户的身份进行权限校验。可以理解,当存在多用户时,根据不同的用户可以设置相应的权限范围,例如,针对普通用户,设置的权限范围是:只能对插件进行下载操作或者查询操作,针对管理员用户,则可以提供更多的权限,例如,对插件的编辑操作或者删除操作。
[0071]S22,当用户的身份校验成功后,获取与用户对应的权限信息,并根据所述权限信息向用户提供插件下载、插件上传、或者插件查询的操作权限。
[0072]S23,当爬虫控制节点获取到所述插件时,在正常工作状态下,重复动态加载所述插件。因此,不需要在系统启动时事先进行插件的加载,可以在需要使用该插件时进行加载,当使用完毕时,停止该插件的抓取工作。
[0073]图5是图1示出的步骤S2的另一子步骤流程图,步骤S2还包括以下子步骤:
[0074]S24,判断用户的操作模式,所述操作模式包括:删除所述插件、增加所述插件、下载所述插件以及修改所述插件。
[0075]S25,根据所述操作模式以及所述插件的版本信息,对所述插件进行维护,同时,根据用户需求对所述插件进行相应的维护操作。本发明采用GIt (分布式版本控制系统)或者Svn (subvers1n)进行插件的维护操作。其中,Svn是使用广泛的版本控制管理工具,而Git易于本地增加分支和分布式的特性,可离线提交。Subvers1n属于集中式的版本控制系统集中式的版本控制系统都有一个单一的集中管理的服务器,保存所有插件的修订版本,而协同工作的人们都通过客户端连到这台服务器,取出最新的插件或者提交插件更新。Git属于分布式的版本控制系统,Git记录插件版本历史,主要针对插件数据的整体是否发生变化。同时,Git不保存文件内容前后变化的差异数据。Git是把变化的插件作快照后,记录在一个微型的文件系统中。每次提交更新时,它会纵览一遍所有文件的指纹信息并对文件作一快照,然后保存一个指向这次快照的索引。
[0076]图6是本发明另一较佳实施例提供的面向网页采集任务的插件管理方法流程图。在所述步骤S2之后还有步骤S3?S7,
[0077]S3,爬虫控制节点向插件管理中心发送插件下载请求。
[0078]S4,所述插件管理中心获取调用所述爬虫控制节点接口的用户的身份信息。
[0079]S5,所述插件管理中心验证所述身份信息,当所述身份信息通过验证时,所述插件管理中心通过所述下载请求。可以理解,当用户的身份信息未通过验证时,拒绝当前用户获取该插件。
[0080]S6,根据所述下载请求内包含的插件版本信息,版本控制服务器选择相应版本的插件以供下载。如上例所述,在版本控制服务器建立针对所有插件的索引信息,根据该索引信息获取所需版本的插件。
[0081]S7,所述爬虫控制节点动态加载所述插件,并开始在所述网页内容内采集所需信息。当爬虫控制节点需要抓取网页内容时,分析所需抓取的内容和需求,根据内容和需求选取相应功能的插件,同时,选取该插件相应的版本,加载该版本的插件,实施网页内容抓取操作,当该插件完成抓取任务时,停止加载该插件。
[0082]图7是本发明较佳实施例提供的面向网页采集任务的插件管理装置的结构框图。该装置包括:插件开发模块10以及插件管理中心20,其中:
[0083]插件开发模块10包括用于对网页内容进行分析的网页分析器11、用于插件进行相关配置的插件配置客户端12以及用于对所述插件进行测试的插件测试客户端13。
[0084]插件管理中心20包括用于向用户提供所述插件的下载、上传、查询服务的插件服务模块21以及对插件版本进行控制的版本控制模块22。上述各个模块的功能与上述方法步骤相对应,在此不再赘述。
[0085]实施本发明,通过结合Java脚本语言优势,以及现有的版本控制服务器(如上例所述的SVN、Git),提高插件的开发效率,实现插件的自动化管理,从而大大降低插件开发和插件维护的成本。同时,在插件开发时,无需重启程序即可以支持插件的动态重复加载,在插件管理时,管理操作更为安全、便捷。
[0086]应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
【主权项】
1.一种面向网页采集任务的插件管理方法,其特征在于,所述方法包括以下步骤: SI,在一网页内选中任意的网页内容,根据所述网页内容生成与所述网页内容对应的抽取规则,同时,根据所述抽取规则生成与所述抽取规则对应的插件; S2,对所述插件进行测试,当所述插件通过测试后,加载所述插件完成网页内容的采集操作,同时,管理所述插件的使用权限,并对所述插件采取相应的维护操作。
2.根据权利要求1所述的面向网页采集任务的插件管理方法,其特征在于,所述步骤SI具体包括以下子步骤: S11,输入网络链接地址,下载与所述网络链接地址对应的网页界面; S12,将所述网页界面解析为相应的文档对象结构; S13,分析所述文档对象结构,并根据所述选中的网页内容生成对应的Java脚本抽取规则; S14,根据所述Java脚本抽取规则生成Java脚本插件,并选择Java脚本插件的配置模式,所述配置模式包括,选择上传所述Java脚本插件、在所述网页界面内录入所述抽取规贝U、在所述网页界面内编写所述Java脚本插件; S15,将所述插件抽取规则或者所述Java脚本插件发送到插件管理中心。
3.根据权利要求2所述的面向网页采集任务的插件管理方法,其特征在于,所述步骤SI还包括以下子步骤: S15,选择要进行测试的插件; S16,输入用于测试所述插件的网络链接地址; S17,选择测试模式,其中,所述测试模式包括单元测试以及集成测试; S18,获取测试结果,并分析处理所述测试的结果。
4.根据权利要求1所述的面向网页采集任务的插件管理方法,其特征在于,所述步骤S2具体包括以下子步骤: S21,根据用户提供的身份信息对用户的身份进行权限校验; S22,当用户的身份校验成功后,获取与用户对应的权限信息,并根据所述权限信息向用户提供插件下载、插件上传、或者插件查询的操作权限; S23,当爬虫控制节点获取到所述插件时,在正常工作状态下,重复动态加载所述插件。
5.根据权利要求4所述的面向网页采集任务的插件管理方法,其特征在于,所述步骤S2还包括以下子步骤: S24,判断用户的操作模式,所述操作模式包括:删除所述插件、增加所述插件、下载所述插件以及修改所述插件; S25,根据所述操作模式以及所述插件的版本信息,对所述插件进行维护,同时,根据用户需求对所述插件进行相应的维护操作。
6.根据权利要求1所述的面向网页采集任务的插件管理方法,其特征在于,在所述步骤S2之后还有步骤S3?S7, S3,爬虫控制节点向插件管理中心发送插件下载请求; S4,所述插件管理中心获取调用所述爬虫控制节点接口的用户的身份信息; S5,所述插件管理中心验证所述身份信息,当所述身份信息通过验证时,所述插件管理中心通过所述下载请求; S6,根据所述下载请求内包含的插件版本信息,版本控制服务器选择相应版本的插件以供下载; S7,所述爬虫控制节点动态加载所述插件,并开始在所述网页内容内采集所需信息。
7.一种面向网页采集任务的插件管理装置,其特征在于,所述装置包括:插件开发模块以及插件管理中心,其中,所述插件开发模块包括用于对网页内容进行分析的网页分析器、用于插件进行相关配置的插件配置客户端以及用于对所述插件进行测试的插件测试客户端; 所述插件管理中心包括用于向用户提供所述插件的下载、上传、查询服务端插件服务模块以及对插件版本进行控制的版本控制模块。
【专利摘要】本发明公开了一种面向网页采集任务的插件管理方法及其装置,该方法包括以下步骤:在一网页内选中任意的网页内容,根据所述网页内容生成与所述网页内容对应的抽取规则,同时,根据所述抽取规则生成与所述抽取规则对应的插件;对所述插件进行测试,当所述插件通过测试后,加载所述插件完成网页内容的采集操作,同时,管理所述插件的使用权限,并对所述插件采取相应的维护操作。实施本发明,通过结合Java脚本语言优势,以及现有的版本控制服务器,提高插件的开发效率,实现插件的自动化管理,从而大大降低插件开发和插件维护的成本。同时,在插件开发时,无需重启程序即可以支持插件的动态重复加载,在插件管理时,管理操作更为安全、便捷。
【IPC分类】G06F9-44
【公开号】CN104765592
【申请号】CN201410004005
【发明人】彭威, 杨长龙, 唐新民, 沈智杰, 景晓军
【申请人】任子行网络技术股份有限公司
【公开日】2015年7月8日
【申请日】2014年1月3日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1