一种插件开发方法及系统的制作方法

文档序号:8430501阅读:374来源:国知局
一种插件开发方法及系统的制作方法
【技术领域】
[0001]本发明涉及插件管理领域,更具体地说,涉及一种插件开发方法及系统。
【背景技术】
[0002]定向采集系统是网络蜘蛛的一种,它是网络数据获取系统的核心部分。它通过对互联网上已知信息(即网络链接,URL Universal Resource Locator)的不断抓取海量网页内容,获取其中所有主题相关内容。
[0003]对于目前较常见的网页个性化采集方法,需要根据配置的抽取规则,来提取和主题相关的内容。网页个性化采集需要维护大量的抽取规则。简单的网页,可以通过通用的抽取规则进行匹配,如正则表达式等,但是对于复杂网页,则需要额外的规则逻辑来处理,而这部分需进行代码开发。开发的代码以插件的形式存在,通过编译\打包等,动态更新到线上的采集系统中去。
[0004]Java是一种最常见的爬虫插件开发语言,在基于Java语言开发的插件维护时需要编译、打包、重启Java虚拟机等操作,工作繁琐,出错几率高。另外,插件的版本控制也比较繁琐,需要记录每个插件的版本号,在插件维护过程容易出错。
[0005]综上所述,现有的插件开发体系已经不能满足日益发展的互联网采集技术的需求,需要寻找一种高效、便捷的插件开发模式。

【发明内容】

[0006]本发明要解决的技术问题在于,针对现有技术对插件开发繁琐的缺陷,提供一种插件开发方法及系统。
[0007]本发明解决其技术问题所采用的技术方案是:构造一种插件开发方法,用于在插件开发平台中生成定向网页采集的插件并将该插件上传至插件管理中心,该方法包括以下步骤:
[0008]S1、在插件开发平台中输入待开发的URL地址,根据输入的URL地址下载网页,并将网页解析为DOM树结构;
[0009]S2、根据URL地址所下载的网页,选择自动生成Java脚本抽取规则的方法或编辑Java脚本抽取规则的方法,以得到Java脚本抽取规则;根据所述Java脚本抽取规则生成插件;
[0010]其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;
[0011]S3、对所述插件进行测试;
[0012]S4、若测试通过,转至步骤S5 ;若测试不通过,转至步骤S2 ;
[0013]S5、将所述插件上传并存储至插件管理中心。
[0014]在本发明所述的插件开发方法中,所述步骤S2还包括以下步骤:
[0015]S21、若根据所述URL地址得到的网页需要登录操作,则录制登录网页的过程,生成登陆脚本;
[0016]S22、根据所述Java脚本抽取规则和登陆脚本生成插件。
[0017]在本发明所述的插件开发方法中,所述步骤S3包括以下子步骤:
[0018]S31、选择单元测试或集成测试中的一种测试方式;
[0019]S32、根据所选择的测试方式对所述插件进行测试。
[0020]在本发明所述的插件开发方法中,所述步骤S5包括以下子步骤:
[0021]S51、在所述插件开发平台中向所述插件管理中心发出上传请求;
[0022]S52、在所述插件管理中心中,对发出所述上传请求的插件开发平台进行第一认证,若第一认证通过,则授权所述上传请求,允许所述插件开发平台上传所述插件;若第一认证不通过,则所述插件开发平台返回第一认证不通过的提示信息;
[0023]S53、所述插件上传至插件管理中心后,对所述插件进行版本控制,将进行版本控制后的插件存储至插件管理中心。
[0024]在本发明所述的插件开发方法中,该方法还包括:
[0025]S6、在所述步骤S5之后,将所述插件下载至客户端中;
[0026]其中,所述步骤S6包括以下子步骤:
[0027]S61、在客户端中向插件管理中心发送所述插件的下载请求;
[0028]S62、在插件管理中心中对发出所述下载请求的客户端进行第二认证,若第二认证通过,则授权所述下载请求,允许所述客户端下载所述插件;若第二认证不通过,则所述客户端返回第二认证不通过的提示信息;
[0029]S63、将进行版本控制后的插件下载至所述客户端。
[0030]本发明的另一方面,提供一种插件开发系统,该系统包括用于生成定向网页采集插件的插件开发平台和与所述插件开发平台连接的插件管理中心,所述插件开发平台包括网页分析模块、插件配置模块、插件测试模块和上传模块;
[0031]所述网页分析模块用于输入待开发的URL地址,根据输入的URL地址下载网页,并将网页解析为DOM树结构;;
[0032]所述插件配置模块用于根据URL地址所得到的网页,在自动生成Java脚本抽取规则的方法和编辑Java脚本抽取规则的方法中选择其中的一种,以得到Java脚本抽取规则;其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;所述插件配置模块还用于根据所述Java脚本抽取规则生成插件;
[0033]所述插件测试模块用于对所述插件进行测试,并判断测试是否通过;
[0034]所述上传模块用于将测试通过的插件上传至插件管理中心;
[0035]所述插件管理中心用于接收并存储所述插件。
[0036]在本发明所述的插件开发系统中,所述插件配置模块还用于若根据所述URL地址得到的网页需要登录操作,则录制登录网页的过程,生成登陆脚本,根据所述Java脚本抽取规则和登陆脚本生成插件。
[0037]在本发明所述的插件开发系统中,所述插件测试模块还用于选择单元测试或集成测试中的一种测试方式,并根据所选择的测试方式对所述插件进行测试。
[0038]在本发明所述的插件开发系统中,所述上传模块还用于向所述插件管理中心发出上传请求;
[0039]所述插件管理中心包括插件认证模块、版本控制模块和存储模块;
[0040]所述插件认证模块用于对发出所述上传请求的插件开发平台进行第一认证,若第一认证通过,则授权所述上传请求,允许所述插件开发平台上传所述插件;若第一认证不通过,则所述插件开发平台返回第一认证不通过的提示信息;
[0041 ] 所述版本控制模块用于对所述插件进行版本控制;
[0042]所述存储模块用于存储进行版本控制后的插件。
[0043]在本发明所述的插件开发系统中,该系统还包括与所述插件管理中心连接的客户端;
[0044]所述客户端用于向插件管理中心发送所述插件的下载请求并下载进行版本控制后的插件;
[0045]所述插件认证模块还用于对发出所述下载请求的客户端进行第二认证,若第二认证通过,则授权所述下载请求,允许所述客户端下载所述插件;若第二认证不通过,则所述客户端返回第二认证不通过的提示信息。
[0046]实施本发明的一种插件开发方法及系统,具有以下有益效果:快速、高效、安全地开发插件。
【附图说明】
[0047]下面将结合附图及实施例对本发明作进一步说明,附图中:
[0048]图1是本发明第一方法实施
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1