一种网络爬虫模板的行为式生成方法

文档序号:6633518阅读:1382来源:国知局
一种网络爬虫模板的行为式生成方法
【专利摘要】本发明公开了一种网络爬虫模板的行为式生成方法,以操作者访问网络服务为入口,选取一个或多个网络服务作为训练库,通过采集操作者对网络服务操作的行为集合和网络服务交互数据,并分析其行为特征与网络服务结构特征的关联性,进而快速构建网络爬虫的模板。较之于传统手段,该方法不仅能快速生成通用模板,而且可进一步提升采用该通用模板的网络数据爬虫的整体效率、覆盖度和准确度。
【专利说明】一种网络爬虫模板的行为式生成方法

【技术领域】
[0001]本发明涉及计算机网络【技术领域】,特别是涉及一种网络爬虫模板的行为式生成方法。

【背景技术】
[0002]网络爬虫,是一种按照既定规则,自动抓取网络信息的程序或脚本。随着互联网的深入发展,尤其是承载多元信息网页数目的不断增长,使信息整合梳理角色的搜索引擎面临着技术不断革新的需求。同时,网络安全的日趋严峻也促使Web扫描技术需要更为高效、普适的解决方案,而它们重要组成技术:网络爬虫,其发展进步则对以上【技术领域】起到深远的影响和直接的推动。从早期的对以HTML为代表的静态网页抓取,一直到对ASP、PHP等动态交互式网站的有效获得,其采用的抓取思想多种多样,诸如基于网页特征、基于数据模式、基于领域等,而技术的选择更是汗牛充栋,从传统的正则表达式一直到现今的模拟浏览器解决方案等,不一而足。
[0003]网络爬虫效率、覆盖度和准确性一直是当今研究的热点,这些因素制约着爬虫技术的进一步发展,当今的解决方案往往顾此失彼,很难同时保证三者的效能平衡。随着技术的革新和进步,模板化网络爬虫为此提供了良好的解决方案,在目标网络服务数量较少时,可有效生成不同的爬虫模板,并在此基础上为网络爬虫提升了效能。但面对海量的网络服务时,传统网络爬虫模板却面临生成速度低下,模板智能化程度低的问题,进而制约了网络爬虫效能的进一步提升。


【发明内容】

[0004]针对以上技术问题,本发明以操作者访问网络服务为入口,选取一个或多个网络服务作为训练库,通过采集操作者对网络服务操作的行为集合和网络服务交互数据,并分析其行为特征与网络服务结构特征的关联性,快速构建网络爬虫的模板。较之于传统手段,该方法不仅能快速生成通用模板,而且可进一步提升采用该通用模板的网络数据爬虫的整体效率、覆盖度和准确度。
[0005]本发明基于以下步骤实施:
[0006]1、操作者访问网络服务;
[0007]2、选取一个或多个网络服务作为训练库,进行数据采集;
[0008]3、对采集的数据进行特征关联;
[0009]4、构建网络爬虫的通用模板。
[0010]进一步的,所述网络服务是指在计算机网络中,在网络应用层及其上层运行的应用,它提供的数据存储,处理,演示,通信或其他功能通常用于执行基于应用层网络协议的客户端-服务端或点对点的相关架构,包含但不限于各类网站浏览、网络购物、网络游戏、网络商务、网络政务、网络金融等。
[0011 ] 进一步的,所述数据采集是指采集操作者行为集合和网络服务交互数据。
[0012]进一步的,所述操作者行为集合是指包含但不限于操作者在访问网络服务时所产生的网站点击、应用使用、页面浏览、鼠标行为、键盘行为、人工标记、表单填充、网址切换、页面停留、软件行为等所产生的一个或多个交互行为。包含但不限于操作者自身生理、心理反应:如眼动反应、心率、表情、脑电波等一个或多个外在行为状态属性的捕捉或数字量化。
[0013]进一步的,所述网络服务交互数据是指由于操作者对网络服务的访问而产生网络通信数据,包含但不限于信令传输、数据传输、协议建立等。
[0014]进一步的,所述特征关联是指操作者行为特征与网路服务结构特征进行关联。

【专利附图】

【附图说明】
[0015]下面结合附图和【具体实施方式】对本发明的技术方案作进一步具体说明。
[0016]图1为本发明总体框架图

【具体实施方式】
[0017]本方法可由多种方式实现,现结合图1所示,本领域一般技术人员可根据以下步骤完成对方法的部署和实施。
[0018]1、选取网络服务
[0019]选取网络服务中的网站浏览,并选定网站www.163.com。使用鼠标点击、键盘输入的浏览行为。
[0020]2、数据采集
[0021]I)定义浏览动作
[0022]a.符号Ax,其中A代表鼠标点击行为,X代表全局点击计数,即:全局第一次点击表不为=A1,全局第二次点击为A2 ;
[0023]b.符号Kx,其中K代表键盘输入行为,X代表全局输入次数,即:全局第一次输入表不为=K1,全局第二次输入为K2 ;
[0024]2)操作者行为采集
[0025]a.载入网站 www.163.com ;
[0026]b.点击“新闻”,将其作为全局第一次鼠标点击,其符号即为A1 ;
[0027]c.点击“登录”,其为全局第二次鼠标点击,其符号即为A2 ;
[0028]d.输入test@163.com,将其作为全局第一次键盘输入,其符号即为K1 ;
[0029]e.输入密码,其为全局第二次键盘输入,其符号即为K2 ;
[0030]f.将A1, A2, K1, K2按照顺序形成{A1; A2, K1, K2I行为集合,并将其表示为集合{S}。
[0031]3)网络服务交互数据采集
[0032]a.记录行为A1进行时,产生的网页交互数据D1 ;
[0033]b.记录行为A2进行时,产生的网页交互数据D2 ;
[0034]c.记录行为K1进行时,产生的网页交互数据D3 ;
[0035]d.记录行为K2进行时,产生的网页交互数据D4 ;
[0036]e.将D1, D2, D3, D4按照顺序形成(D1, D2, D3, D4I数据集合,并将其表示为{D}。
[0037]3、特征关联
[0038]定义由行为A,K产生数据D的关联特征R = A(K) — D,其中“一”表示自左向右的事件发生顺序。故可知,其关联特征结果如下-.R1 = A1 — D1 ;R2 = A2 — D2 ;R3 = K1 — D1 ;R4=K2 — D2 ;R5 = {S} — {D} o
[0039]4、通用模板生成
[0040]以特征关联结果R1, R2, R3, R4, R5为基础生成通用模板,并予以输出。使其可被网络数据爬虫所使用。
[0041]最后所应说明的是,以上【具体实施方式】仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
【权利要求】
1.一种网络爬虫模板的行为式生成方法,其特征在于,包括以下步骤: 1)操作者访问网络服务; 2)选取一个或多个网络服务作为训练库,进行数据采集; 3)对采集的数据进行特征关联; 4)构建网络爬虫的通用模板。
2.根据权利要求1所述的网络爬虫模板的行为式生成方法。其特征在于,所述网络服务是指在计算机网络中,在网络应用层及其上层运行的应用,它提供的数据存储,处理,演示,通信或其他功能通常用于执行基于应用层网络协议的客户端-服务端或点对点的相关架构,包含但不限于各类网站浏览、网络购物、网络游戏、网络商务、网络政务、网络金融等。
3.根据权利要求1所述的网络爬虫模板的行为式生成方法,其特征在于,所述数据采集是指采集操作者行为集合和网络服务交互数据。
4.根据权利要求3所述的数据采集,其特征在于,所述操作者行为集合是指包含但不限于操作者在访问网络服务时所产生的网站点击、应用使用、页面浏览、鼠标行为、键盘行为、人工标记、表单填充、网址切换、页面停留、软件行为等所产生的一个或多个交互行为。包含但不限于操作者自身生理、心理反应:如眼动反应、心率、表情、脑电波等一个或多个外在行为状态属性的捕捉或数字量化。
5.根据权利要求3所述的数据采集,其特征在于,所述网络服务交互数据是指由于操作者对网络服务的访问而产生网络通信数据,包含但不限于信令传输、数据传输、协议建立坐寸ο
6.根据权利要求1所述的网络爬虫模板的行为式生成方法。其特征在于,所述特征关联是指操作者行为特征与网路服务结构特征进行关联。
【文档编号】G06F17/30GK104298783SQ201410627310
【公开日】2015年1月21日 申请日期:2014年11月10日 优先权日:2014年11月10日
【发明者】温杰, 李牧, 舒文静, 高谞 申请人:武汉安问科技发展有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1