web机器人流量识别方法及装置的制造方法

文档序号:9508541阅读:423来源:国知局
web机器人流量识别方法及装置的制造方法
【技术领域】
[0001]本发明涉及网络安全技术领域,尤其涉及一种web机器人流量识别方法及装置。
【背景技术】
[0002]据分析统计,目前,Web机器人流量在网站流量中占到了 50%以上,如在Bash漏洞爆出来后,互联网上立即出现了大量利用这个漏洞对全网Web服务器进行攻击的机器人流量,据统计,全球大概存在142000主机受到这个漏洞的影响。此外,除了一般定义中的攻击者,还有另一类攻击系统,攻击系统会对全世界的网站进行持续的扫描,并对网站的版本信息,网络的架构,以及服务器开放的端口、服务甚至漏洞等全部进行记录。一旦发现存在漏洞,攻击者就可以第一时间发送攻击,这种方式也将带来大量的Web机器人流量。攻击者还可利用Web机器人收集Web站点上发布的敏感信息,如Email地址、身份证号码、生日、电话号码等,用来发送垃圾邮件或者传播病毒。Web机器人蠕虫还可通过Web机器人自动在Web站点上发表文章、评论等,使得Web站点充斥各种垃圾信息或者散布谣言、反动言论等。上述攻击行为均会在网站流量中带来大量的Web机器人流量,影响网站的正常运营。
[0003]现有的识别web机器人流量方法中一般是由WAF、IPS系统利用字符串、正则表达式等来定义攻击和漏洞的特征码,通过对数据包进行深度内容检测如字符串搜索、正则表达式匹配等来识别是否为攻击,但存在如下不足:
[0004]1、特征码是通过分析现有的攻击手段和漏洞提取出来的,因此只能识别已知的攻击和漏洞,无法识别出Web机器人利用未知漏洞或者新的攻击内容来进行的攻击。
[0005]2、现有系统通过定义攻击来识别异常,如SQL注入、XSS攻击等。对于网站的正常功能使用则不会识别为攻击,如发表评论、访问页面。但Web机器人利用的正好是网站提供的正常功能,如访问页面收集Email信息,自动发布垃圾评论和文章,攻击系统扫描网站收集网站的架构信息等行为。对于Web机器人的这些攻击行为,WAF和IPS系统都无法提取出特征码,因此也无法对Web机器人进行识别。
[0006]上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

【发明内容】

[0007]本发明的主要目的在于提供一种web机器人流量识别方法及装置,旨在有效地对Web机器人流量进行识别。
[0008]为实现上述目的,本发明提供的一种web机器人流量识别方法,所述方法包括以下步骤:
[0009]解析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建立页面访问模型;
[0010]基于所述页面访问模型对访问页面的行为进行分析;
[0011]根据分析结果识别所述网络数据流中的web机器人流量。
[0012]优选地,所述解析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建立页面访问模型的步骤包括:
[0013]对网络数据流中的页面访问请求进行解析获取URI请求信息,并根据所述URI请求信息建立URI请求序列的链接关系图,将所述链接关系图作为页面访问模型。
[0014]优选地,所述基于所述页面访问模型对访问页面的行为进行分析的步骤包括:
[0015]根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的响应内容,解析所述响应内容获取对应的浏览器URI请求,根据所述浏览器URI请求建立所述浏览器URI请求序列的链接关系图,将所述浏览器URI请求序列的链接关系图作为正常页面访问模型;
[0016]将所述页面访问模型与所述正常页面访问模型进行比对;
[0017]所述根据分析结果识别所述网络数据流中的web机器人流量的步骤包括:当根据比对结果分析在所述页面访问模型中访问页面的行为出现至少以下两种行为时,则识别为web机器人流量;该行为包括:
[0018]未访问与所述响应内容相关的浏览器URI请求链接;
[0019]对同一页面的访问次数超过预设次数;
[0020]访问失败的页面的比例超过预设比例;
[0021]访问的页面资源类型单一。
[0022]优选地,所述根据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括:
[0023]记录所述web机器人流量的源IP地址,并封锁所述源IP地址的流量。
[0024]优选地,所述根据分析结果识别所述网络数据流中的web机器人流量的步骤之后还包括:
[0025]记录所有识别的web机器人流量日志,并对所有识别的web机器人流量进行归类展示,以配置对应的安全策略。
[0026]此外,为实现上述目的,本发明还提供一种web机器人流量识别装置,所述web机器人流量识别装置包括:
[0027]解析建立模块,用于解析网络数据流中请求访问的页面资源信息,根据所述页面资源信息建立页面访问模型;
[0028]分析模块,用于基于所述页面访问模型对访问页面的行为进行分析;
[0029]识别模块,用于根据分析结果识别所述网络数据流中的web机器人流量。
[0030]优选地,所述解析建立模块具体用于:
[0031]对网络数据流中的页面访问请求进行解析获取URI请求信息,并根据所述URI请求信息建立URI请求序列的链接关系图,将所述链接关系图作为页面访问模型。
[0032]优选地,所述分析模块具体用于:根据网络数据流中的页面访问请求获取所述页面访问请求在浏览器中的响应内容,解析所述响应内容获取对应的浏览器URI请求,根据所述浏览器URI请求建立所述浏览器URI请求序列的链接关系图,将所述浏览器URI请求序列的链接关系图作为正常页面访问模型;将所述页面访问模型与所述正常页面访问模型进行比对;
[0033]所述识别模块具体用于:
[0034]当根据比对结果分析在所述页面访问模型中访问页面的行为出现至少以下两种行为时,则识别为web机器人流量;该行为包括:
[0035]未访问与所述响应内容相关的浏览器URI请求链接;
[0036]对同一页面的访问次数超过预设次数;
[0037]访问失败的页面的比例超过预设比例;
[0038]访问的页面资源类型单一。
[0039]优选地,所述web机器人流量识别装置还包括:
[0040]封锁模块,用于记录所述web机器人流量的源IP地址,并封锁所述源IP地址的流量。
[0041 ] 优选地,所述web机器人流量识别装置还包括:
[0042]归类模块,用于记录所有识别的web机器人流量日志,并对所有识别的web机器人流量进行归类展示,以配置对应的安全策略。
[0043]本发明提出的一种web机器人流量识别方法及装置,通过对网络数据流中请求访问的页面资源信息进行解析,建立能反映出访问页面行为的页面访问模型,再对该页面访问模型进行分析即可识别出网络数据流中的web机器人流量。由于是根据访问页面的行为来对web机器人进行识别,可根据web机器人访问页面的习惯性行为对页面访问模型进行比对分析,从而有效地识别出网络数据流中web机器人在页面访问行为中所产生的流量。
【附图说明】
[0044]图1为本发明web机器人流量识别方法第一实施例的流程示意图;
[0045]图2为本发明web机器人流量识别方法第二实施例的流程示意图;
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1