统一资源定位符去重方法及装置的制造方法

文档序号:9217197阅读:313来源:国知局
统一资源定位符去重方法及装置的制造方法
【技术领域】
[0001] 本发明涉及网络技术领域,特别涉及一种统一资源定位符去重方法及装置,以及 相应的去重规则生成方法及装置。
【背景技术】
[0002] URLRewrite是互联网中一种对URL(UniformResourceLocator,统一资源定位 符)进行重写的技术,它首先获得用户端发送来的访问网站的URL请求,然后把它重新写成 网站可以处理的另一个URL,用户得到的是经过处理后的URL地址的返回内容。
[0003] 举例来说,许多新闻网站上的新闻有很多个类别,比如体育、科技等,且每天都有 新的新闻发布,也就是按日期分类,而这些每天的新闻下边还有新闻索引ID。用户端访问 一个体育类的新闻页面时,网站服务器接收到访问请求后,会通过CGI(CommonGateway Interface,通用网管接口)形成一个中间URL地址来统一访问后台数据,如公式(1)所示:
[0004] http://www. qq. com/news/getNews?type=sports&date=20131120&id=l (1)
[0005] 而像公式(1)这样的中间URL结构有居多缺点:不易记忆,不易阅读,在手机、平板 电脑等移动终端上不便传播等。因此,许多网站服务器会通过URL重写技术将该中间URL 结构重写成如公式(2)的形式:
[0006] http://www.qq.com/news/sports/20131120/Lhtml (2)
[0007] 公式(2)的这种URL结构克服了公式(1)那种中间URL的缺点,使得URL更短,更 容易阅读记忆,同时方便传播。
[0008] 但是,URL重写技术带来居多好处的同时,也导致了这样一个现象:一个动态CGI 会被多个URL重写,导致一个网址的URL数量剧增。例如,公式(1)中的分段参数包括 "getNeWS?typ e"、"date"和"id";现假设用户端访问一个科技类的新闻页面,公式(3)是通 过CGI构成的中间URL地址:
[0009] http://www. qq. com/news/getNews?type=science&date=20131121&id=2 (3)
[0010] 可以看到,公式(3)中的分段参数同样包括"getNeWS?type"、"date"和" id",不同 的仅是各个分段参数的值,所以公式(3)和公式(1)这两个中间RUL地址实质上是通过同一 个动态CGI生成的。公式(4 )是公式(3 )通过URL重写技术重写后的URL地址:
[0011] http://www.qq.eom/news/science/20131121/2.html (4)
[0012] 可见,公式(4 )的URL地址和公式(2 )的URL地址是两个不同的URL地址,所以,通 过一个动态CGI生成的地址会被重写成多个URL地址。而这种现象会带来如下问题:
[0013]在做URL安全漏洞检测时,由于URL重写技术可能会将多个URL重写到一个动态 CGI,对这些URL的安全漏洞检测,其实检测的是重写后的同一个动态CGI,因而会导致一个 CGI被重复扫描检测多次。而且,对于大型的网站,由于URL数量太多,加上一个URL可能会 有多个参数,最终导致URL安全漏洞扫描器对公司业务安全漏洞的检测效率极低。同时,重 复扫描检测同一个动态CGI,也给公司业务网站带来不必要的性能损失和运营成本。

【发明内容】

[0014] 本发明实施例的目的是提供一种统一资源定位符去重方法及装置,以解决URL重 写技术会使URL安全漏洞检测的效率降低,以及给网站服务器带来性能损失和增加运营成 本的问题。
[0015] 本发明实施例提出一种统一资源定位符去重方法,包括:
[0016] 根据统一资源定位符的结构预设去重规则库,所述去重规则库中存放多个去重规 贝1J,每个去重规则对应统一资源定位符的不同结构,且所述去重规则中设置有表示对应统 一资源定位符中重写过的分段参数的重写标识;
[0017] 从网站访问数据中获取要去重的统一资源定位符数据;
[0018] 根据统一资源定位符的结构和分段参数,将所述要去重的统一资源定位符与所述 去重规则库中的去重规则进行匹配;以及
[0019] 将匹配出的与相同去重规则对应的统一资源定位符进行过滤,并对应每个去重规 则保留一个统一资源定位符。
[0020] 本发明实施例还提出一种去重规则生成方法,包括:
[0021] 获取要生成去重规则的域名下的统一资源定位符数据;
[0022] 对所述获取的统一资源定位符进行聚类;
[0023] 将聚类后的统一资源定位符按照域名参数部分、后缀部分、分段数目部分以及分 段参数部分进行分割,并形成多条统计信息;
[0024] 获取经过分割后相同结构的统计信息;以及
[0025] 将相同结构的统计信息中值不同的对应分段参数值替换为重写标识,并通过替换 过重写标识的统计信息生成新的去重规则。
[0026] 本发明实施例另提出一种去重规则生成方法,包括:
[0027] 获取预设的去重规则库中已有的去重规则,所述去重规则的结构包括域名参数部 分、后缀部分、分段数目部分以及重写规则部分;
[0028] 获取要生成去重规则的域名下的多个统一资源定位符数据;
[0029] 通过已有的去重规则的后缀部分和重写规则部分,对要生成去重规则的域名下的 多个统一资源定位符进行匹配;以及
[0030] 当匹配到的统一资源定位符的数目大于设定的阈值,则将要生成去重规则的域名 替换对应的去重规则中的域名参数部分,并生成新的去重规则。
[0031] 本发明实施例提出一种统一资源定位符去重装置,包括:
[0032] 去重规则库设置模块,用于根据统一资源定位符的结构预设去重规则库,所述去 重规则库中存放多个去重规则,每个去重规则对应统一资源定位符的不同结构,且所述去 重规则中设置有表示对应统一资源定位符中重写过的分段参数的重写标识;
[0033] 统一资源定位符抓取模块,用于从网站访问数据中获取要去重的统一资源定位符 数据;
[0034] 匹配模块,用于根据统一资源定位符的结构和分段参数,将所述要去重的统一资 源定位符与所述去重规则库中的去重规则进行匹配;以及
[0035] 去重模块,用于将匹配出的与相同去重规则对应的统一资源定位符进行过滤,并 对应每个去重规则保留一个统一资源定位符。
[0036] 本发明实施例还提出一种去重规则生成装置,包括:
[0037] 统一资源定位符获取模块,用于获取要生成去重规则的域名下的统一资源定位符 数据;
[0038] 聚类模块,用于对所述获取的统一资源定位符进行聚类;
[0039] 分割模块,用于将聚类后的统一资源定位符按照域名参数部分、后缀部分、分段数 目部分以及分段参数部分进行分割,并形成多条统计信息;
[0040] 统计信息获取模块,用于获取经过分割后相同结构的统计信息;以及
[0041] 分段参数替换模块,用于将相同结构的统计信息中值不同的对应分段参数值替换 为重写标识,并通过替换过重写标识的统计信息生成新的去重规则。
[0042] 本发明实施例另提出一种去重规则生成装置,包括:
[0043] 去重规则获取模块,用于获取预设的去重规则库中已有的去重规则,所述去重规 则的结构包括域名参数部分、后缀部分、分段数目部分以及重写规则部分;
[0044] 统一资源定位符获取模块,用于获取要生成去重规则的域名下的多个统一资源定 位符数据;
[0045] 后缀和重写规则匹配模块,用于通过已有的去重规则的后缀部分和重写规则部 分,对要生成去重规则的域名下的多个统一资源定位符进行匹配;以及
[0046] 域名参数替换模块,用于当匹配到的统一资源定位符的数目大于设定的阈值,则 将要生成去重规则的域名替换对应的去重规则中的域名参数部分,并生成新的去重规则。
[0047] 相对于现有技术,本发明的有益效果是:通过本发明实施例的方法及装置,可以通 过去重规则对海量URL数据进行过滤去重,从大量的URL数据中还原出极少量它们重写后 的动态CGI,避免在URL安全漏洞检测时,安全漏洞扫描器重复的扫描同一个CGI,从而提高 安全漏洞的检测效率。
【附图说明】
[0048] 图1为本发明实施例的一种登陆地址记录方法及装置的运行环境示意图;
[0049] 图2为图1中一种网站服务器的结构图;
[0050] 图3为本发明实施例的一种统一资源定位符去重方法的流程图;
[0051] 图4为本发明实施例的一种要去重的URL与去重规则进行匹配时的流程图;
[0052] 图5为本发明实施例的第一种去重规则生成方法的流程图;
[0053] 图6为本发明实施例的第一种去重规则生成方法的另一种流程图;
[0054] 图7为本发明实施例的第二种去重规则生成方法的流程图;
[0055] 图8为本发明实施例的第二种去重规则生成方法的另一种流程图;
[0056] 图9为本发明实施例的一种统一资源定位符去重装置的结构图;
[0057] 图10为本发明实施例的一种匹配模块的的结构图;
[0058] 图11为本发明实施例的第一种去重规则生成装置的结构图;
[0059] 图12为本发明实施例的第一种去重规则生成装置的另一种结构图;
[0060] 图13为本发明实施例重写过滤模块的一种的结构图;
[0061] 图14为本发明实施例验证模块的一种的结构图;
[0062] 图15为本发明实施例的第二种去重规则生成装置的结构图;
[0063] 图16为本发明实施例的第二种去重规则生成装置的另一种结构图。
【具体实施方式】
[0064] 有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实 施例详细说明中将可清楚的呈现。通过【具体实施方式】的说明,当可对本发明为达成预定目 的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说 明之用,并非用来对本发明加以限制。
[0065] 本发明实施例提出一种统一资源定位符去重方法及装置,以及相应的去重规则生 成方法及装置,用于重写后的URL地址进行去重过滤,以及生成去重规则以便于对URL地 址进行去重。请参见图1,其为上述的方法及装置的运行环境示意图。一个或多个用户端 100可通过网络300与一个或多个网站服务器200 (图1中只绘示一个)相连。所述用户端 100可以是平板电脑、手机、电子阅读器、遥控器、PC、笔记本电脑、车载设备、网络电视、可穿 戴设备等具有网络功能的智能设备。所述的网络300例如可为互联网、局
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1