一种动态url过滤方法及装置的制造方法_2

文档序号:8258904阅读:来源:国知局
后得到每个URL中的该设 定的标点符号的归一化数值,经过归一化后,任一 URL的该设定的标点符号的归一化数值 均在0?1范围内。同理,域名和/或路径中的数字个数、数字与字符之间的转换频次等的 归一化数值的确定过程也与此类似。
[0042] 后缀长度的归一化数值的确定方式是:先计算各URL的后缀长度,然后找出具备 最长后缀长度的URL,再计算出各URL的后缀长度与最长后缀长度的比值即得到归一化后 的每个URL中的后缀长度的归一化数值,任一 URL的后缀长度的归一化数值均在0?1范 围内。同理,路径深度、域名和/或路径中的最长字符串长度等的归一化数值的确定过程也 与此类似。
[0043]所述字符串特征是指设定的字符串在URL中是否出现的量化信息,比如:设定的 字符串在URL中是否出现对应的量化信息1或者0,所述设定的字符串的获取过程包括:至 少采用设定的停用词对URL中的词进行划分得到设定的字符串,所述设定的停用词包括: "%',、",',和";',。
[0044] 步骤S102,针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向 量,由URL标注集中所有的URL对应的特征向量组成特征矩阵。
[0045] 具体的,在步骤S102中生成对应的特征向量的过程,包括:
[0046] A1 :针对URL标注集中的每一个URL,确定该URL中的字符串特征和统计特征;
[0047] A2 :将该URL中的字符串特征和统计特征组成该URL的特征向量。
[0048] 步骤S103,采用分类算法对URL特征矩阵进行分类得到特征权重向量和二分类阈 值。
[0049] 具体的,所述分类算法,包括:线性逻辑回归分类算法、朴素贝叶斯算法或者支持 向量机算法。优选的,本实施例中的分类算法为线性逻辑回归分类算法。
[0050] 步骤S104,基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特 征生成所述待预测的URL的特征向量。
[0051] 步骤S105,将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加 得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是 静态URL。比如,当目标数值大于二分类阈值时判定待预测的URL是动态URL,否则判定待 预测的URL为静态URL,或者相反。二分类阈值的产生是与特征权重向量对应的,二者需要 在一次分类判断过程中配合使用。
[0052] 本发明第二实施例,与第一实施例对应,本实施例介绍一种动态URL过滤装置,如 图2所示,包括以下组成部分:
[0053] 1)训练模块100,用于基于URL标注集创建信息字典,所述信息字典的内容包括两 种类型:字符串特征和统计特征;针对URL标注集中的每一个URL,根据所述信息字典生成 对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;采用分类算法 对URL特征矩阵进行分类得到特征权重向量和二分类阈值;
[0054] 2)预测模块200,用于基于所述信息字段对待预测的URL进行特征提取,并基于提 取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特 征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待 预测的URL是动态URL还是静态URL。
[0055] 具体的,所述统计特征和所述字符串特征均来源于URL标注集中的所有URL,所述 统计特征至少包括以下各项之一的归一化数值:设定的标点符号出现次数、路径深度、域名 和/或路径中的数字个数、域名和/或路径中的最长字符串长度、后缀长度、数字与字符之 间的转换频次。
[0056]训练模块100,用于按照如下方式确定设定的标点符号出现次数的归一化数值: 先计算该设定的标点符号在各URL中出现的次数,找出出现该设定的标点符号的次数最多 的URL,然后相对于该最多的出现次数,将所有URL中的出现次数进行归一化后得到每个 URL中的该设定的标点符号的统计特征,经过归一化后,任一 URL的该设定的标点符号的统 计特征的数值均在〇?1范围内。同理,域名和/或路径中的数字个数、数字与字符之间的 转换频次等的归一化数值的确定过程也与此类似。
[0057] 训练模块100,用于按照如下方式确定后缀长度的归一化数值:先计算各URL的后 缀长度,然后找出具备最长后缀长度的URL,再计算出各URL的后缀长度与最长后缀长度的 比值即得到归一化后的每个URL中的后缀长度的归一化数值,任一 URL的后缀长度的归一 化数值均在〇?1范围内。同理,路径深度、域名和/或路径中的最长字符串长度等的归一 化数值的确定过程也与此类似。
[0058] 所述字符串特征是指设定的字符串在URL中是否出现的量化信息,比如:设定的 字符串在URL中是否出现对应的量化信息1或者0,所述设定的字符串的获取过程包括:至 少采用设定的停用词对URL中的词进行划分得到设定的字符串,所述设定的停用词包括: "%',、",',和";',。
[0059] 进一步的,训练模块100,用于针对URL标注集中的每一个URL,确定该URL中的字 符串特征和统计特征;将该URL中的字符串特征和统计特征组成该URL的特征向量。
[0060] 本实施例中预测模块200所采用的分类算法,包括:线性逻辑回归分类算法、朴素 贝叶斯算法或者支持向量机算法。优选的,分类算法为线性逻辑回归分类算法。
[0061] 本发明第三实施例,本实施例是在上述实施例的基础上,以采用线性逻辑回归分 类算法对URL集合进行动态静态分类为例,结合附图3?7介绍一个本发明的应用实例。
[0062] 与传统用MD5值对静/动态URL进行分类的方法不同,本发明应用实例是基于线 性逻辑回归分类算法和新的特征集对URL进行分类。整个分类过程的流程如图3所示。
[0063] 在本发明应用实例中,将线性逻辑回归分类算法应用于解决动态URL过滤问题。 此外,本发明虽然沿用逻辑回归进行分类的思路,但在此基础上该算法的特征提取步骤进 行了改进,主要发掘并使用了多个新的特征。
[0064] 下面将从新特征的发掘和线性逻辑回归分类器(即线性逻辑回归算法的执行模 块)两方面对本发明应用实例的内容进行进一步介绍。
[0065] 1)新的统计特征的发掘。通过分析静态和动态网页,总结出6类动态网页的6类 统计特征(包含8个统计特征)以便有效识别动态网页,如下:
[0066] a.特殊标点符号出现次数。标点是帮助读者准确理解书面语言的一种符号。一些 标点符号常常在静态URL和动态URL中出现,例如分号(:),句号(?)和问号(?)等。这 类标点符号具有一定意义,并且常常出现在URL的固定位置。但有些标点符号,例如下划线 (_),连接符(_),百分号(%)等,并不经常出现在静态URL中。在URL训练集中,具备不同 数量的下划线的静态URL和动态URL在所有URL中的比例如图4 (a)所示,具备不同数量的 连字符的静态URL和动态URL在所有URL中的比例如图4 (b)所示、具备不同数量的百分号 的静态URL和动态URL在所有URL中的比例如图4(c)所示,相比静态网页,这些标点符号 出现在动态网页中的频次更大。
[0067] b.路径深度。动态网页隐藏在目标站点很深的路径下面。在URL训练集中,具备 不同路径深度的静态URL和动态URL在所有URL中的比例如图4⑷所示,相比静态网页, 动态网页往往包含更多的"/"。
[0068] c.域名和/或路径中的数字个数。通过引入数字个数作为特征,可以有效识别动 态网页。在域名和/或路径中,具备不同数字个数的静态URL和动态URL在所有URL中的 比例如图4(e)所示,其中对比了动态网页和静态网页中数字个数的分布情况。
[0069] d.域名和/或路径中的最长字符串长度。在域名和/或路径中,具备不同最长字 符串长度的静态URL和动态URL在所有URL中的比例如图4 (f)显示,动态网页的最长字符 串长度通常长于静态网页。
[0070] e.后缀长度。在静态网页中,后缀通常描述了资源的类型。但是对于动态网页而 言则不同,动态网页可能没有后缀,如果有,也只可能是.DAS或者是.THP。在URL训练集 中,具备不同后缀长度的静态URL和动态URL在所有URL中的比例如图4(g)显示,动态网 页和静态网页的后缀长度有所不同。
[0071] f.数字与字符之间的转换频次。从目的来看,静态网页的网址主要用于帮助人们 定位资源,数字与字符之间的转换频次较少,而动态网址的数字与字符之间的转换频次较 多。如图4(h)所示,静态网页和动态网页的转换频次有所区别。
[0072] 上述8个统计特征均需要在URL训练集中归一化后使用,上述统计特征归一化后 的数值均在〇?1的范围内。
[0073] 除了这些新特征外,本发明应用实例还引入了一些新的停用词。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1