一种动态url过滤方法及装置的制造方法_2

文档序号：8258904阅读：来源：国知局

后得到每个URL中的该设定的标点符号的归一化数值，经过归一化后，任一 URL的该设定的标点符号的归一化数值均在0?1范围内。同理，域名和/或路径中的数字个数、数字与字符之间的转换频次等的归一化数值的确定过程也与此类似。
[0042] 后缀长度的归一化数值的确定方式是：先计算各URL的后缀长度，然后找出具备最长后缀长度的URL，再计算出各URL的后缀长度与最长后缀长度的比值即得到归一化后的每个URL中的后缀长度的归一化数值，任一 URL的后缀长度的归一化数值均在0?1范围内。同理，路径深度、域名和/或路径中的最长字符串长度等的归一化数值的确定过程也与此类似。
[0043]所述字符串特征是指设定的字符串在URL中是否出现的量化信息，比如：设定的字符串在URL中是否出现对应的量化信息1或者0,所述设定的字符串的获取过程包括：至少采用设定的停用词对URL中的词进行划分得到设定的字符串，所述设定的停用词包括： "％'，、"，'，和"；'，。
[0044] 步骤S102,针对URL标注集中的每一个URL，根据所述信息字典生成对应的特征向量，由URL标注集中所有的URL对应的特征向量组成特征矩阵。
[0045] 具体的，在步骤S102中生成对应的特征向量的过程，包括：
[0046] A1 :针对URL标注集中的每一个URL，确定该URL中的字符串特征和统计特征；
[0047] A2 :将该URL中的字符串特征和统计特征组成该URL的特征向量。
[0048] 步骤S103,采用分类算法对URL特征矩阵进行分类得到特征权重向量和二分类阈值。
[0049] 具体的，所述分类算法，包括：线性逻辑回归分类算法、朴素贝叶斯算法或者支持向量机算法。优选的，本实施例中的分类算法为线性逻辑回归分类算法。
[0050] 步骤S104,基于所述信息字段对待预测的URL进行特征提取，并基于提取出的特征生成所述待预测的URL的特征向量。
[0051] 步骤S105,将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值，将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。比如，当目标数值大于二分类阈值时判定待预测的URL是动态URL，否则判定待预测的URL为静态URL，或者相反。二分类阈值的产生是与特征权重向量对应的，二者需要在一次分类判断过程中配合使用。
[0052] 本发明第二实施例，与第一实施例对应，本实施例介绍一种动态URL过滤装置，如图2所示，包括以下组成部分：
[0053] 1)训练模块100,用于基于URL标注集创建信息字典，所述信息字典的内容包括两种类型：字符串特征和统计特征；针对URL标注集中的每一个URL，根据所述信息字典生成对应的特征向量，由URL标注集中所有的URL对应的特征向量组成特征矩阵；采用分类算法对URL特征矩阵进行分类得到特征权重向量和二分类阈值；
[0054] 2)预测模块200,用于基于所述信息字段对待预测的URL进行特征提取，并基于提取出的特征生成所述待预测的URL的特征向量；将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值，将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。
[0055] 具体的，所述统计特征和所述字符串特征均来源于URL标注集中的所有URL，所述统计特征至少包括以下各项之一的归一化数值：设定的标点符号出现次数、路径深度、域名和/或路径中的数字个数、域名和/或路径中的最长字符串长度、后缀长度、数字与字符之间的转换频次。
[0056]训练模块100,用于按照如下方式确定设定的标点符号出现次数的归一化数值：先计算该设定的标点符号在各URL中出现的次数，找出出现该设定的标点符号的次数最多的URL，然后相对于该最多的出现次数，将所有URL中的出现次数进行归一化后得到每个 URL中的该设定的标点符号的统计特征，经过归一化后，任一 URL的该设定的标点符号的统计特征的数值均在〇?1范围内。同理，域名和/或路径中的数字个数、数字与字符之间的转换频次等的归一化数值的确定过程也与此类似。
[0057] 训练模块100,用于按照如下方式确定后缀长度的归一化数值：先计算各URL的后缀长度，然后找出具备最长后缀长度的URL，再计算出各URL的后缀长度与最长后缀长度的比值即得到归一化后的每个URL中的后缀长度的归一化数值，任一 URL的后缀长度的归一化数值均在〇?1范围内。同理，路径深度、域名和/或路径中的最长字符串长度等的归一化数值的确定过程也与此类似。
[0058] 所述字符串特征是指设定的字符串在URL中是否出现的量化信息，比如：设定的字符串在URL中是否出现对应的量化信息1或者0,所述设定的字符串的获取过程包括：至少采用设定的停用词对URL中的词进行划分得到设定的字符串，所述设定的停用词包括： "％'，、"，'，和"；'，。
[0059] 进一步的，训练模块100,用于针对URL标注集中的每一个URL，确定该URL中的字符串特征和统计特征；将该URL中的字符串特征和统计特征组成该URL的特征向量。
[0060] 本实施例中预测模块200所采用的分类算法，包括：线性逻辑回归分类算法、朴素贝叶斯算法或者支持向量机算法。优选的，分类算法为线性逻辑回归分类算法。
[0061] 本发明第三实施例，本实施例是在上述实施例的基础上，以采用线性逻辑回归分类算法对URL集合进行动态静态分类为例，结合附图3?7介绍一个本发明的应用实例。
[0062] 与传统用MD5值对静/动态URL进行分类的方法不同，本发明应用实例是基于线性逻辑回归分类算法和新的特征集对URL进行分类。整个分类过程的流程如图3所示。
[0063] 在本发明应用实例中，将线性逻辑回归分类算法应用于解决动态URL过滤问题。此外，本发明虽然沿用逻辑回归进行分类的思路，但在此基础上该算法的特征提取步骤进行了改进，主要发掘并使用了多个新的特征。
[0064] 下面将从新特征的发掘和线性逻辑回归分类器（即线性逻辑回归算法的执行模块）两方面对本发明应用实例的内容进行进一步介绍。
[0065] 1)新的统计特征的发掘。通过分析静态和动态网页，总结出6类动态网页的6类统计特征（包含8个统计特征）以便有效识别动态网页，如下：
[0066] a.特殊标点符号出现次数。标点是帮助读者准确理解书面语言的一种符号。一些标点符号常常在静态URL和动态URL中出现，例如分号（:），句号（?）和问号（？）等。这类标点符号具有一定意义，并且常常出现在URL的固定位置。但有些标点符号，例如下划线 (_)，连接符（_)，百分号（％)等，并不经常出现在静态URL中。在URL训练集中，具备不同数量的下划线的静态URL和动态URL在所有URL中的比例如图4 (a)所示，具备不同数量的连字符的静态URL和动态URL在所有URL中的比例如图4 (b)所示、具备不同数量的百分号的静态URL和动态URL在所有URL中的比例如图4(c)所示，相比静态网页，这些标点符号出现在动态网页中的频次更大。
[0067] b.路径深度。动态网页隐藏在目标站点很深的路径下面。在URL训练集中，具备不同路径深度的静态URL和动态URL在所有URL中的比例如图4⑷所示，相比静态网页，动态网页往往包含更多的"/"。
[0068] c.域名和/或路径中的数字个数。通过引入数字个数作为特征，可以有效识别动态网页。在域名和/或路径中，具备不同数字个数的静态URL和动态URL在所有URL中的比例如图4(e)所示，其中对比了动态网页和静态网页中数字个数的分布情况。
[0069] d.域名和/或路径中的最长字符串长度。在域名和/或路径中，具备不同最长字符串长度的静态URL和动态URL在所有URL中的比例如图4 (f)显示，动态网页的最长字符串长度通常长于静态网页。
[0070] e.后缀长度。在静态网页中，后缀通常描述了资源的类型。但是对于动态网页而言则不同，动态网页可能没有后缀，如果有，也只可能是.DAS或者是.THP。在URL训练集中，具备不同后缀长度的静态URL和动态URL在所有URL中的比例如图4(g)显示，动态网页和静态网页的后缀长度有所不同。
[0071] f.数字与字符之间的转换频次。从目的来看，静态网页的网址主要用于帮助人们定位资源，数字与字符之间的转换频次较少，而动态网址的数字与字符之间的转换频次较多。如图4(h)所示，静态网页和动态网页的转换频次有所区别。
[0072] 上述8个统计特征均需要在URL训练集中归一化后使用，上述统计特征归一化后的数值均在〇?1的范围内。
[0073] 除了这些新特征外，本发明应用实例还引入了一些新的停用词。

完整全部详细技术资料下载

当前第2页1 2 3