一种URL的聚类方法及装置与流程

文档序号:12364451阅读:来源:国知局

技术特征:

1.一种URL的聚类方法,其特征在于,包括:

获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;

分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;

针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;

针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。

2.根据权利要求1所述的URL的聚类方法,其特征在于,分别对每个域名下的URL进行分割处理之前,还包括:

对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。

3.根据权利要求2所述的URL的聚类方法,其特征在于,所述冗余信息包括数字和搜索词。

4.根据权利要求1所述的URL的聚类方法,其特征在于,还包括:

对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。

5.根据权利要求1所述的URL的聚类方法,其特征在于,所述分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段,包括:

对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;

统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。

6.根据权利要求1所述的URL的聚类方法,其特征在于,所述针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果,包括:

对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;

分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;

将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。

7.根据权利要求6所述的URL的聚类方法,其特征在于,所述将每个域名下的每条URL映射成长度为K的一维向量,包括:

针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;

根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;

对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;

在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。

8.根据权利要求7所述的URL的聚类方法,其特征在于,所述在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量,包括:

对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;

采用公式vec[i]=(N-P)/log X计算所述一维向量中的第i列的向量值;

其中,vec[i]为第i列的向量值,X为所述字符串的出现频次,P为所述字符串在所述当前字符串序列中的位置计数。

9.一种URL的聚类装置,其特征在于,包括:

获取单元,适于获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;

热门字段获取单元,适于分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;

第一聚类单元,适于针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;

第二聚类单元,适于针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。

10.根据权利要求9所述的URL的聚类装置,其特征在于,还包括:

降维单元,适于对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。

11.根据权利要求10所述的URL的聚类装置,其特征在于,所述冗余信息包括数字和搜索词。

12.根据权利要求9所述的URL的聚类装置,其特征在于,还包括:

聚类结果调整单元,适于对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。

13.根据权利要求9所述的URL的聚类装置,其特征在于,所述热门字段获取单元包括:

分割子单元,适于对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;

统计子单元,适于统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。

14.根据权利要求9所述的URL的聚类装置,其特征在于,所述第二聚类单元包括:

总字符串序列获取子单元,适于对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;

矩阵获取子单元,适于分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;

第二聚类结果获取子单元,适于将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。

15.根据权利要求14所述的URL的聚类装置,其特征在于,所述矩阵获取子单元包括:

全零向量获取模块,适于针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;

当前字符串序列获取模块,适于根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;

出现频次统计模块,适于对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;

映射模块,适于在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。

16.根据权利要求15所述的URL的聚类装置,其特征在于,所述映射模块包括:

位置计数子模块,适于对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;

向量值计算子模块,适于采用公式vec[i]=(N-P)/log X计算所述一维向量中的第i列的向量值;

其中,vec[i]为第i列的向量值,X为所述字符串的出现频次,P为所述字符串在所述当前字符串序列中的位置计数。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1