一种基于相似度比较的URL去重方法和系统与流程

文档序号:11134215阅读:来源:国知局

技术特征:

1.一种基于相似度比较的URL去重方法,其特征在于,包含以下步骤:

S1:导入URL;

S2:提取URL所包含的URL特征,所述URL特征包含URL站点特征;

S3:将提取到的URL特征查询布隆过滤器,所述布隆过滤器的特征类型与所述URL特征的类型对应;

S4:将提取到的URL特征与布隆过滤器中存储的特征进行比对,查询是否有相似特征,若有,则进行S5步骤;若无,则进行S6步骤;

S5:查询到相似的特征,将所述URL过滤;

S6:未查询到相似的特征,将所述特征存储到布隆过滤器。

2.根据权利要求1所述的一种基于相似度比较的URL去重方法,其特征在于,所述URL特征还包含URL目录深度特征。

3.根据权利要求1或2所述的一种基于相似度比较的URL去重方法,其特征在于,所述URL特征还包含URL一级目录特征。

4.根据权利要求2或3所述的一种基于相似度比较的URL去重方法,其特征在于,所述URL特征还包含URL尾页特征。

5.根据权利要求2-4任一所述一种基于相似度比较的URL去重方法,其特征在于,步骤S4中将提取到的URL特征分别做换算操作,得到其在布隆过滤器中对应的bit位信息,查询布隆过滤器中对应类型的特征的bit位信息,若二者均为1,则认为二者为相似特征。

6.一种基于相似度比较的URL去重系统,其特征在于,包含以下模块:

接收模块:导入URL;

提取模块:提取URL所包含的URL特征,所述URL特征包含URL站点特征;

布隆过滤器模块:将提取到的URL特征查询布隆过滤器,所述布隆过滤器的特征类型与所述URL特征的类型对应;

特征比对模块:将提取到的URL特征与布隆过滤器中存储的特征进行比对,查询是否有相似特征,若有,则转入过滤模块;若无,则转入更新模块;

过滤模块:查询到相似的特征,将所述URL过滤;

更新模块:未查询到相似的特征,将所述特征存储到布隆过滤器。

7.根据权利要求6所述的一种基于相似度比较的URL去重系统,其特征在于,所述URL特征还包含URL目录深度特征。

8.根据权利要求6或7所述的一种基于相似度比较的URL去重系统,其特征在于,所述URL特征还包含URL一级目录特征。

9.根据权利要求7或8所述的一种基于相似度比较的URL去重系统,其特征在于,所述URL特征还包含URL尾页特征。

10.根据权利要求7-9任一所述一种基于相似度比较的URL去重系统,其特征在于,特征比对模块将提取到的URL特征分别做换算操作,得到其在布隆过滤器中对应的bit位信息,查询布隆过滤器中对应类型的特征的bit位信息,若二者均为1,则认为二者为相似特征。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1