1.一种基于相似度比较的URL去重方法,其特征在于,包含以下步骤:
S1:导入URL;
S2:提取URL所包含的URL特征,所述URL特征包含URL站点特征;
S3:将提取到的URL特征查询布隆过滤器,所述布隆过滤器的特征类型与所述URL特征的类型对应;
S4:将提取到的URL特征与布隆过滤器中存储的特征进行比对,查询是否有相似特征,若有,则进行S5步骤;若无,则进行S6步骤;
S5:查询到相似的特征,将所述URL过滤;
S6:未查询到相似的特征,将所述特征存储到布隆过滤器。
2.根据权利要求1所述的一种基于相似度比较的URL去重方法,其特征在于,所述URL特征还包含URL目录深度特征。
3.根据权利要求1或2所述的一种基于相似度比较的URL去重方法,其特征在于,所述URL特征还包含URL一级目录特征。
4.根据权利要求2或3所述的一种基于相似度比较的URL去重方法,其特征在于,所述URL特征还包含URL尾页特征。
5.根据权利要求2-4任一所述一种基于相似度比较的URL去重方法,其特征在于,步骤S4中将提取到的URL特征分别做换算操作,得到其在布隆过滤器中对应的bit位信息,查询布隆过滤器中对应类型的特征的bit位信息,若二者均为1,则认为二者为相似特征。
6.一种基于相似度比较的URL去重系统,其特征在于,包含以下模块:
接收模块:导入URL;
提取模块:提取URL所包含的URL特征,所述URL特征包含URL站点特征;
布隆过滤器模块:将提取到的URL特征查询布隆过滤器,所述布隆过滤器的特征类型与所述URL特征的类型对应;
特征比对模块:将提取到的URL特征与布隆过滤器中存储的特征进行比对,查询是否有相似特征,若有,则转入过滤模块;若无,则转入更新模块;
过滤模块:查询到相似的特征,将所述URL过滤;
更新模块:未查询到相似的特征,将所述特征存储到布隆过滤器。
7.根据权利要求6所述的一种基于相似度比较的URL去重系统,其特征在于,所述URL特征还包含URL目录深度特征。
8.根据权利要求6或7所述的一种基于相似度比较的URL去重系统,其特征在于,所述URL特征还包含URL一级目录特征。
9.根据权利要求7或8所述的一种基于相似度比较的URL去重系统,其特征在于,所述URL特征还包含URL尾页特征。
10.根据权利要求7-9任一所述一种基于相似度比较的URL去重系统,其特征在于,特征比对模块将提取到的URL特征分别做换算操作,得到其在布隆过滤器中对应的bit位信息,查询布隆过滤器中对应类型的特征的bit位信息,若二者均为1,则认为二者为相似特征。