死链规则挖掘方法和装置以及搜索方法和装置的制造方法_3

文档序号:8258800阅读:来源:国知局
和繁琐,更加启发式、有效、便捷地对指定站点中 的链接属性进行判断。
[0106] 在本发明的一个实施例中,图1所示方法的步骤S120中对于各目录链接,分别统 计各自对应的死链属性是指:对于一个目录链接,根据该目录链接下的总链量和死链接量 确定该目录链接的死链属性。死链属性包括:死链状态、活链状态或部分死链部分活链状 〇
[0107] 在本发明的一个实施例中,所述对于一个目录链接,根据该目录链接下的总链量 和死链接量确定该目录链接的死链属性为:死链状态、活链状态或部分死链部分活链状态 包括:
[0108] 如果该目录链接下包含的总链数大于第一预设值,且其中的死链占比大于等于第 二预设值,则该目录链接的死链属性为死链状态;如果该目录链接下包含的总链数大于第 三预设值,且其中的活链占比大于等于第四预设值,则该目录链接的死链属性为活链状态; 如果目录链接下包含的总链数大于第五预设值,且其中的活链占比大于等于第六预设值, 则该目录链接的死链属性为部分死链部分活链状态。其中,第一预设值〉第三预设值〉第 五预设值;第二预设值〉第四预设值〉第六预设值。
[0109] 在本发明的一个具体实施例中:所述第一预设值为:15 ;所述第二预设值为: 92% ;所述第三预设值为:10 ;所述第四预设值为:70% ;所述第五预设值为:5 ;所述第六预 设值为:30%。则判断死链属性的方法为:如果一个目录链接下包含的总链数大于15,且其 中的死链占比大于等于92 %,则该目录链接的死链属性为死链状态;如果一个目录链接下 包含的总链数大于10,且其中的活链占比大于等于70%,则该目录链接的死链属性为活链 状态;如果目录链接下包含的总链数大于5值,且其中的活链占比大于等于30 %,则该目录 链接的死链属性为部分死链部分活链状态。
[0110] 例如,依据上述死链属性的判断标准,指定站点SiteO中链接所包含的各级目录 链接为:A/C/D/E、A/C/D/D、A/C/D、A/C/C/E、A/C/C/D、A/C/C、A/C、A/B、A,依据上述死链属 性的判断方法,判断得到各目录链接的死链属性如表1所示,其中,"〇"表示活链状态," 1" 表示死链状态," 2 "表示部分死链部分活链状态。
[0111] 表 1
[0112]
【主权项】
1. 一种死链规则挖掘方法,其中,该方法包括: 基于已抓取链接列表,选择指定站点中链接,获取该指定站点中链接所包含的各级目 录链接; 对于各目录链接,分别统计各自对应的死链属性,W及分别统计各自对应的死链属性 的扩展性; 基于上述各个目录链接分别对应的死链属性W及死链属性的扩展性,确定所述指定站 点的死链规则。
2. 如权利要求1所述的方法,其中,对于各目录链接,分别统计各自对应的死链属性包 括: 对于一个目录链接,根据该目录链接下的总链量和死链接量确定该目录链接的死链属 性为;死链状态、活链状态或部分死链部分活链状态。
3. 如权利要求1-2任一项所述的方法,其中,所述对于一个目录链接,根据该目录链接 下的总链量和死链接量确定该目录链接的死链属性为;死链状态、活链状态或部分死链部 分活链状态包括: 如果该目录链接下包含的总链数大于第一预设值,且其中的死链占比大于等于第二预 设值,则该目录链接的死链属性为死链状态; 如果该目录链接下包含的总链数大于第=预设值,且其中的活链占比大于等于第四预 设值,则该目录链接的死链属性为活链状态; 如果目录链接下包含的总链数大于第五预设值,且其中的活链占比大于等于第六预设 值,则该目录链接的死链属性为部分死链部分活链状态; 其中,第一预设值〉第=预设值〉第五预设值; 第二预设值〉第四预设值〉第六预设值。
4. 如权利要求1-3任一项所述的方法,其中,所述分别统计各自对应的死链属性的扩 展性包括: 对于一个目录链接,判断该目录链接的所有孩子目录链接的死链属性是否都与该目录 链接的死链属性一致,如果都一致则该目录链接的死链属性可扩展,否则该目录链接的死 链属性不可扩展。
5. 如权利要求1-4任一项所述的方法,其中,该方法进一步包括: 对于没有孩子目录链接的目录链接,默认该目录链接的死链属性不可扩展。
6. 如权利要求1-5任一项所述的方法,其中,对于一个目录链接,判断该目录链接的所 有孩子目录链接的死链属性是否都与该目录链接的死链属性一致,如果都一致则该目录链 接的死链属性可扩展,否则该目录链接的死链属性不可扩展包括: 将该指定站点的各目录链接按照从低到高的级别进行排序; 按照所述排序对其中的每个目录链接执行如下操作: 记录该目录链接的状态; 如果该目录链接有父目录链接,则将其父目录链接放入指定集合中; 判断该目录链接是否在所述指定集合中,如果不在,默认该目录链接的死链属性不可 扩展;如果在,判断该目录链接的所有孩子目录链接的死链属性是否都与该目录链接的死 链属性一致; 如果都一致,则该目录链接的死链属性可扩展,否则该目录链接的死链属性不可扩展, 并在该目录链接的死链属性为死链状态时将其临时修改为部分死链部分活链状态; 按照所述排序对每个目录链接都执行如上操作后,将死链属性为部分死链部分活链状 态的目录链接修改为死链状态。
7. 如权利要求1-6任一项所述的方法,其中,该方法进一步包括: 对于一个目录链接,判断该目录链接的死链属性是否与其父目录链接的死链属性一 致,且其父目录链接的死链属性可扩展,如果是则筛掉该目录链接。
8. -种捜索方法,其中,该方法包括: 根据捜索请求获取捜索结果; 根据死链规则,从所述捜索结果中去除死链;其中所述死链规则是依据如权利要求 1-7中任一项所述的方法获取的。 向用户展现去除死链后的捜索结果。
9. 一种死链规则挖掘装置,其中,该装置包括: 目录链接获取单元,适于基于已抓取链接列表,选择指定站点中链接,获取该指定站点 中链接所包含的各级目录链接; 死链统计单元,适于对于各目录链接,分别统计各自对应的死链属性,W及分别统计各 自对应的死链属性的扩展性; 死链规则单元,适于基于上述各个目录链接分别对应的死链属性W及死链属性的扩展 性,确定所述指定站点的死链规则。
10. -种捜索装置,其中,该装置包括: 捜索结果获取单元,适于根据捜索请求获取捜索结果; 死链去除单元,适于根据死链规则,从所述捜索结果中去除死链;其中所述死链规则是 如权利要求9所述的死链规则挖掘装置获得的。 捜索结果展示单元,适于向用户展现去除死链后的捜索结果。
【专利摘要】本发明公开了一种死链规则挖掘方法和装置以及一种搜索方法、装置,该方法包括:基于已抓取链接列表,选择指定站点中链接,获取该指定站点中链接所包含的各级目录链接;对于各目录链接,分别统计各自对应的死链属性,以及分别统计各自对应的死链属性的扩展性;基于上述各个目录链接分别对应的死链属性以及死链属性的扩展性,确定所述指定站点的死链规则。本发明提供的技术方案不再局限于对链接的死链属性的遍历式检测,而是进一步通过分析其死链属性和死链属性的扩展性,挖掘死链规则,克服了现有技术的盲目和繁琐,更加启发式、有效、便捷地对指定站点中的链接属性进行判断;并给用户提供更为有效、可靠的搜索体验。
【IPC分类】G06F17-30
【公开号】CN104572928
【申请号】CN201410836517
【发明人】郑燕琴
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2015年4月29日
【申请日】2014年12月29日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1