死链规则挖掘方法和装置以及搜索方法和装置的制造方法_2

文档序号:8258800阅读:来源:国知局
链接的死链属性:
[0056] 如果该目录链接下包含的总链数大于第一预设值,且其中的死链占比大于等于第 二预设值,则该目录链接的死链属性为死链状态;
[0057] 如果该目录链接下包含的总链数大于第三预设值,且其中的活链占比大于等于第 四预设值,则该目录链接的死链属性为活链状态;
[0058] 如果目录链接下包含的总链数大于第五预设值,且其中的活链占比大于等于第六 预设值,则该目录链接的死链属性为部分死链部分活链状态;
[0059] 其中,第一预设值〉第三预设值〉第五预设值;
[0060] 第二预设值〉第四预设值〉第六预设值。
[0061] 可选地,所述第一预设值为:15;
[0062] 所述第二预设值为:92%;
[0063] 所述第三预设值为:10;
[0064] 所述第四预设值为:70%;
[0065] 所述第五预设值为:5;
[0066] 所述第六预设值为:30%。
[0067] 可选地,所述死链统计单元,适于对于一个目录链接,判断该目录链接的所有孩子 目录链接的死链属性是否都与该目录链接的死链属性一致,如果都一致则该目录链接的死 链属性可扩展,否则该目录链接的死链属性不可扩展。
[0068] 可选地,所述死链统计单元,适于对于没有孩子目录链接的目录链接,默认该目录 链接的死链属性不可扩展。
[0069] 可选地,所述死链统计单元,适于根据如下步骤确定一个目录链接的死链属性的 扩展性:
[0070] 将该指定站点的各目录链接按照从低到高的级别进行排序;
[0071] 按照所述排序对其中的每个目录链接执行如下操作:
[0072] 记录该目录链接的状态;
[0073] 如果该目录链接有父目录链接,则将其父目录链接放入指定集合中;
[0074] 判断该目录链接是否在所述指定集合中,如果不在,默认该目录链接的死链属性 不可扩展;如果在,判断该目录链接的所有孩子目录链接的死链属性是否都与该目录链接 的死链属性一致;
[0075] 如果都一致,则该目录链接的死链属性可扩展,否则该目录链接的死链属性不可 扩展,并在该目录链接的死链属性为死链状态时将其临时修改为部分死链部分活链状态;
[0076] 按照所述排序对每个目录链接都执行如上操作后,将死链属性为部分死链部分活 链状态的目录链接修改为死链状态。
[0077] 可选地,该装置进一步包括:
[0078] 去冗余单元,适于对个所述各目录链接中的每个目录链接,判断该目录链接的死 链属性是否与其父目录链接的死链属性一致,且其父目录链接的死链属性可扩展,如果是 则筛掉该目录链接。
[0079] 可选地,去冗余单元,适于根据如下步骤筛掉部分目录链接:
[0080] 将该指定站点的目录链接按照从高到低的级别进行排序;
[0081] 先设置如下三个变量为空:上一目录链接、上一目录链接的死链属性和上一目录 链接死链属性的扩展性;
[0082] 然后按照所述排序对每个目录链接执行如下操作:
[0083] 判断上一目录链接是否为当前目录链接的父目录链接,否则保留当前目录链接; 其中,如果变量上一目录链接为空,直接保留当前目录链接;
[0084] 如果是父目录链接,判断当前目录链接的死链属性是否与上一目录链接的死链属 性一致,且其上一目录链接的死链属性可扩展,如果是则筛掉该目录链接,否则保留当前目 录链接;
[0085] 将被保留的当前目录链接、当前目录链接的死链属性和当前目录链接死链属性的 扩展性依次分别赋值给所述的三个变量。
[0086] 依据本发明的再一个方面,提供了一种搜索装置,该装置包括:
[0087] 搜索结果获取单元,适于根据搜索请求获取搜索结果;
[0088] 死链去除单元,适于根据死链规则,从所述搜索结果中去除死链;其中所述死链规 则是如上任一项所述的死链规则挖掘装置获得的。
[0089] 搜索结果展示单元,适于向用户展现去除死链后的搜索结果。
[0090] 可选地,所述死链去除单元,适于在搜索结果中的一个链接包含一个死链属性为 死链状态,且死链属性可扩展的目录链接,则确定该链接为死链,将该死链从搜索结果中去 除。
[0091] 由上述可知,本发明提供的技术方案以指定站点中的目录链接为样本,通过统计 各目录链接的死链属性及死链属性的扩展性,确定指定站点的死链规则。在用户进行搜索 操作时,将死链规则能够确定的死链从搜索结果中去除,将无死链的搜索结果展现给用户。 与现有技术相比,本方案不再局限于对链接的死链属性的遍历式检测,而是进一步通过分 析其死链属性和死链属性的扩展性,挖掘死链规则,克服了现有技术的盲目和繁琐,更加启 发式、有效、便捷地对指定站点中的链接属性进行判断;并给用户提供更为有效、可靠的搜 索体验。
[0092] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0093] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0094] 图1示出了根据本发明一个实施例的一种死链规则挖掘方法的流程图;
[0095] 图2示出了根据本发明一个实施例的一种搜索方法的流程图;
[0096] 图3示出了根据本发明一个实施例的一种死链规则挖掘装置的示意图;
[0097] 图4示出了根据本发明另一个实施例的一种死链规则挖掘装置的示意图;
[0098] 图5示出了根据本发明一个实施例的一种搜索装置的示意图。
【具体实施方式】
[0099] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0100] 图1示出了根据本发明一个实施例的一种死链规则挖掘方法的流程图。如图1所 示,该方法包括:
[0101] 步骤S110,基于已抓取链接列表,选择指定站点中链接,获取该指定站点中链接所 包含的各级目录链接。
[0102] 例如,一个链接http: //A/B/C所包含的各级目录链接为http: //A、http: //A/B和 http://A/B/C。本本文中,为了描述方便,将如上述的目录链接记录为A、A/B、A/B/C。
[0103] 步骤S120,对于各目录链接,分别统计各自对应的死链属性,以及分别统计各自对 应的死链属性的扩展性。
[0104] 步骤S130,基于上述各个目录链接分别对应的死链属性以及死链属性的扩展性, 确定指定站点的死链规则。
[0105] 可见,图1所示的方法以指定站点中的目录链接为样本,通过统计各目录链接的 死链属性及死链属性的扩展性,确定指定站点的死链规则。与现有技术相比,本方案不再局 限于对链接的死链属性的遍历式检测,而是进一步通过分析其死链属性和死链属性的扩展 性,挖掘死链规则,克服了现有技术的盲目
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1