死链规则挖掘方法和装置以及搜索方法和装置的制造方法

文档序号:8258800阅读:191来源:国知局
死链规则挖掘方法和装置以及搜索方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,具体涉及一种死链规则挖掘方法和装置以及一种搜索 方法和装置。
【背景技术】
[0002] 网站作为大规模的信息集合体,包含了大量的Web链接。有些Web链接经过一段 时间之后,因种种原因而失效或者出现错误,从而形成死链。搜索引擎每天的搜索次数达亿 次,其中展现的搜索结果页不乏有些死链,这会影响用户体验。因此,死链规则挖掘并保证 展现的搜索结果页低死链率是非常必要且重要的。
[0003]现有技术中,主要是解决网站死链检测方法,即通过不断抓取网站链接通过返回 码判断网页是否为死链,该方案虽然能够检测网页死链,但是并没有从已发现的死链中挖 掘死链规则,无法覆盖那些已死但未被调度检测到的链接,具有一定的盲目性。并且当用户 进行搜索操作时,依然存在搜索到死链的可能性,用户体验不好。

【发明内容】

[0004] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的一种死链规则挖掘方法、装置、搜索方法和装置。
[0005] 依据本发明的一个方面,提供了一种死链规则挖掘方法,该方法包括:
[0006]基于已抓取链接列表,选择指定站点中链接,获取该指定站点中链接所包含的各 级目录链接;
[0007]对于各目录链接,分别统计各自对应的死链属性,以及分别统计各自对应的死链 属性的扩展性;
[0008]基于上述各个目录链接分别对应的死链属性以及死链属性的扩展性,确定所述指 定站点的死链规则。
[0009] 可选地,对于各目录链接,分别统计各自对应的死链属性包括:
[0010] 对于一个目录链接,根据该目录链接下的总链量和死链接量确定该目录链接的死 链属性为:死链状态、活链状态或部分死链部分活链状态。
[0011] 可选地,所述对于一个目录链接,根据该目录链接下的总链量和死链接量确定该 目录链接的死链属性为:死链状态、活链状态或部分死链部分活链状态包括:
[0012] 如果该目录链接下包含的总链数大于第一预设值,且其中的死链占比大于等于第 二预设值,则该目录链接的死链属性为死链状态;
[0013] 如果该目录链接下包含的总链数大于第三预设值,且其中的活链占比大于等于第 四预设值,则该目录链接的死链属性为活链状态;
[0014] 如果目录链接下包含的总链数大于第五预设值,且其中的活链占比大于等于第六 预设值,则该目录链接的死链属性为部分死链部分活链状态;
[0015] 其中,第一预设值〉第三预设值〉第五预设值;
[0016] 第二预设值〉第四预设值〉第六预设值。
[0017] 可选地,所述第一预设值为:15 ;
[0018] 所述第二预设值为:92% ;
[0019] 所述第三预设值为:10;
[0020] 所述第四预设值为:70%;
[0021] 所述第五预设值为:5;
[0022] 所述第六预设值为:30%。
[0023] 可选地,所述分别统计各自对应的死链属性的扩展性包括:
[0024] 对于一个目录链接,判断该目录链接的所有孩子目录链接的死链属性是否都与该 目录链接的死链属性一致,如果都一致则该目录链接的死链属性可扩展,否则该目录链接 的死链属性不可扩展。
[0025] 可选地,该方法进一步包括:
[0026] 对于没有孩子目录链接的目录链接,默认该目录链接的死链属性不可扩展。
[0027] 可选地,对于一个目录链接,判断该目录链接的所有孩子目录链接的死链属性是 否都与该目录链接的死链属性一致,如果都一致则该目录链接的死链属性可扩展,否则该 目录链接的死链属性不可扩展包括:
[0028] 将该指定站点的各目录链接按照从低到高的级别进行排序;
[0029] 按照所述排序对其中的每个目录链接执行如下操作:
[0030] 记录该目录链接的状态;
[0031] 如果该目录链接有父目录链接,则将其父目录链接放入指定集合中;
[0032] 判断该目录链接是否在所述指定集合中,如果不在,默认该目录链接的死链属性 不可扩展;如果在,判断该目录链接的所有孩子目录链接的死链属性是否都与该目录链接 的死链属性一致;
[0033] 如果都一致,则该目录链接的死链属性可扩展,否则该目录链接的死链属性不可 扩展,并在该目录链接的死链属性为死链状态时将其临时修改为部分死链部分活链状态;
[0034] 按照所述排序对每个目录链接都执行如上操作后,将死链属性为部分死链部分活 链状态的目录链接修改为死链状态。
[0035] 可选地,该方法进一步包括:
[0036] 对个一个目录链接,判断该目录链接的死链属性是否与其父目录链接的死链属性 一致,且其父目录链接的死链属性可扩展,如果是则筛掉该目录链接。
[0037] 可选地,所述判断该目录链接的死链属性是否与其父目录链接的死链属性一致, 且其父目录链接的死链属性可扩展,如果是则筛掉该目录链接包括:
[0038] 将该指定站点的目录链接按照从高到低的级别进行排序;
[0039] 先设置如下三个变量为空:上一目录链接、上一目录链接的死链属性和上一目录 链接死链属性的扩展性;
[0040] 然后按照所述排序对每个目录链接执行如下操作:
[0041] 判断上一目录链接是否为当前目录链接的父目录链接,否则保留当前目录链接; 其中,如果变量上一目录链接为空,直接保留当前目录链接;
[0042] 如果是父目录链接,判断当前目录链接的死链属性是否与上一目录链接的死链属 性一致,且其上一目录链接的死链属性可扩展,如果是则筛掉该目录链接,否则保留当前目 录链接;
[0043] 将被保留的当前目录链接、被保留的当前目录链接的死链属性和被保留的当前目 录链接死链属性的扩展性依次分别赋值给所述的三个变量。
[0044] 依据本发明的另一个方面,提供了一种搜索方法,该方法包括:
[0045] 根据搜索请求获取搜索结果;
[0046] 根据死链规则,从所述搜索结果中去除死链;其中所述死链规则是依据如上任一 项所述的方法获取的。
[0047] 向用户展现去除死链后的搜索结果。
[0048] 可选地,所述根据死链规则,从所述搜索结果中去除死链包括:
[0049] 如果搜索结果中的一个链接包含一个死链属性为死链状态,且死链属性可扩展的 目录链接,则确定该链接为死链,将该死链从搜索结果中去除。
[0050] 依据本发明的又一个方面,提供了一种死链规则挖掘装置,该装置包括:
[0051] 目录链接获取单元,适于基于已抓取链接列表,选择指定站点中链接,获取该指定 站点中链接所包含的各级目录链接;
[0052] 死链统计单元,适于对于各目录链接,分别统计各自对应的死链属性,以及分别统 计各自对应的死链属性的扩展性;
[0053] 死链规则单元,适于基于上述各个目录链接分别对应的死链属性以及死链属性的 扩展性,确定所述指定站点的死链规则。
[0054] 可选地,所述死链统计单元,适于对于一个目录链接,根据该目录链接下的总链量 和死链接量确定该目录链接的死链属性为:死链状态、活链状态或部分死链部分活链状态。
[0055] 可选地,所述死链统计单元,适于根据如下规则确定一个目录
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1