一种资源搜索调度方法及装置的制造方法_5

文档序号:9787462阅读:来源:国知局
所述对待调度索引页进行翻页调度之前,还包括:
[0196]获取所述待调度索引页中的翻页块,通过正则匹配链接的锚auchor,确定下一页链接的统一资源定位符URL,以便根据所述URL进行翻页抓取。
[0197]AS.根据A7所述的方法,其中,获取所述待调度索引页中的翻页块,具体包括:
[0198]通过正则匹配链接的auchor所包含的信息,确定所述待调度索引页中的翻页块,获取确定的翻页块。
[0199]A9.根据AS所述的方法,其中,如果所述正则匹配链接的auchor包括翻页块特征信息,则基于所述翻页块信息确定所述待调度索引页中的翻页块。
[0200]A10.根据A7所述的方法,其中,所述通过正则匹配链接的锚auchor,确定下一页链接的统一资源定位符URL,具体包括:
[°201 ] 所述正则匹配链接的auchor包含下一页链接信息时,将该auchor对应的链接确定为下一页链接的URL。
[0202]All.根据Al-AlO任一所述的方法,其中,所述将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较之前,还包括:
[0203]根据所述当前主体链接中各链接所包括的发布时间信息,顺序提取时间序列;
[0204]根据相邻链接的发布时间信息,判断提取的时间序列是否具备顺序或逆序特征;
[0205]当不具备时,将所述当前主体链接中各链接按时间顺序或时间逆序进行排序。
[0206]基于本发明的另一方面,还公开了B12.—种资源搜索调度装置,包括:
[0207]获取模块,用于获取待调度索引页的当前主体链接;
[0208]比较模块,用于将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较;
[0209]执行模块,用于若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;若根据比较结果确定不存在链接遗漏,执行后续调度操作。
[0210]B13.根据B12所述的装置,其中,所述执行模块,具体用于:
[0211]当所述当前主体链接与历史主体链接不存在交集时,通知所述获取模块获取所述待调度索引页下一页的当前主体链接,所述比较模块返回执行所述将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较的步骤,直至所述当前主体链接与历史主体链接存在交集时,执行后续调度操作。
[0212]B14.根据B12所述的装置,其中,所述获取模块,具体用于:
[0213]确定所述待调度索引页中的最大相似块,得到待调度索引页的当前主体链接。
[0214]B15.根据B14所述的装置,其中,所述获取模块,具体用于:
[0215]获取可扩展标记语言XML路径xpath相同的节点,得到相似块;
[0216]根据相似块的位置和面积,确定出所述待调度索引页中的最大相似块。
[0217]B16.根据B15所述的装置,其中,所述获取模块,具体用于:
[0218]根据所述相似块在调度索引页面中的宽度、高度、上边距、左边距确定所述相似块的位置,以及根据所述相似块在调度索引页面中的宽度、高度确定相似块的面积。
[0219]B17.根据B15所述的装置,其中,所述获取模块,具体用于:
[0220]确定相似块中面积最大且包含页面中心点的相似块为最大相似块。
[0221]B18.根据B12所述的装置,其中,所述获取模块,还用于:
[0222]获取所述待调度索引页中的翻页块,通过正则匹配链接的锚auchor,确定下一页链接的统一资源定位符URL,以便根据所述URL进行翻页抓取。
[0223]B19.根据B18所述的装置,其中,所述获取模块,具体用于:
[0224]通过正则匹配链接的auchor所包含的信息,确定所述待调度索引页中的翻页块,获取确定的翻页块。
[0225]B20.根据B19所述的装置,其中,所述获取模块,具体用于:
[0226]如果所述正则匹配链接的auchor包括翻页块特征信息,则基于所述翻页块信息确定所述待调度索引页中的翻页块。
[0227]B21.根据B18所述的装置,其中,所述获取模块,具体用于:
?0228] 所述正则匹配链接的auchor包含下一页链接信息时,将该auchor对应的链接确定为下一页链接的URL。
[0229]B22.根据B12-B21任一所述的装置,其中,所述比较模块,还用于:
[0230]根据所述当前主体链接中各链接所包括的发布时间信息,顺序提取时间序列;
[0231]根据相邻链接的发布时间信息,判断提取的时间序列是否具备顺序或逆序特征;
[0232]当不具备时,将所述当前主体链接中各链接按时间顺序或时间逆序进行排序。
【主权项】
1.一种资源搜索调度方法,包括: 获取待调度索引页的当前主体链接; 将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较; 若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作; 若根据比较结果确定不存在链接遗漏,执行后续调度操作。2.根据权利要求1所述的方法,其中,若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,具体包括: 当所述当前主体链接与历史主体链接不存在交集时,获取所述待调度索引页下一页的当前主体链接,并返回执行所述将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较的步骤,直至所述当前主体链接与历史主体链接存在交集时。3.根据权利要求1或2所述的方法,其中,所述获取待调度索引页的当前主体链接,具体包括: 确定所述待调度索引页中的最大相似块,得到待调度索引页的当前主体链接。4.根据权利要求1-3任一所述的方法,其中,确定所述待调度索引页中的最大相似块,具体包括: 获取可扩展标记语言XML路径xpath相同的节点,得到相似块; 根据相似块的位置和面积,确定出所述待调度索引页中的最大相似块。5.根据权利要求1-4任一所述的方法,其中,所述相似块的位置根据所述相似块在调度索引页面中的宽度、高度、上边距、左边距确定; 所述相似块的面积根据所述相似块在调度索引页面中的宽度、高度确定。6.根据权利要求1-5任一所述的方法,其中,根据相似块的位置和面积,确定出所述待调度索引页中的最大相似块,具体包括: 确定相似块中面积最大且包含页面中心点的相似块为最大相似块。7.根据权利要求1-6任一所述的方法,其中,所述对待调度索引页进行翻页调度之前,还包括: 获取所述待调度索引页中的翻页块,通过正则匹配链接的锚auchor,确定下一页链接的统一资源定位符URL,以便根据所述URL进行翻页抓取。8.根据权利要求1-7任一所述的方法,其中,获取所述待调度索引页中的翻页块,具体包括: 通过正则匹配链接的auchor所包含的信息,确定所述待调度索引页中的翻页块,获取确定的翻页块。9.根据权利要求1-8任一所述的方法,其中,如果所述正则匹配链接的auchor包括翻页块特征信息,则基于所述翻页块信息确定所述待调度索引页中的翻页块。10.—种资源搜索调度装置,包括: 获取模块,用于获取待调度索引页的当前主体链接; 比较模块,用于将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较; 执行模块,用于若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;若根据比较结果确定不存在链接遗漏,执行后续调度操作。
【专利摘要】本发明提供了一种获取待调度索引页的当前主体链接;将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较;若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;若根据比较结果确定不存在链接遗漏,执行后续调度操作。可以避免资源搜索调度过程中出现漏链现象,提高资源收录覆盖率。
【IPC分类】G06F17/30
【公开号】CN105550255
【申请号】CN201510901428
【发明人】郑燕琴
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2016年5月4日
【申请日】2015年12月8日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1