一种资源搜索调度方法及装置的制造方法

文档序号:9787462阅读:355来源:国知局
一种资源搜索调度方法及装置的制造方法
【技术领域】
[0001 ]本发明涉及数据搜索技术领域,特别是涉及资源搜索调度方法及装置。
【背景技术】
[0002]在网络数据搜索技术中,蜘蛛(Spider)系统位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider系统有一定的调度机制来尽量快而全的发现资源链接。
[0003]例如:在进行资源链接的调度时,可以设定以下机制:
[0004]机制一:对挖掘的种子按一定的周期(例如I天调度20次)进行调度,以便能覆盖到所有的时效性的网页。
[0005]机制二:考虑到有限的流量及大量的索引页,对一般的索引页(不在种子集合范围内)按一定的周期(例如一周重抓一次)进行调度。
[0006]上述调度机制具有至少下列缺点:
[0007]对于机制一,种子调度周期间隔较短时,一般不会存在漏链的问题,但是可能会有流量的浪费,即当采点不准时,就是浪费流量;种子调度周期间隔较长时,可能会存在漏链。
[0008]对于机制二,由于调度周期间隔较长,可能会存在漏链。
[0009]在调度过程中出现漏链的情况会降低Spider系统的收录覆盖率。

【发明内容】

[0010]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的资源搜索调度方法和相应的资源搜索调度装置,可以避免资源搜索调度过程中出现漏链现象,提高资源收录覆盖率。
[0011]本发明提供一种资源搜索调度方法,包括:
[0012]获取待调度索引页的当前主体链接;
[0013]将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较;
[0014]若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;
[0015]若根据比较结果确定不存在链接遗漏,执行后续调度操作。
[0016]在一些可选的实施例中,若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,具体包括:
[0017]当所述当前主体链接与历史主体链接不存在交集时,获取所述待调度索引页下一页的当前主体链接,并返回执行所述将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较的步骤,直至所述当前主体链接与历史主体链接存在交集时。
[0018]在一些可选的实施例中,所述获取待调度索引页的当前主体链接,具体包括:
[0019]确定所述待调度索引页中的最大相似块,得到待调度索引页的当前主体链接。
[0020]在一些可选的实施例中,确定所述待调度索引页中的最大相似块,具体包括:
[0021 ]获取可扩展标记语言XML路径xpath相同的节点,得到相似块;
[0022]根据相似块的位置和面积,确定出所述待调度索引页中的最大相似块。
[0023]在一些可选的实施例中,所述相似块的位置根据所述相似块在调度索引页面中的宽度、高度、上边距、左边距确定;
[0024]所述相似块的面积根据所述相似块在调度索引页面中的宽度、高度确定。
[0025]在一些可选的实施例中,根据相似块的位置和面积,确定出所述待调度索引页中的最大相似块,具体包括:
[0026]确定相似块中面积最大且包含页面中心点的相似块为最大相似块。
[0027]在一些可选的实施例中,所述对待调度索引页进行翻页调度之前,还包括:
[0028]获取所述待调度索引页中的翻页块,通过正则匹配链接的锚auchor,确定下一页链接的统一资源定位符URL,以便根据所述URL进行翻页抓取。
[0029]在一些可选的实施例中,获取所述待调度索引页中的翻页块,具体包括:
[0030]通过正则匹配链接的auchor所包含的信息,确定所述待调度索引页中的翻页块,获取确定的翻页块。
[0031 ] 在一些可选的实施例中,如果所述正则匹配链接的auchor包括翻页块特征信息,则基于所述翻页块信息确定所述待调度索引页中的翻页块。
[0032]在一些可选的实施例中,所述通过正则匹配链接的锚auchor,确定下一页链接的统一资源定位符URL,具体包括:
[0033]所述正则匹配链接的auchor包含下一页链接信息时,将该auchor对应的链接确定为下一页链接的URL。
[0034]在一些可选的实施例中,所述将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较之前,还包括:
[0035]根据所述当前主体链接中各链接所包括的发布时间信息,顺序提取时间序列;
[0036]根据相邻链接的发布时间信息,判断提取的时间序列是否具备顺序或逆序特征;
[0037]当不具备时,将所述当前主体链接中各链接按时间顺序或时间逆序进行排序。
[0038]本发明实施例还提供一种资源搜索调度装置,包括:
[0039]获取模块,用于获取待调度索引页的当前主体链接;
[0040]比较模块,用于将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较;
[0041 ]执行模块,用于若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;若根据比较结果确定不存在链接遗漏,执行后续调度操作。
[0042]在一些可选的实施例中,所述执行模块,具体用于:
[0043]当所述当前主体链接与历史主体链接不存在交集时,通知所述获取模块获取所述待调度索引页下一页的当前主体链接,所述比较模块返回执行所述将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较的步骤,直至所述当前主体链接与历史主体链接存在交集时,执行后续调度操作。
[0044]在一些可选的实施例中,所述获取模块,具体用于:
[0045]确定所述待调度索引页中的最大相似块,得到待调度索引页的当前主体链接。
[0046]在一些可选的实施例中,所述获取模块,具体用于:
[0047]获取可扩展标记语言XML路径xpath相同的节点,得到相似块;
[0048]根据相似块的位置和面积,确定出所述待调度索引页中的最大相似块。
[0049]在一些可选的实施例中,所述获取模块,具体用于:
[0050]根据所述相似块在调度索引页面中的宽度、高度、上边距、左边距确定所述相似块的位置,以及根据所述相似块在调度索引页面中的宽度、高度确定相似块的面积。
[0051]在一些可选的实施例中,所述获取模块,具体用于:
[0052]确定相似块中面积最大且包含页面中心点的相似块为最大相似块。
[0053]在一些可选的实施例中,所述获取模块,还用于:
[0054]获取所述待调度索引页中的翻页块,通过正则匹配链接的锚auchor,确定下一页链接的统一资源定位符URL,以便根据所述URL进行翻页抓取。
[0055]在一些可选的实施例中,所述获取模块,具体用于:
[0056]通过正则匹配链接的auchor所包含的信息,确定所述待调度索引页中的翻页块,获取确定的翻页块。
[0057]在一些可选的实施例中,所述获取模块,具体用于:
[0058]如果所述正则匹配链接的auchor包括翻页块特征信息,则基于所述翻页块信息确定所述待调度索引页中的翻页块。
[0059]在一些可选的实施例中,所述获取模块,具体用于:
[0000]所述正则匹配链接的auchor包含下一页链接信息时,将该auchor对应的链接确定为下一页链接的URL。
[0061]在一些可选的实施例中,所述比较模块,还用于:
[0062]根据所述当前主体链接中各链接所包括的发布时间信息,顺序提取时间序列;
[0063]根据相邻链接的发布时间信息,判断提取的时间序列是否具备顺序或逆序特征;
[0064]当不具备时,将所述当前主体链接中各链接按时间顺序或时间逆序进行排序。
[0065]本发明的资源搜索调度方法及装置
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1