一种资源搜索调度方法及装置的制造方法_3

文档序号:9787462阅读:来源:国知局
体链接与历史主体链接存在交集时。
[0116]如上述步骤S202-步骤S204所述,每次调度待调度索引页时,比较当前发现的主体链接和上一次调度发现的主体链接,如果不存在交集,即上一次调度发现的主体链接与当前发现的主体链接完全不相同,则说明这两次调度之间有漏链,需要调度翻页下一页(即第2页)来发现漏链,并且将当前发现的主体链接加入到该索引页系列历史主体链接集合中。当调度下一页时,同理,比较当前发现的主体链接和该索引页系列历史主体链接集合,如果不存在交集,则说明仍然有漏链,继续发起翻页到下一页(即第3页)调度。依此类推,直到当前发现的主体链接和该索引页系列历史主体链接集合存在交集,则说明漏链已经找全了,不需要再发起翻页的调度。
[0117]步骤S205:执行后续调度操作。
[0118]当根据比较结果确定待调度索引页不存在链接遗漏,执行后续调度操作。
[0119]本发明实施例三提供的资源搜索调度方法,其流程如图5所示,包括如下步骤:
[0120]步骤S301:获取待调度索引页的当前主体链接。
[0121]步骤S302:将获取的当前主体链接与待调度索引页的历史主体链接进行比较。
[0122]步骤S303:判断获取的当前主体链接与历史主体链接是否存在交集。若是,执行步骤S307;若否,执行步骤S304。
[0123]步骤S304:获取待调度索引页中的翻页块。
[0124]本实施例中,在实施例一和实施例二的基础上,在获取待调度索引页下一页的当前主体链接之前,获取待调度索引页中的翻页块,以方便进行翻页调度。
[0125]获取所述待调度索引页中的翻页块,具体包括:通过正则匹配链接的锚(auchor)所包含的信息,确定待调度索引页中的翻页块,获取确定的翻页块。
[0126]如果正则匹配链接的auchor包括翻页块特征信息,则基于翻页块信息确定待调度索引页中的翻页块。
[0127]例如,图2中上方的长方框所示的即为翻页块。图4中中间的长方框所示的也为翻页块。图4中的所不的翻页块也可以从http://roll.news.sina.com.cn/news/gnxw/gdxwl/index, shtml网页的相似块中抽取。
[0128]可选的,可以通过正则匹配链接的anchor来判断是否为翻页块,例如当包含下列翻页块特征信息中的至少一项时可以确定为翻页块:“数字”、“〈”、“〉”、“〈〈”、“》”、“上一页”、“下一页”、“第一页”、“最后一页”等关键字。
[0?29] 步骤S305:通过正则匹配链接的销auchor,确定下一页链接的统一资源定位符(Uniform Resoure LocatorURL),以便根据确定出的URL进行翻页抓取。
[0130]当正则匹配链接的auchor包含下一页链接信息时,将该auchor对应的链接确定为下一页链接的URL,以便根据确定出的URL进行翻页抓取。
[0131]确定下一页链接时,对翻页块中的节点,通过正则匹配链接的anchor,判断是否匹配下一页链接信息,其中下一页链接信息包括下列信息中的至少一项指定的数字”、“下一页”、“后一页”、“〉”等关键字。如果匹配出包括下一页链接信息时,则将该anchor对应的链接记为下一页链接的URL;否则,通过当前页页数计算下一页页数,然后拼接出下一页链接的URL。
[0132]如图4所示翻页块中的节点anchor正则匹配“下一页”关键字,则其下一页链接即为anchor为“下一页”对应的链接http: //rol 1.news.sina.com.cn/news/gnxw/gdxwl/index_2.shtml。
[0133]图6为一个网页的部分截图,其中包括了一个翻页块的示例,如图6中下方的长方框及为翻页块。翻页块中的节点anchor正则匹配下一页链接信息时,“下一页”、“后一页”、“〉”等均未能匹配,因此计算下一页页数(当前页为索引页,即翻页第I页,则下一页页数则为2)。从翻页块中找出节点anchor匹配数字2的链接,这里为http://gold, jrj.com.cn/list/hjzx-2.shtml。
[0134]步骤S306:获取待调度索引页下一页的当前主体链接。并返回继续执行步骤S302。
[0135]当获取的当前主体链接与历史主体链接不存在交集时,获取待调度索引页下一页的当前主体链接,并返回执行将获取的当前主体链接与待调度索引页的历史主体链接进行比较的步骤,直至当前主体链接与历史主体链接存在交集时。
[0136]步骤S307:执行后续调度操作。
[0137]上述未详细阐述的步骤,参见实施例一和实施例二中的相应步骤的描述。
[0138]实施例四:
[0139]本发明实施例四提供的资源搜索调度方法,其流程如图7所示,包括如下步骤:
[0140]步骤S401:获取待调度索引页的当前主体链接。
[0141]步骤S402:根据获取的当前主体链接中各链接所包括的发布时间信息,顺序提取时间序列。
[0142]本实施例中,将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较之前,确定获取的当前主体链接中各链接是否具备时间顺序或逆序排列规律,当不具备时,对其进行排列,从而方便后续的主体链接的比较。
[0143]如图4所示的,下方大方框中,通过下划线标出了的即为主体链接对应的发布时间,每个主体链接都有一个发布时间信息与之对应,基于此可以顺序抽取时间序列。
[0144]步骤S403:根据相邻链接的发布时间信息,判断提取的时间序列是否具备顺序或逆序特征;当具备时,执行步骤S405;当不具备时,执行步骤S404。
[0145]根据相邻链接的发布时间信息,通过判断抽取的时间序列是否具备顺序或逆序的特征,来实现判断主体链接是否按时间顺序或逆序排序。
[0146]步骤S404:将当前主体链接中各链接按时间顺序或时间逆序进行排序。
[0147]当抽取的时间序列不具备时间顺序或逆序特征时,说明主体链接不是按时间顺序或逆序排序的,为了方便主体链接的比较,可以对主体链接进行时间顺序或时间逆序排序操作。
[0148]步骤S405:将获取的当前主体链接与待调度索引页的历史主体链接进行比较。
[0149]步骤S406:判断获取的当前主体链接与历史主体链接是否存在交集。若是,执行步骤S408;若否,执行步骤S407。
[0150]步骤S407:获取待调度索引页下一页的当前主体链接。并返回继续执行步骤S402。
[0151]当获取的当前主体链接与历史主体链接不存在交集时,获取待调度索引页下一页的当前主体链接,并返回执行将获取的当前主体链接与待调度索引页的历史主体链接进行比较的步骤,直至当前主体链接与历史主体链接存在交集时。
[0152]对于主体链接按时间顺序或逆序排序的索引页,每次调度索引页时,比较当前发现的主体链接和历史主体链接集合,如果不存在交集,即上一次调度发现的主体链接与当前发现的主体链接完全不相同,则说明这两次调度之间有漏链,需要调度翻页第2页来发现漏链,并且将当前发现的主体链接加入到该索引页系列历史主体链接集合中。当调度翻页第2页时,同理,比较当前发现的主体链接和该索引页系列历史主体链接集合,如果不存在交集,则说明仍然有漏链,继续发起翻页第3页调度。依此类推,直到当前发现的主体链接和该索引页系列历史主体链接集合存在交集,则说明漏链已经找全了,不需要再发起翻页的调度。
[0153]对于主体链接按时间顺序排序的索引页,由于一般比较关注最新的主体链接,因此可以考虑从最后一页开始往前调度,机制都是一样的。
[0154]步骤S408:执行后续调度操作。
[0155]上述未详细阐述的步骤,参见实施例一、实施例二和实施例三中的相应步骤的描述。
[0156]上述实施例三和实施例四中相对于实施例一和实施例二所增加的可选步骤,可以如实施例三和实施例四中所描述的单独增加其中各实施例所描述的一部分步骤,也可以在实施例一和实施例二的基础上同时增加实施例三和实施例四中所增加的步骤,此种实现方式不再以新的实施例进行详细阐述。
[0157]基于同一发明构思,本发明实施例还提供一种资源搜索调度装置,该装置的结构如图8所示,包括:获取模块801、比较模块802和执行模块
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1