一种资源搜索调度方法及装置的制造方法_4

文档序号:9787462阅读:来源:国知局
803。
[0158]获取模块801,用于获取待调度索引页的当前主体链接.
[0159]比较模块802,用于将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较。
[0160]执行模块803,用于若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;若根据比较结果确定不存在链接遗漏,执行后续调度操作。
[0161]可选的,上述执行模块803,具体用于当获取的当前主体链接与历史主体链接不存在交集时,通知获取模块801获取待调度索引页下一页的当前主体链接,比较模块802返回执行将获取的当前主体链接与待调度索引页的历史主体链接进行比较的步骤,直至获取的当前主体链接与历史主体链接存在交集时,执行后续调度操作。
[0162]可选的,上述获取模块801,具体用于确定待调度索引页中的最大相似块,得到待调度索引页的当前主体链接。
[0163]可选的,上述获取模块801,具体用于获取可扩展标记语言XML路径xpath相同的节点,得到相似块;根据相似块的位置和面积,确定出待调度索引页中的最大相似块。
[0164]可选的,上述获取模块801,具体用于根据相似块在调度索引页面中的宽度、高度、上边距、左边距确定所述相似块的位置,以及根据相似块在调度索引页面中的宽度、高度确定相似块的面积。
[0165]可选的,上述获取模块801,具体用于确定相似块中面积最大且包含页面中心点的相似块为最大相似块。
[0166]可选的,上述获取模块801,还用于获取待调度索引页中的翻页块,通过正则匹配链接的销auchor,确定下一页链接的统一资源定位符URL,以便根据所述URL进行翻页抓取。
[0167]可选的,上述获取模块801,具体用于通过正则匹配链接的auchor所包含的信息,确定待调度索引页中的翻页块,获取确定的翻页块。
[0168]可选的,上述获取模块801,具体用于如果正则匹配链接的auchor包括翻页块特征信息,则基于翻页块信息确定待调度索引页中的翻页块。
[0169]可选的,上述获取模块801,具体用于正则匹配链接的auchor包含下一页链接信息时,将该auchor对应的链接确定为下一页链接的URL。
[0170]可选的,上述比较模块802,还用于根据当前主体链接中各链接所包括的发布时间信息,顺序提取时间序列;根据相邻链接的发布时间信息,判断提取的时间序列是否具备顺序或逆序特征;当不具备时,将获取的当前主体链接中各链接按时间顺序或时间逆序进行排序。
[0171]本发明实施例提供的资源搜索调度方法和装置,是针对特定索引页的调度机制,基于漏链判断实现调度,以最经济的流量成本来提高资源搜索的收录覆盖率。
[0172]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0173]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0174]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0175]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0176]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的资源搜索调度设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0177]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0178]至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
[0179]基于本发明的一个方面,还公开了Al.—种资源搜索调度方法,包括:
[0180]获取待调度索引页的当前主体链接;
[0181]将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较;
[0182]若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;
[0183]若根据比较结果确定不存在链接遗漏,执行后续调度操作。
[0184]A2.根据Al所述的方法,其中,若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,具体包括:
[0185]当所述当前主体链接与历史主体链接不存在交集时,获取所述待调度索引页下一页的当前主体链接,并返回执行所述将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较的步骤,直至所述当前主体链接与历史主体链接存在交集时。
[0186]A3.根据Al所述的方法,其中,所述获取待调度索引页的当前主体链接,具体包括:
[0187]确定所述待调度索引页中的最大相似块,得到待调度索引页的当前主体链接。
[0188]A4.根据A3所述的方法,其中,确定所述待调度索引页中的最大相似块,具体包括:
[0189]获取可扩展标记语言XML路径xpath相同的节点,得到相似块;
[0190]根据相似块的位置和面积,确定出所述待调度索引页中的最大相似块。
[0191]A5.根据A4所述的方法,其中,所述相似块的位置根据所述相似块在调度索引页面中的宽度、高度、上边距、左边距确定;
[0192]所述相似块的面积根据所述相似块在调度索引页面中的宽度、高度确定。
[0193]A6.根据A4所述的方法,其中,根据相似块的位置和面积,确定出所述待调度索引页中的最大相似块,具体包括:
[0194]确定相似块中面积最大且包含页面中心点的相似块为最大相似块。
[0195]A7.根据Al所述的方法,其中,
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1