一种资源搜索调度方法及装置的制造方法_2

文档序号:9787462阅读:来源:国知局
,在进行调度操作前,获取待调度索引页的当前主体链接;将获取的当前主体链接与待调度索引页的历史主体链接进行比较;以确定是否存在链接遗漏,当确定不存在连接遗漏时,执行后续调度操作,从而避免了资源调度过程中出现漏链的可能性,提高了调度资源的收录覆盖率,该方法不需要通过缩短调度周期的方式实现,不会造成流量开销的增加,能够在节约网络流量资源的情况下,实现避免资源调度过程中的漏链现象。
[0066]进一步地,本发明的上述方法,在调度前逐页获取调度索引页的当前主体链接,逐页比较,从而尽最大可能的避免了漏链的发生。
[0067]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
[0068]根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
【附图说明】
[0069]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0070]图1是本发明实施例一中资源搜索调度方法的流程图;
[0071 ]图2是本发明实施例一中一个索引页的截图;
[0072]图3是本发明实施例二中资源搜索调度方法的流程图;
[0073]图4是本发明实施例二中确定待调度索引页中的最大相似块的示例图;
[0074]图5是本发明实施例三中资源搜索调度方法的流程图;
[0075]图6是本发明实施例三中另一个索引页的截图;
[0076]图7是本发明实施例四中资源搜索调度方法的流程图;
[0077]图8是本发明实施例中资源搜索调度装置的结构示意图。
【具体实施方式】
[0078]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0079]为了解决现有技术中资源调度时的漏链问题,本发明实施例提供一种资源搜索调度方法,能够尽可能的避免漏链现象,且不增加流量开销,能够提高了调度资源的收录覆盖率。下面通过具体的实施例进行详细说明。
[0080]实施例一:
[0081]本发明实施例一提供的资源搜索调度方法,其流程如图1所示,包括如下步骤:
[0082 ]步骤S11:获取待调度索引页的当前主体链接。
[0083]对于索引页每次调度时,解析索引页网页抽取并记录其发现的主体链接。具体的,对于待调度索引页,通过确定待调度索引页中的最大相似块,得到待调度索引页的当前主体链接。
[0084]其中,索引页是指网页上的主体是链接,而非内容文字的网页。主体链接是指索引页网页上的主体对应的链接集合。例如,图2所示为一个索引页的截图,索引页http://roll.news.sina.com.cn/news/gnxw/gdxwl/index.shtml网页中的主体链接如图2中的大方框所示,其中包括了该索引页中各主体的链接。
[0085]步骤S102:将获取的当前主体链接与待调度索引页的历史主体链接进行比较。
[0086]获取到待调度索引页的当前主体链接后,获取该调度索引页的历史主体链接,将两者进行比对,以确定当前主体链接是否存在漏链。
[0087]此时可选的,也可以一次性获取索引页系列历史主体链接集合。索引页及其对应的一系列翻页称为索引页系列,索引页系列历史主体链接集合可以包括索引页系列调度时抽取出的主体链接总和。
[0088]步骤S103:根据比较结果确定是否存在链接遗漏。若是,执行步骤S104;若否,执行步骤S105。
[0089]根据待调度索引页的当前主体链接与历史主体链接的比较结果,可以确定出待调度索引页是否存在漏链。例如待调度索引页的当前主体链接与历史主体链接完全不相同时,证明两次调度之间有漏链。
[0090]步骤S104:对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行步骤S105o
[0091 ]若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作。
[0092]当确定待调度索引页存在漏链时,对待调度索引页进行翻页调度,调度下一页来发现漏链,如果翻页调度后,通过比较下一页的当前主体链接和历史主体链接,发现仍存在漏链,则继续进行翻页调度,直至确定不存在连接遗漏时为止。
[0093]步骤S105:执行后续调度操作。
[0094]当根据比较结果确定待调度索引页不存在链接遗漏,执行后续调度操作。从而避免了漏链现象,且相对于现有技术中通过缩短调度周期来减少漏链的做法,该方法能够更好的避免漏链,且不需要增加网络流量使用量。可以节约系统流量资源。
[0095]实施例二:
[0096]本发明实施例二提供的资源搜索调度方法,其流程如图3所示,包括如下步骤:
[0097]步骤S201:获取待调度索引页的当前主体链接。
[0098]对于待调度索引页,通过确定待调度索引页中的最大相似块,得到待调度索引页的当前主体链接,其中,确定待调度索引页中的最大相似块,具体包括:
[0099]获取可扩展标记语言(extensible Markup Language,XML)路径,简称Xpath,相同的节点,得到相似块;根据相似块的位置和面积,确定出待调度索引页中的最大相似块。
[0100]可选的,相似块的位置根据相似块在调度索引页面中的宽度、高度、上边距、左边距确定;相似块的面积根据相似块在调度索引页面中的宽度、高度确定。
[0101]可选的,根据相似块的位置和面积,确定出待调度索引页中的最大相似块,具体包括:确定相似块中面积最大且包含页面中心点的相似块为最大相似块。
[0?02]例如:Xpath相同的节点(节点数>4)组成的集合这里称为相似块;计算相似块的位置信息,即在页面中宽度、高度、上边距、左边距,这四项信息便能决定相似块在网页中的位置,同事根据宽度和高度等信息计算相似块的面积。把面积最大、且包含中心点的相似块称为最大相似块。
[0103]如图4所示,为确定待调度索引页中的最大相似块的示例。对于索引页http://roll.news.sina.com.cn/news/gnxw/gdxwl/index, shtml网页的相似块,图4中的3个粗线方框圈出了 3个相似块,很明显最下方的方框所圈出的即为最大相似块。
[0104]最大相似块中的链接即为主体链接,即最下方方框中各条新闻对应的链接即为主体链接,如:
[0105]长江沉船扶正后下一步整体提升排水:
[0106]http://news.sina.com.cn/c/2015-06-05/133131917716.shtml;
[0107]广州多家医院试点当日归宅:白天手术晚上回家:
[0108]http://news.sina.com.cn/c/2015-06-05/125531917706.shtml;
[0109]……
[0110]步骤S202:将获取的当前主体链接与待调度索引页的历史主体链接进行比较。
[0111]根据待调度索引页的当前主体链接与历史主体链接的比较结果,来确定待调度索引页是否存在漏链。
[0112]步骤S203:判断获取的当前主体链接与历史主体链接是否存在交集。若是,执行步骤S205;若否,执行步骤S204。
[0113]根据待调度索引页的当前主体链接与历史主体链接是否存在交集可以确定两者是否相同。
[0114]步骤S204:获取待调度索引页下一页的当前主体链接。并返回继续执行步骤S202。
[0115]当获取的当前主体链接与历史主体链接不存在交集时,获取待调度索引页下一页的当前主体链接,并返回执行将获取的当前主体链接与待调度索引页的历史主体链接进行比较的步骤,直至当前主
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1