索引页主体链接记录方法和装置的制造方法

文档序号:9506252阅读:324来源:国知局
索引页主体链接记录方法和装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,具体而言,涉及一种索引页主体链接记录方法和装置。
【背景技术】
[0002]Spider (蜘蛛、爬虫)位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider有多种调度机制来尽量快而全的发现资源链接:
[0003](1)对挖掘的种子网页按一定的周期进行调度(调度即抓取种子网页上的链接等,例如1天调度20次),以便能覆盖到所有的时效性的网页。这种方式的缺点在于:调度周期间隔较短时,一般不会存在漏链(即漏掉链接未采集)的问题,但是可能会有流量的浪费;调度周期间隔较长时,可能会存在漏链。
[0004](2)考虑到有限的流量及大量的索引页,对一般的索引页(不在种子网页集合范围内)按一定的周期(例如一周重抓一次)进行调度。由于调度周期间隔较长,可能会存在漏链。
[0005]漏链的情况,会降低Spider的收集、记录的覆盖率。

【发明内容】

[0006]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的索引页主体链接记录方法和装置。
[0007]依据本发明的一个方面,提供了一种索引页主体链接记录方法,其包括:按发布时间逆序,从索引页上获取一个或多个主体链接;判断所述一个或多个主体链接与已记录的历史主体链接是否存在交集;在所述一个或多个主体链接与所述历史主体链接不存在交集时,对所述一个或多个主体链接进行记录,并通过迭代方式更新所述一个或多个主体链接,直至所述一个或多个主体链接与所述历史主体链接存在交集。
[0008]可选地,前述的方法,按发布时间逆序,从索引页上获取一个或多个主体链接,具体包括:当所述索引页上的主体链接按发布时间逆序排列时,获取所述索引页中包含的多个页面中的首页中的多个主体链接。
[0009]可选地,前述的方法,按发布时间逆序,从索引页上获取一个或多个主体链接,具体包括:当所述索引页上的主体链接按发布时间顺序排列时,获取所述索引页中包含的多个页面中的尾页中的多个主体链接。
[0010]可选地,前述的方法,在按发布时间逆序,从索引页上获取一个或多个主体链接之前,还包括:获取所述索引页中当前页面的多个主体链接的发布时间,根据所述索引页中当前页面的多个主体链接的排序以及发布时间的早晚,确定所述索引页中的主体链接的排序是按发布时间逆序排列还是顺序排列。
[0011]可选地,前述的方法,在获取所述索引页中当前页面的多个主体链接的发布时间之前,还包括:采集所述索引页的当前页面上包含的多个节点的路径;根据所述多个节点的路径,将所述多个节点划分为多个相似块;计算所述多个相似块的位置信息,并从所述多个相似块中找出最大相似块,其中所述最大相似块中的多个链接作为主体链接以供获取。
[0012]可选地,前述的方法,计算所述多个相似块的位置信息,并从所述多个相似块中找出最大相似块,具体包括:计算所述多个相似块在所述索引页中的宽度、高度、上边距、左边距,计算所述多个相似块的面积和中心点的位置,将面积最大、且自身包含所述中心点的相似块作为所述最大相似块。
[0013]可选地,前述的方法,还包括:根据所述多个相似块中的节点的值,从所述多个相似块中找出翻页块;按发布时间逆序,从索引页上获取一个或多个主体链接,具体包括:在从所述索引页的当前页面获取所述一个或多个主体链接后,基于所述翻页块中的节点对所述索引页按发布时间的逆序进行翻页,并从翻页后的所述索引页上获取并更新所述一个或多个主体链接。
[0014]可选地,前述的方法,基于所述翻页块中的节点对所述索引页按发布时间的逆序进行翻页,具体包括:从所述翻页块中找出用于翻页的节点,并根据所述用于翻页的节点对应的链接进行翻页。
[0015]可选地,前述的方法,基于所述翻页块中的节点对所述索引页按发布时间的逆序进行翻页,具体包括:从所述翻页块中找出所述索引页中的当前页面对应的第一节点,根据第一节点对应的页码计算待翻页页面所对应的第二节点的页码,根据所述第二节点的页码查找到所述第二节点,并根据所述第二节点的链接进行翻页。
[0016]依据本发明的另一方面,还提供了一种索引页主体链接记录装置,其包括:主体链接获取模块,用于按发布时间逆序,从索引页上获取一个或多个主体链接;交集判断模块,用于判断所述一个或多个主体链接与已记录的历史主体链接是否存在交集;主体链接记录模块,用于在所述一个或多个主体链接与所述历史主体链接不存在交集时,对所述一个或多个主体链接进行记录;所述主体链接获取模块通过迭代方式更新所述一个或多个主体链接,直至所述一个或多个主体链接与所述历史主体链接存在交集。
[0017]可选地,前述的装置,所述主体链接获取模块当所述索引页上的主体链接按发布时间逆序排列时,获取所述索引页中包含的多个页面中的首页中的多个主体链接。
[0018]可选地,前述的装置,所述主体链接获取模块当所述索引页上的主体链接按发布时间顺序排列时,获取所述索引页中包含的多个页面中的尾页中的多个主体链接。
[0019]可选地,前述的装置,还包括:排序判断模块,用于获取所述索引页中当前页面的多个主体链接的发布时间,根据所述索引页中当前页面的多个主体链接的排序以及发布时间的早晚,确定所述索引页中的主体链接的排序是按发布时间逆序排列还是顺序排列。
[0020]可选地,前述的装置,还包括:节点路径采集模块,用于采集所述索引页的当前页面上包含的多个节点的路径;相似块划分模块,用于根据所述多个节点的路径,将所述多个节点划分为多个相似块;最大相似块确定模块,用于计算所述多个相似块的位置信息,并从所述多个相似块中找出最大相似块,其中所述最大相似块中的多个链接作为主体链接以供获取。
[0021]可选地,前述的装置,所述最大相似块确定模块计算所述多个相似块在所述索引页中的宽度、高度、上边距、左边距,计算所述多个相似块的面积和中心点的位置,将面积最大、且自身包含所述中心点的相似块作为所述最大相似块。
[0022]可选地,前述的装置,还包括:翻页块查找模块,用于根据所述多个相似块中的节点的值,从所述多个相似块中找出翻页块;翻页模块,用于在从所述索引页的当前页面获取所述一个或多个主体链接后,基于所述翻页块中的节点对所述索引页按发布时间的逆序进行翻页,并从翻页后的所述索引页上获取并更新所述一个或多个主体链接。
[0023]可选地,前述的装置,所述翻页模块从所述翻页块中找出用于翻页的节点,并根据所述用于翻页的节点对应的链接进行翻页。
[0024]可选地,前述的装置,所述翻页模块从所述翻页块中找出所述索引页中的当前页面对应的第一节点,根据第一节点对应的页码计算待翻页页面所对应的第二节点的页码,根据所述第二节点的页码查找到所述第二节点,并根据所述第二节点的链接进行翻页。
[0025]根据以上的技术方案,本发明的索引页主体链接记录方法和装置至少具有以下优占.
[0026]与现有的技术方案不同,在本发明的技术方案中会从索引页上按发布时间逆序采集有限的主体链接与已经记录的历史主体链接进行比较,说明最新发布的主体链接存在被采集记录的情况,则在先发布的主体链接已经采集记录完成,不存在漏链的情况,不必继续采集记录;如没有交集则说明,最新发布的主体链接均未被采集记录,属于漏链的情况需要进行记录,则在先发布的主体链接可能也存在漏链的情况,需要继续获取主体链接并进行分析判断;根据本发明的技术方案来采集记录主体链接,不存在漏链的情况,也不会出现重复采集的情况。
[0027]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0028]通过阅读下文优选实施方式的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1