索引页内容提取方法和装置、搜索引擎的制作方法

文档序号:9417533阅读:389来源:国知局
索引页内容提取方法和装置、搜索引擎的制作方法
【技术领域】
[0001]本发明涉及互联网技术,尤其是一种索引页内容提取方法和装置、搜索引擎。
【背景技术】
[0002]作为互联网资源的HTML (Hypertext Markup Language,超文本标记语言)文档使用超链接连接了起来,就像织成了一张网。搜索引擎使用SpideH网络爬虫,也称网络蜘蛛)寻找网络资源。Spider位于搜索引擎数据流的最上游,负责将互联网网站上的资源采集到本地数据库,提供给后续检索使用,是搜索引擎最主要数据来源之一。Spider的目标就是发现并抓取互联网中一切有价值的网页。
[0003]当前大多数互联网网站以索引页和翻页的形式来组织网站资源,当有新资源增加时,老资源往后或往前推移到翻页系列中。对Spider来说,这种特定类型的索引页是资源链接发现的一种有效渠道。但是,由于Spider是定期检查这些网页来获得新增的资源链接,检查的周期同资源链接发布的周期不可避免会有不同,周期不同的时候,资源链接很有可能就被推到翻页序列中。
[0004]为实现上述发现并抓取互联网中一切有价值网页的目标,首先就需要发现有价值的网页链接。目前,Spider可以通过多种调度机制尽量快而全的发现网页链接。
[0005]在现有的一种调度机制中,Spider对挖掘的种子(即:网站网页爬行入口 )按照一定的较短周期进行调度,例如按照I天调度20次的平均周期进行调度,以便能覆盖到所有的时效性网页;考虑到有限的网络流量资源、而存在大量的索引页,对不在种子集合范围内的一般索引页按一定的较长周期进行调度,例如按照一周重抓一次的较长周期进行调度。
[0006]在实现本发明的过程中,发明人发现,上述现有的调度机制至少存在以下问题:
[0007]对种子的调度周期较短时,一般不会出现遗漏资源链接(网页链接,简称:漏链)的问题,然而当采点不准时,即=Spider对种子的调度周期同资源链接的发布周期不同时,较短的调度周期就会造成网络流量资源的浪费;若将对种子的调度周期设置较长,可能会出现漏链冋题;
[0008]对于一般索引页,由于调度周期较长,可能会出现漏链问题;
[0009]由于存在以上漏链问题,降低了 Spider对网络资源的收录覆盖率。

【发明内容】

[0010]本发明实施例所要解决的一个技术问题是:提供一种索引页内容提取方法和装置、搜索引擎,以避免调度周期较长时出现的漏链问题,在不增加流量成本的情况下提高Spider对网络资源的收录覆盖率。
[0011]根据本发明实施例的一个方面,提供的一种索引页内容提取方法,包括:
[0012]对指定网站的索引页系列中的当前索引页进行内容提取,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;
[0013]响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取。。
[0014]示例性地,在本发明上述方法的另一个实施例的中,还包括:
[0015]响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,将当前索引页中的所有主体链接记录到所述历史主体链接集合中;或者
[0016]响应于当前索引页中的主体链接集合与历史主体链接集合存在交集,将当前索引页中、所述交集之外的主体链接记录到所述历史主体链接集合中。
[0017]示例性地,在本发明上述方法的另一个实施例的中,所述定位到下一索引页进行内容提取包括:
[0018]识别索引页系列是否存在当前索引页的下一索引页;
[0019]响应于索引页系列存在当前索引页的下一索引页,根据当前索引页上翻页块的翻页特征锚点anchor或当前索引页的链接地址获取下一索引页的链接地址,以所述当前索引页的下一索引页作为当前索引页进行内容提取。
[0020]示例性地,在本发明上述方法的另一个实施例中,还包括:
[0021]响应于当前索引页中的主体链接集合与历史主体链接集合存在交集,将所述历史主体链接集合中不存在的、所述索引页系列中的主体链接记录到所述历史主体链接集合中;
[0022]其中,所述历史主体链接集合中不存在的、所述索引页系列中的主体链接包括与所述历史主体链接集合存在交集的当前索引页的主体链接集合中所述交集之外的主体链接,或进一步包括与所述历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接。
[0023]示例性地,在本发明上述方法的另一个实施例中,所述定位到下一索引页进行内容提取包括:
[0024]识别索引页系列是否存在当前索引页的下一索引页;
[0025]响应于索引页系列存在当前索引页的下一索引页,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址,以所述当前索引页的下一索引页作为当前索引页进行内容提取;
[0026]响应于索引页系列不存在当前索引页的下一索引页,将索引页系列中与所述历史主体链接集合不存在交集的所有索引页的主体链接集合中的所有主体链接记录到所述历史主体链接集合中。
[0027]示例性地,在本发明上述各方法的另一个实施例中,所述对当前索引页进行内容提取包括:
[0028]对当前索引页进行解析,发现当前索引页中的主体链接并进行集合,得到当前索引页中的的主体链接集合。
[0029]示例性地,在本发明上述各方法的另一个实施例中,所述发现当前索引页中的主体链接包括:
[0030]获取当前索引页中的相似块并计算相似块在当前索引页中的位置和面积;其中,相似块为可扩展标记语言XML文档元素路径xpath相同的节点集合在当前索引页上形成的区域;
[0031]从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块;
[0032]确定最大相似块中的链接为主体链接。
[0033]示例性地,在本发明上述各方法的另一个实施例中,所述节点集合中的节点数量大于4。
[0034]示例性地,在本发明上述各网络资源的调度方法的另一个实施例中,还包括:
[0035]判断索引页系列中主体链接是否按照发布时间排布,其中,按照发布时间排布包括按照发布时间顺序排布、或者按照发布时间逆序排布;
[0036]响应于索引页系列中主体链接按照发布时间排布,确定索引页系列中的首个索引页,开始执行所述对指定网站的索引页系列中的当前索引页进行内容提取的操作;
[0037]其中,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者按照发布时间顺序排布的最后一个索引页;下一索引页为索引页系列中,主体链接按照时间逆序排布时所述当前索引页相邻的后一个索引页、或者按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
[0038]示例性地,在本发明上述各方法的另一个实施例中,所述判断索引页系列中主体链接是否按照发布时间排布包括:
[0039]获取索引页上记录的各主体链接的发布时间信息,判断各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列;在各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列时,确定索引页系列中主体链接按照发布时间排布;或者
[0040]获取索引页上主体链接区块的元素的类class属性信息,根据class属性信息中包含的主体链接区块的排布方式说明信息判断索引页系列中主体链接按照发布时间排布。
[0041]示例性地,在本发明上述各方法的另一个实施例中,还包括:
[0042]识别所述网站需要进行内容提取的网页为索引页系列或单个索引页;
[0043]响应于需要进行内容提取的网页为索引页系列,执行所述判断索引页系列中主体链接是否按照发布时间排布的操作;
[0044]响应于需要进行内容提取的网页为单个索引页,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合,将当前索引页中的主体链接集合中与所述历史主体链接集合的交集之外的主体链接记录到所述历史主体链接集合中。
[0045]根据本发明实施例的又一个方面,提供的一种索引页内容提取装置,包括:
[0046]内容提取单元,对指定网站的索引页系列中的当前索引页进行内容提取;以及根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,定位到下一索引页进行内容提取;
[0047]比较单元,用于比较内容提取单元提取的当前索引页中的主体链接集合与上一次提取到的历史主体链接集合。
[0048]示例性地,在本发明上述装置的另一个实施例的中,还包括:
[0049]第一记录单元,用于根据比较单元的比较结果,在当前索引页中的的主体链接集合与历史主体链接集合不存在交集时,将当前索引页中的所有主体链接记录到所述历史主体链接集合中;以及在当前索引页中的主体链接集合与历史主体链接集合存在交集时,将当前前索引页中、所述交集之外的主体链接记录到所述历史主体链接集合中。
[0050]示例性地,在本发明上述装置的另一个实施例的中,还包括:
[0051]第一识别单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,识别索引页系列是否存在当前索引页的下一索引页;
[0052]地址获取单元,用于根据第一识别单元的识别结果,在索引页系列存在当前索引页的下一索引页时,根据当前索引页上翻页块的翻页特征锚点anchor或当前索引页的链接地址获取下一索引页的链接地址并提供给内容提取单元,以便所述内容提取单元以所述当前索引页的下一索引页作为当前索引页进行内容提取。
[0053]示例性地,在本发明上述装置的另一个实施例的中,还包括:
[0054]第二记录单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合存在交集时,将所述历史主体链接集合中不存在的、所述索引页系列中的主体链接记录到所述历史主体链接集合中;
[0055]其中,所述历史主体链接集合中不存在的、所述索引页系列中的主体链接包括与所述历史主体链接集合存在交集的当前索引页的主体链接集合中所述交集之外的主体链接,或进一步包括与所述历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接。
[0056]示例性地,在本发明上述装置的另一个实施例的中,还包括:
[0057]第一识别单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1