一种识别Hub页中有效链接的方法和装置的制作方法

文档序号:6402635阅读:232来源:国知局
专利名称:一种识别Hub页中有效链接的方法和装置的制作方法
技术领域
本申请涉及互联网信息处理领域,特别是涉及一种识别Hub页中有效链接的方法和装置,以及一种更新Hub页中链接的抓取周期的方法和系统。
背景技术
为了方便用户对网页的查找,目前互联网网站的各个网页中都具有连接到其他网页的超级链接。在一个网站中,通常存在两种网页,分别是Hub页和内容页。其中,Hub页是以链接为主的网页,其功能是为用户导航以便用户查找到所需要的内容页,该页面中链接的比例较高,其表现形式多是页面的主体部分存在着一组明显的重复链接列表;内容页是Hub页中链接指向的资源类网页,页面中以文字或图片等内容为主,存储着有价值的内容。由于当前数据和信息的更新速度很快,网站每时每刻都在不断地产生新的内容页。为了使用户能够查看到最新的内容页,需要不断地通过抓取Hub页上的链接,从而在Hub页上添加新产生的内容页的链接。在更新Hub页链接时,由于在不同的时刻Hub页中链接的更新速度不同,所以在不同的时刻需要根据产生新链接的速度来对Hub页的抓取时间进行调整。在Hub页中有两种链接,一种为该Hub页的有效链接,一种是该Hub页的无效链接。有效链接是指其内容页主题从属于其Hub页主题的链接,例如Hub页中间栏的链接;无效链接是指其内容页主题不从属于与其Hub页主题的链接,例如Hub页侧边栏的链接。由于一个Hub页的无效链 接往往是整个网站的热门链接或者最新链接,同一网站中多个其他Hub页主题的链接,Hub页上有效链接的更新速度通常比无效链接慢。因此,为了节约抓取资源,在对Hub页更新时间进行调整时需要根据新产生的有效链接来确定更新时间。但是,由于现有技术中不能区分Hub页链接中的有效链接和无效链接,所以,现有技术Hub页在抓取链接对应的内容页时,通常采用的方法是查找当前抓取所抽取的所有内容页链接与前一次抓取所抽取的所有内容页链接,并根据比较两次抓取内容页链接所有新链接来确定下一次抓取的抓取周期。这样,由于无效链接的更新速度比有效链接快,根据所有新链接所确定的Hub页抓取周期就会小于有效链接实际的抓取周期,Hub页抓取速度就会大于有效链接更新的需求。从而消耗过多的系统资源,降低了系统的性能。

发明内容
本申请所要解决的技术问题是,提供一种识别Hub页中有效链接的方法和装置,以及一种更新Hub页中链接的抓取周期的方法和系统,以解决由于现有技术不能从Hub页的链接中区分有效链接和无效链接而导致的Hub页抓取速度大于有效链接更新速度并消耗过多系统资源的技术问题。为解决上述技术问题,本申请提供了一种识别Hub页中有效链接的方法,该方法包括:抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息;
从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径;将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。可选的,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括:删除所述内容页面包屑路径中所述内容页所在的层级;判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同,如果是,则将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。可选的,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括:判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页;

其中,所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在。可选的,所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于第一最小阈值。可选的,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括:判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页;其中,所述第二匹配条件为:所述内容页面包屑路径中除所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中不存在的层级数量不超过第一级数阈值,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中不存在的层级数量不超过预设的第二级数阈值。可选的,所述Hub页不属于论坛类型且所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于第二最小阈值。本申请还提供了一种更新Hub页中链接的抓取周期的方法。Hub页每次抓取链接时,采用前述方法从抽取的链接中识别所述Hub页的有效链接;所述方法包括:获取所述Hub页在当前更新时识别出的当前有效链接,并获取所述Hub页在前一次更新时识别出的前次有效链接;比较所述当前有效链接和所述前次有效链接,得到Hub页在当前更新时新产生的有效链接;根据所述新产生的有效链接数量,确定所述Hub页下一次抓取链接的抓取周期。本申请还提供了一种识别Hub页中有效链接的装置。所述装置包括:内容页抽取模块,用于抽取Hub页中链接对应的内容页;网页信息获取模块,用于获取Hub页的信息及所述内容页的信息;
面包屑提取模块,用于从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径;有效内容页识别模块,用于将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页;链接识别模块,用于将所述有效内容页对应的链接识别为所述Hub页的有效链接。可选的,所述有效内容页识别模块具体包括:删除子模块,用于删除所述内容页面包屑路径中所述内容页所在的层级;第一判断子模块,用于判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同;第一识别子模块,用于在第一判断子模块的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。可选的,所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于2 ;所述有效内容页识别模块具体包括:第二判断子模块,用于判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件;所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面 包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在;第二识别子模块,用于在第二判断子模块的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。可选的,所述Hub页不属于论坛类型且所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于2 ;所述有效内容页识别模块具体包括:第三判断子模块,用于判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件;所述第二匹配条件为:所述内容页面包屑路径中除所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中不存在的层级数量不超过第一级数阈值,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中不存在的层级数量不超过预设的第二级数阈值;第三识别子模块,用于在第三判断子模块的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。本申请还提供了一种更新Hub页中链接的抓取周期的系统。所述系统包括:识别单元,用于Hub页每次抓取链接时,采用前述的装置从抽取的链接中识别所述Hub页的有效链接;链接获取单元,用于获取所述Hub页在当前更新时识别出的当前有效链接,并获取所述Hub页在前一次更新时识别出的前次有效链接;比较单元,用于比较所述当前有效链接和所述前次有效链接,得到Hub页在当前更新时新产生的有效链接;时间确定单元,用于根据所述新产生的有效链接数量,确定所述Hub页下一次抓取链接的抓取周期。与现有技术相比,本发明具有以下优点: 本申请的技术方案,采用的是,通过Hub页的信息和抽取自该Hub页中链接的内容页的信息,提取该Hub页和其内容页的面包屑路径,再将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为该Hub页的有效内容页,并将有效内容页的链接识别为该Hub页的有效链接。由于网站中网页是通过主题归属组织起来的层级结构,网页的面包屑路径中记载了从网站首页到该网页的路径中所经过的中途网页信息,因此,如果内容页的面包屑路径与Hub页的面包屑路径相匹配,则表明该内容页的主题属于该Hub页,进而可以确定该内容页的链接是该Hub页的有效链接。这样,在Hub页更新时就可以识别出新产生的有效链接,进而可以根据新产生的有效链接来确定下一次抓取周期,从而使得Hub页抓取速度减小至有效链接更新速度,从而节约系统资源提升系统的性能。进一步而言,由于网站对网络爬虫的限制或者爬虫自身抓取服务器数量的限制,爬虫每天对某个站点能够抓取的网页数量是有限的。如果对该站点Hub页的抓取速度超过需求,就会浪费抓取资源,减少爬虫对该站点网页的覆盖。而采用本申请的技术方案,Hub页抓取速度可以减小至有效链接的更新速度,这样就可以避免站点中Hub页的抓取速度超过需求,从而避免抓取资源的浪费,从而提高爬虫对该站点网页的覆盖。


为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请中识别Hub页中有效链接的方法实施例1的流程图;图2为本申请方法实施例1中识别有效内容页的实施方式I的流程图;图3为本申请方法实施例1中识别有效内容页的实施方式2的流程图;图4为本申请方法实施例1中识别有效内容页的实施方式3的流程图;图5为本申请中识别Hub页中有效链接的方法实施例2的流程图;图6为本申请中更新Hub页中链接的抓取周期的方法实施例1的流程图;图7为本申请中识别Hub页中有效链接的装置实施例1的流程图;图8为本申请装置实施例1中内容页识别模块实施方式I的结构图;图9为本申请装置实施例1中内容页识别模块实施方式2的结构图;图10为本申请装置实施例1中内容页识别模块实施方式3的结构图;图11为本申请中更新Hub页中链接的系统实施例1的结构图。
具体实施例方式为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
发明人经过研究发现,由于网站的结构是按照网页之间主题从属关系组合成的层级结构,所以在网站层级结构中,有效链接的内容页位于其Hub页之下,无效链接的内容页则不位于其Hub页之下。而面包屑路径中记载着网站层级结构中从网站首页至当前网页所经过的中途网页。因此,有效链接的内容页的面包屑路径与Hub页的面包屑路径是相匹配的,而无效链接的内容页的面包屑路径与Hub页的面包屑路径是不匹配的。基于上述发现,本申请的主要思想是:在抽取Hub页中链接对应的内容页之后,分别从Hub页的信息和内容页的信息中提取各网页各自的面包屑路径,然后根据各内容页面包屑路径与Hub页面包屑路径的匹配情况,将面包屑路径匹配的内容页的链接识别为Hub页面的有效链接。下面结合附图,通过实施例来详细说明本申请中识别Hub页中有效链接的方法和装置以及更新Hub页中链接的方法和系统的具体实现方式。参见图1,示出了本申请中识别Hub页中有效链接的方法实施例1的流程图。在本实施例中,可以包括以下步骤:S101、抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信
肩、O其中,抽取Hub页中链接对应的内容页可以通过网络爬虫(也称网络蜘蛛,WebSpider)以一定的抓取周期抓取Hub页然后抽链提取内容页来实现。Hub页信息和内容页信息,可以从该次抽取所产生的抓取日志中获取。在抓取日志中,记载有网页的内容、类型、抓取时间等信息。需要说明的是,在本实施例中,需要获取的网页信息可以包括网页的内容,此外,在不同的应用场景中,还可以包括其他的网页信息,如类型、抓取时间等。

S102、从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径。需要说明的是,在网站中,网页是以层级结构组合在一起的。网站结构的第一层级一般为网站首页,每条支线的最后一级为内容页,除最后一个层级外一般为Hub页,其中,每个Hub页上都具有属于该Hub页的后一级网页的链接,这样,用户可以通过每一级网页上的链接,查找到各个内容页,网站也可以将各内容页按照内容分类成不同的主题目录来向用户提供搜索服务。在Hub页中,除了该Hub页的后一级网页的链接,还经常包括很多其他网页的链接,包括层级结构中位于该Hub页之下的内容页和不位于该Hub页之下的内容页中。其中,在Hub页的链接所对应内容页中,层级结构位于该Hub页之下的内容页称之为该Hub页的有效内容页,层级结构不位于该Hub页之下的内容页称之为该Hub页的无效内容页。有效内容页主要位于Hub页的中间栏,而无效内容页主要位于Hub页的侧边栏,例如“热门话题”、“十大新闻”等。面包屑路径是面包屑导航的过程中网络爬虫在网站的层级结构中爬行所经过的路线,实际上是按照主题归属从网站首页至当前页面所经过的各个网页组成的路径,在面包屑路径中,每一层级对应一个网页,在该层级上记载有该网页的主题和网址。网页的面包屑路径可以通过解析网页的内容来提取。S103、将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。
其中,抽取自一个Hub页的内容页一般有多个,这些内容页中有些是有效链接的内容页,即有效内容页,有些是无效链接的内容页,即无效内容页。因此,在识别有效内容页时,是分别对Hub页的每个内容页进行识别,在Hub页的所有内容页中,内容页面包屑路径与Hub页面包屑路径能够匹配的内容页被识别为有效内容页。在识别有效内容页时,判定内容页面包屑路径与Hub页面包屑路径相匹配可以使用不同的条件。由于各个网站在构造网页的层级结构时,并不都是严格按照主题归属来组织网页的。通常情况下,有效内容页是Hub页的后一层级的内容页,有效内容页的内容页面包屑路径除了内容页所在的最后一个层级,其他层级都与Hub页的面包屑路径相同;但是,在不规则的网站设计中,某些Hub页的面包屑路径和其主体内容页的面包屑路径并不完全匹配,例如某些有效内容页不是该Hub页的后一层级的网页,而是后N层级的网页(N大于I)、或该Hub页前一层级Hub页之下的内容页等。因此,对于不同的网站层级结构,可以使用不同的匹配条件来识别有效内容页。参见图2,示出了本实施例中识别有效内容页的实施方式I的流程图。本实施方式中,Hub页的有效内容页可以是该Hub页后一层级的网页。本实施方式可以包括:S201、删除所述内容页面包屑路径中所述内容页所在的层级。其中,内容页所在的层级一般是位于内容页面包屑路径中的最后一级,但是,在内容页面包屑路径所含层级数量较少时,最后一级如果是链接则说明该级并不是内容页所在层级,而可能是在网站设计时内容页的面包屑路径省略了内容页这一级。因此,在执行步骤S201时,可以设置一个阈值,如果内容页面包屑路径中层级数量在该阈值以上,就可以·确定其最后一级是该内容页所在层级,将其最后一级删除;如果内容页面包屑路径中层级数量在该阈值以下,则在最后一级不是链接的情况下删除最后一级。其中,该阈值可以优选为2。S202、判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同,如果是,进入S203。删除了内容页所在层级之后,内容页面包屑路径的最后一级表示的是其主题所属的Hub页。如果该层级与Hub页最后一个层级相同,贝U表明该内容页是该Hub页的有效内容页。其中,在判断层级是否相同时,可以通过比较层级中的文本来实现,层级的文本可以包括该层级网页的主题和/或网址。S203、将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。需要说明的是,步骤S201在本实施方式中也可以不执行,而是直接利用内容页面包屑路径中除了内容页所在层级以外的最后一级来执行步骤S202的判断。另外,如果步骤S202的判断结果是内容页面包屑路径最后一级与Hub页最后一级不相同,可以直接将该内容页识别为无效链接的内容页,但是这样就会使一些实际为有效内容页的内容页被排除掉。为了尽可能全面地识别有效内容页,在S202的判断结果为否时,可以结合其他识别有效内容页的实施方式来做进一步的识别。参见图3,示出了本实施例中识别有效内容页的实施方式2的流程图。本实施方式中,有效内容页的面包屑路径和该Hub页的面包屑路径可以不完全匹配,例如有效内容页可以是其Hub页所在路径的其他Hub页后一层级的网页。本实施方式可以包括:S301、判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件,如果是,进入S302 ;其中,所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在。其中,如果内容页面包屑路径中除了该内容页所在层级以外的所有层级在Hub页面包屑路径中都存在,则表明该内容页的前一层级Hub页是该Hub页主题所属的Hub页,则可以将这种内容页识别为有效内容页。如果Hub页面包屑路径中的所有层级在内容页面包屑路径中都存在,则表明该内容页位于该Hub页之下,该内容页的主题从属于该Hub页的主题,则可以将这种内容页也识别为有效内容页。可以理解的是,上述两种内容页都可以被识别为有效内容页,因此内容页面包屑路径和Hub页面包屑路径只要满足其中一个第一匹配条件,就可以进入步骤S302。在判断是否满足第一匹配条件时,具体地,可以先计算该内容页与Hub页的匹配层级数量和最小层级数量,然后判断匹配层级数量与最小层级数量是否相同;其中,匹配层级数量为内容页面包屑路径与Hub页面包屑路径两者中相同层级的数量,最小层级数量是内容页面包屑路径中除内容页所在层级以外的层级数量与Hub页面包屑路径中层级数量的两者中的最小值。S302、将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页。需要说明的是,本实施方式可以在图2的实施方式I执行之后来执行,若步骤S202的判断结果为否,可以进入步骤S301来执行本实施方式。另外,本实施方式可以优选在以下情况下执行:所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于第一最小阈值。例如,第一最小阈值可以设定为2。参见图4,示 出了本实施例中识别有效内容页的实施方式3的流程图。本实施方式中,有效内容页可以是该Hub页主题相关的其他Hub页后一层级的网页。本实施方式可以包括:S401、判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件,如果是,进入S402 ;其中,所述第二匹配条件为:所述内容页面包屑路径中除所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中不存在的层级数量不超过第一级数阈值,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中不存在的层级数量不超过预设的第二级数阈值。其中,如果内容页面包屑路径和Hub页面包屑路径满足第二匹配条件,则表明该内容页所属网页与该Hub页所属网页相比只有较少的网页不同,该内容页与该Hub页的主题相关程度较高,则可以将这种内容页识别为有效内容页。可以理解的是,内容页面包屑路径和Hub页面包屑路径只要满足其中一个第一匹配条件,就可以进入步骤S302。另外,第一级数阈值与第二级数阈值可以相同,也可以不同。在判断是否满足第二匹配条件时,具体地,可以先计算该内容页与Hub页的匹配层级数量和最小层级数量,然后判断最小层级数量与匹配层级数量之差是否不小于级数阈值;其中,匹配层级数量为内容页面包屑路径与Hub页面包屑路径两者中相同层级的数量,最小层级数量是内容页面包屑路径中除内容页所在层级以外的层级数量与Hub页面包屑路径中层级数量的两者中的最小值。
S402、将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页。需要说明的是,本实施方式可以在图2的实施方式I执行之后来执行,若步骤S202的判断结果为否,可以进入步骤S401来执行本实施方式。另外,本实施方式可以优选在以下情况下执行:所述Hub页不属于论坛类型,且,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于第二最小阈值。例如,第二最小阈值也可以设定为2。上述三种识别有效内容页的实施方式,所识别出的有效内容页在网站中的层级结构中位置不同。在识别有效内容页的实际应用中,可以根据网站的层级结构选择其中的一种或几种结合来使用,以便尽可能全面地识别出Hub页的有效内容页。接着返回图1。需要说明的是,在本实施例中有效链接和无效链接在很多实际应用场景中也可以从链接在Hub页的位置中来进行区分。例如,Hub页中间栏链接是内容页主题从属于Hub页主题的链接,有效链接即是Hub页中间栏的链接;Hub页侧边栏链接是内容页主题不从属于Hub页主题的内容页,而是整个网站的热门链接或最新链接,无效链接即是Hub页侧边栏的链接。通过本实施例的技术方案,由于网站中网页是通过主题归属组织起来的层级结构,网页的面包屑路径中记载了从 网站首页到该网页的路径中所经过的中途网页信息,因此,如果内容页的面包屑路径与Hub页的面包屑路径相匹配,则表明该内容页的主题属于该Hub页,进而可以确定该内容页的链接是该Hub页的有效链接。这样,在Hub页更新时就可以识别出新产生的有效链接,进而可以根据新产生的有效链接来确定下一次抓取周期,从而使得Hub页抓取速度减小至有效链接更新速度,从而节约系统资源,提高系统的性能。进一步而言,本实施例的技术方案还可以避免站点中Hub页的抓取速度超过需求,从而解约抓取资源的浪费,提高网络爬虫对站点网页的覆盖。在前述图1所示的方法实施例1中,提供了三种不同的识别有效内容页的实施方式。下面通过一个具体的应用场景,来详细说明本申请识别Hub页中的有效链接的方法在实际应用中的一种具体实现方式。在该应用场景中,先采用图2所示的实施方式从Hub页的所有链接中识别有效内容页,然后对未被识别为有效内容页的内容页采用图3和图4所示的实施方式来识别其中的有效内容页,图3和图4两种实施方式的判断都通过匹配层级数量和最小层级数量的比较来实现。参见图5,示出了本申请中识别Hub页中有效链接的方法实施例2的流程图。本实施例为一个应用场景实施例,可以包括以下步骤:S501、获取Hub页及其内容页的信息:抽取Hub页中链接对应的内容页,并根据抓取日志,获取Hub页及其内容页的信
肩、OS502、提取Hub页及其内容页的面包屑路径:解析Hub页及其内容页信息中的网页内容,利用面包屑识别模块提取Hub页及其内容页的面包屑路径。S503、选取当前内容页:从Hub页的所有未被识别过的内容页中选择一个内容页作为当前内容页。
S504、判断当前内容页的面包屑路径是否满足第一条件,如果是,进入S505,如果否,进入S506:第一条件为:面包屑路径中的最后一级不是链接,或,面包屑路径中的层级数量大于N。其中,N可以优选为2。S505、删除当前内容页的面包屑路径中最后一级,进入S506。S506、判断当如内各页的面包屑路径中最后一级与Hub页的面包屑路径中最后一级是否文本相同,如果否,进入S507,如果是,进入S511。S507、计算匹配层级数量T和层级最小值M:计算当前内容页的面包屑路径中与Hub页的面包屑路径中具有相同文本的层级数量,作为匹配层级数量T,并将当前内容页面包屑路径中的层级数量与Hub页面包屑路径中的层级数量两者中的最小值作为层级最小值M。S508、判断是否满足第二条件,如果是,进入S509,如果否,进入S510:第二条件为:Hub页属于论坛类型(BBS类型),或,层级最小值M不大于最小阈值L0其中,L可以优选为2。S509、判断匹配层级数量T是否等于最小层级数量M,如果是,进入S511,如果否,进入S512:S卩,判断当前内容页的面包屑路径与Hub页的面包屑路径是否满足第一匹配条件。S510、判断最小层级数量M与匹配层级数量T之差是否不大于级数阈值K,如果是,进入S511,如果否,进入S512:S卩,判断当前内容页的面包屑路径与Hub页的面包屑路径是否满足第二匹配条件;其中,K可以优选为I。S511、将当前内容页的链接识别为有效链接,返回S503。S512、将当前内容页的链接识别为无效链接,返回S503。通过本实施例的技术方案,可以使识别出的有效链接更全面,对于Hub页中面包屑路径不位于该Hub页后一层级的有效内容页也可以被识别出来,进而在Hub页更新时识别出新产生的有效链接就更准确,从而可以更准确地确定下一次抓取的抓取周期。前述实施例是识别Hub页中有效链接的实现方式。本申请还提供了一种识别Hub页中有效链接的应用方式,以利用识别出的有效链接调整Hub页的抓取间隔。参见图6,示出了本申请中更新Hub中链接的抓取间隔的方法实施例1的流程图。在本实施例中,可以包括以下步骤:S601、Hub页每次抓取链接时,采用前述任意一个实施例中的任意一种实施方式从抽取的链接中识别所述Hub页的有效链接;需要说明的是,步骤S601是一个预先执行的步骤,在每次Hub页更新的时候都会执行。但在本实施例中,只要在Hub页之前执行过S601而对当前更新和前一次更新所抽取的链接识别过有效链接,则可以不再重复执行S601。S602、获取所述Hub页在当前更新时识别出的当前有效链接,并获取所述Hub页在前一次更新时识别出的前次有效链接;S603、比较所述当 前有效链接和所述前次有效链接,得到Hub页在当前更新时新产生的有效链接;S604、根据所述新产生的有效链接数量,确定所述Hub页下一次抓取链接的抓取间隔。具体地,可以为Hub页设置N个级别的抓取间隔,每个级别的抓取间隔不同,第I级抓取间隔最短,第N级抓取间隔最长。由此,步骤S604可以包括:比较所述新产生的有效链接数量与第一新链接数量阈值及第二新链接数量阈值之间的大小关系;其中,第一新链接数量阈值大于第二新链接数量阈值;如果新产生的有效链接数量大于第一新链接数量阈值,则将当前抓取间隔级别减小一级,作为下一次抓取间隔;如果新产生的有效链接数量不大于第一新链接数量阈值且不小于第二新链接数量阈值,则将当前抓取间隔作为下一次抓取间隔;如果新产生的有效链接小于第二新链接数量阈值,则将当前抓取间隔级别增大一级,作为下一次抓取间隔。通过本实施例的技术方案,在Hub页更新时可以根据当前抓取与前一次抓取相比新产生的有效链接的数量来确定下一次抓取时间,从而使得Hub页抓取速度减小至有效链接更新速度,从而节约抓取资源,提高网络爬虫对站点网页的覆盖。对应于方法实施例,本申请还提供了一种识别Hub页中有效链接的装置。参见图7,示出了本申请中识别Hub页中有效链接的装置实施例1的结构图。本实施例中,所述装置可以包括:
内容页抽取模块701,用于抽取Hub页中链接对应的内容页;网页信息获取模块702,用于获取Hub页的信息及所述内容页的信息;面包屑提取模块703,用于从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径;有效内容页识别模块704,用于将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页;链接识别模块705,用于将所述有效内容页对应的链接识别为所述Hub页的有效链接。参见图8,示出了本申请装置实施例1中有效内容页识别模块实施方式I的结构图。本实施方式中,所述有效内容页识别模块704可以包括:删除子模块801,用于删除所述内容页面包屑路径中所述内容页所在的层级;第一判断子模块802,用于判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同;第一识别子模块803,用于在第一判断子模块802的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。参见图9,示出了本申请装置实施例1中内容页识别模块实施方式2的结构图。在本实施方式中,所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于2 ;所述有效内容页识别模块704可以包括:第二判断子模块901,用于判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件;所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在;第二识别子模块902,用于在第二判断子模块901的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。参见图10,示出了本申请装置实施例1中内容页识别模块实施方式3的结构图。在本实施方式中,所述Hub页不属于论坛类型且所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于2 ;所述有效内容页识别模块704可以包括:第三判断子模块1001,用于判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件;所述第二匹配条件为:所述内容页面包屑路径中除所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中不存在的层级数量不超过第一级数阈值,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中不存在的层级数量不超过预设的第二级数阈值;第三识别子模块1002,用于在第三判断子模块1001的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。对应于方法实施例,本申请还提供了一种更新Hub页中链接的系统。参见图11, 示出了本申请中更新Hub页中链接的抓取周期的系统实施例1的结构图。在本实施例中,所述系统可以包括:识别单元1101,用于Hub页每次抓取链接时,采用前述任一实施方式的装置从抽取的链接中识别所述Hub页的有效链接;链接获取单元1102,用于获取所述Hub页在当前更新时识别出的当前有效链接,并获取所述Hub页在前一次更新时识别出的前次有效链接;比较单元1103,用于比较所述当前有效链接和所述前次有效链接,得到Hub页在当前更新时新产生的有效链接;时间确定单元1104,用于根据所述新产生的有效链接数量,确定所述Hub页下一次抓取链接的抓取周期。通过本申请的装置实施例和系统实施例,由于网站中网页是通过主题归属组织起来的层级结构,网页的面包屑路径中记载了从网站首页到该网页的路径中所经过的中途网页信息,因此,如果内容页的面包屑路径与Hub页的面包屑路径相匹配,则表明该内容页的主题属于该Hub页,进而可以确定该内容页的链接是该Hub页的有效链接。这样,在Hub页更新时就可以识别出新产生的有效链接,进而可以根据新产生的有效链接来确定下一次抓取周期,从而使得Hub页抓取速度减小至有效链接更新速度,从而节约抓取资源,提高爬虫对站点的网页覆盖。。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上所述仅是本申请的具体实施方式
,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范 围。
权利要求
1.一种识别Hub页中有效链接的方法,其特征在于,所述方法包括: 抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息; 从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径; 将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。
2.根据权利要求1所述的方法,其特征在于,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括: 删除所述内容页面包屑路径中所述内容页所在的层级; 判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同,如果是,则将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。
3.根据权利要求1所述的方法,其特征在于,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括: 判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页; 其中,所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在。
4.根据权利要求3所述的方法,其特征在于,所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于第一最小阈值。
5.根据权利要求1所述的方法,其特征在于,所述将内容页面包屑路径信息与Hub页面包屑路径信息相匹配的内容页识别为所述Hub页的有效内容页,包括: 判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件,如果是,则将所述内容页面包路径对应的内容页识别为所述Hub页的有效内容页; 其中,所述第二匹配条件为:所述内容页面包屑路径中除所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中不存在的层级数量不超过第一级数阈值,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中不存在的层级数量不超过预设的第二级数阈值。
6.根据权利要求5所述的方法,其特征在于,所述Hub页不属于论坛类型且所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于第二最小阈值。
7.一种更新Hub页中链接的抓取周期的方法,其特征在于,Hub页每次抓取链接时,采用如权利要求1 6任意一项所述的方法从抽取的链接中识别所述Hub页的有效链接; 所述方法包括: 获取所述Hub页在当前更新时识别出的当前有效链接,并获取所述Hub页在前一次更新时识别出的前次有效链接; 比较所述当前有效链接和所述前次有效链接,得到Hub页在当前更新时新产生的有效链接;根据所述新产生的有效链接数量,确定所述Hub页下一次抓取链接的抓取周期。
8.一种识别Hub页中有效链接的装置,其特征在于,所述装置包括: 内容页抽取模块,用于抽取Hub页中链接对应的内容页; 网页信息获取模块,用于获取Hub页的信息及所述内容页的信息; 面包屑提取模块,用于从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径; 有效内容页识别模块,用于将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页; 链接识别模块,用于将所述有效内容页对应的链接识别为所述Hub页的有效链接。
9.根据权利要求8所述的装置,其特征在于,所述有效内容页识别模块具体包括: 删除子模块,用于删除所述内容页面包屑路径中所述内容页所在的层级; 第一判断子模块,用于判断所述内容页面包屑路径中最后一个层级是否与所述Hub页最后一个层级相同; 第一识别子模块,用于在第一判断子模块的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。
10.根据权利要求8所述的装置,其特征在于,所述Hub页属于论坛类型,或,所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值不大于2 ; 所述有效内容页 识别模块具体包括: 第二判断子模块,用于判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第一匹配条件;所述第一匹配条件为:所述内容页面包屑路径中除了所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中都存在,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中都存在; 第二识别子模块,用于在第二判断子模块的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。
11.根据权利要求8所述的装置,其特征在于,所述Hub页不属于论坛类型且所述Hub页面包屑路径的层级数量与所述内容页面包屑路径的层级数量之中的最小值大于2 ; 所述有效内容页识别模块具体包括: 第三判断子模块,用于判断所述内容页面包屑路径与所述Hub页面包屑路径是否满足第二匹配条件;所述第二匹配条件为:所述内容页面包屑路径中除所述内容页所在层级以外的所有层级在所述Hub页面包屑路径中不存在的层级数量不超过第一级数阈值,或,所述Hub页面包屑路径中的所有层级在所述内容页面包屑路径中不存在的层级数量不超过预设的第二级数阈值; 第三识别子模块,用于在第三判断子模块的判断结果为是的情况下,将所述内容页面包屑路径的内容页识别为所述Hub页的有效内容页。
12.一种更新Hub页中链接的抓取周期的系统,其特征在于,所述系统包括: 识别单元,用于Hub页每次抓取链接时,采用如权利要求8 11任意一项所述的装置从抽取的链接中识别所述Hub页的有效链接; 链接获取单元,用于获取所述Hub页在当前更新时识别出的当前有效链接,并获取所述Hub页在前一次更新时识别出的前次有效链接;比较单元,用于比较所述当前有效链接和所述前次有效链接,得到Hub页在当前更新时新产生的有效链接; 时间确定单元,用于根据所述新产生的有效链接数量,确定所述Hub页下一次抓取链接的抓取周期。
全文摘要
本申请公开了一种识别Hub页中有效链接的方法和装置,以及一种更新Hub页中链接的方法和系统。识别Hub页中有效链接的方法包括抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息;从所述Hub页的信息中提取所述Hub页的面包屑路径,并从所述内容页的信息中提取所述内容页的面包屑路径;将内容页面包屑路径与Hub页面包屑路径相匹配的内容页识别为所述Hub页的有效内容页,并将所述有效内容页对应的链接识别为所述Hub页的有效链接。通过本申请的技术方案,在Hub页更新时可以识别出新产生的有效链接,从而可以根据新产生的有效链接来确定下一次抓取时间,去除了侧边栏链接的影响,从而使得Hub页抓取速度减小,节约了系统资源并提升系统的性能。
文档编号G06F17/30GK103218452SQ20131015344
公开日2013年7月24日 申请日期2013年4月27日 优先权日2013年4月27日
发明者孙键, 崔世起, 杨青 申请人:人民搜索网络股份公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1