生成时效性种子页集合的方法和装置制造方法

文档序号:6638155阅读:127来源:国知局
生成时效性种子页集合的方法和装置制造方法
【专利摘要】本发明提供了一种生成时效性种子页集合的方法和装置,该方法包括:获取并分析多个待判断页面的属性信息;在所述多个待判断页面中筛选出属性信息满足时效性种子页属性条件的页面;将筛选出的满足所述时效性种子页属性条件的页面聚集,生成时效性种子页集合。本发明能够基于时效性种子页属性条件进行待判断页面的筛选,筛选出满足时效性种子页属性条件的页面,并聚集生成时效性种子页集合,保证了时效性种子页的召回率以及准确率。
【专利说明】生成时效性种子页集合的方法和装置

【技术领域】
[0001] 本发明涉及信息搜索领域,特别是一种生成时效性种子页集合的方法和装置,以 及一种利用生成的时效性种子页集合进行页面抓取的方法和搜索引擎。

【背景技术】
[0002] 搜索引擎对于互联网上出现的实时热点需要第一时间发现和收录。搜索引擎爬虫 有一个庞大的URL(UniformResourceLocator,统一资源定位符)库,规模达到数千亿甚至 上万亿量级。爬虫所有的抓取都从这个URL库出发,即从URL库中挑选出一批URL,对它们 实施抓取,从中发现新链接再添加到URL库中。热点链接就是从中被发现并通过下次选取 抓取和收录的。
[0003] 然而,由于爬虫把全部链接挑选一遍再抓一遍所处理的数据量较为庞大,需要消 耗大量的时间,因而很难保证所有的热点都能在第一时间被发现和收录。因此,如何提高爬 虫抓取的效率成为目前亟待解决的技术问题。


【发明内容】

[0004] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的生成时效性种子页集合的方法和装置,以及利用生成的时效性种子页集合进行页 面抓取的方法和搜索引擎。
[0005] 依据本发明的一个方面,提供了一种生成时效性种子页集合的方法,包括:获取并 分析多个待判断页面的属性信息;在所述多个待判断页面中筛选出属性信息满足时效性种 子页属性条件的页面;将筛选出的满足所述时效性种子页属性条件的页面聚集,生成时效 性种子页集合。
[0006] 可选地,所述获取并分析多个待判断页面的属性信息之前,还包括:按照指定时间 周期抓取所述多个待判断页面。
[0007] 可选地,在所述多个待判断页面中筛选出属性信息满足时效性种子页属性条件的 页面,包括:对于每个待判断页面,比较该待判断页面中的链接与已收录的链接;根据比较 的结果,统计出该待判断页面中的新链接的数量;筛选出所述多个待判断页面中新链接的 数量满足时效性种子页的新链接的数量的页面。
[0008] 可选地,筛选出所述多个待判断页面中新链接的数量满足时效性种子页的新链接 的数量的页面,包括:对于每个待判断页面,判断该待判断页面中的新链接的数量是否大于 第一预设阈值;若是,则判断该待判断页面为满足时效性种子页的新链接的数量的页面。
[0009] 可选地,所述方法还包括:对于每个待判断页面,统计出该待判断页面中具备索引 价值的新链接的数量;判断该待判断页面中具备索引价值的新链接的数量是否大于第二预 设阈值;若是,则判断该待判断页面为满足时效性种子页具备索引价值的新链接的数量的 页面。
[0010] 可选地,所述方法还包括:对所述多个待判断页面按照URL进行归类;对于每类 URL,统计该类URL对应的待判断页面中的新链接的数量以及具备索引价值的新链接的数 量;判断该类URL对应的待判断页面中的新链接的数量以及具备索引价值的新链接的数量 是否满足时效性种子页的新链接的数量以及具备索引价值的新链接的数量;若是,则判断 该类URL对应的待判断页面为时效性种子页。
[0011] 依据本发明的另一个方面,提供了一种页面抓取方法,包括利用上文生成的时效 性种子页集合进行页面抓取。
[0012] 依据本发明的又一个方面,还提供了一种生成时效性种子页集合的装置,包括:
[0013] 分析器,适于获取并分析多个待判断页面的属性信息;
[0014] 页面筛选器,适于在所述多个待判断页面中筛选出属性信息满足时效性种子页属 性条件的页面;
[0015] 种子页生成器,适于将筛选出的满足所述时效性种子页属性条件的页面聚集,生 成时效性种子页集合。
[0016] 可选地,所述分析器获取并分析多个待判断页面的属性信息之前,还包括:
[0017] 抓取器,适于按照指定时间周期抓取所述多个待判断页面。
[0018] 可选地,所述页面筛选器还适于:对于每个待判断页面,比较该待判断页面中的链 接与已收录的链接;根据比较的结果,统计出该待判断页面中的新链接的数量;筛选出所 述多个待判断页面中新链接的数量满足时效性种子页的新链接的数量的页面。
[0019] 可选地,所述页面筛选器还适于:对于每个待判断页面,判断该待判断页面中的新 链接的数量是否大于第一预设阈值;若是,则判断该待判断页面为满足时效性种子页的新 链接的数量的页面。
[0020] 可选地,所述页面筛选器还适于:对于每个待判断页面,统计出该待判断页面中具 备索引价值的新链接的数量;判断该待判断页面中具备索引价值的新链接的数量是否大于 第二预设阈值;若是,则判断该待判断页面为满足时效性种子页具备索引价值的新链接的 数量的页面。
[0021] 可选地,所述页面筛选器还适于:对所述多个待判断页面按照URL进行归类;对于 每类URL,统计该类URL对应的待判断页面中的新链接的数量以及具备索引价值的新链接 的数量;判断该类URL对应的待判断页面中的新链接的数量以及具备索引价值的新链接的 数量是否满足时效性种子页的新链接的数量以及具备索引价值的新链接的数量;若是,则 判断该类URL对应的待判断页面为时效性种子页。
[0022] 依据本发明的再一个方面,还提供了一种搜索引擎,包括:上述生成时效性种子页 集合的装置。本发明提供的技术方案中,获取并分析多个待判断页面的属性信息,进而筛选 出多个待判断页面中满足时效性种子页属性条件的页面,覆盖面广,能够生成较为全面、完 整的时效性种子页集合。并且,本发明能够基于时效性种子页属性条件进行待判断页面的 筛选,筛选出满足时效性种子页属性条件的页面,并聚集生成时效性种子页集合,保证了时 效性种子页的召回率以及准确率。进一步地,经过筛选得到的时效性种子页集合在保证召 回率的同时规模只有百万量级,极大地减轻了爬虫实施抓取的负担,解决相关技术中爬虫 需要把全部链接(即规模达到数千亿甚至上万亿量级的链接)挑选一遍再抓一遍所处理的 数据量较为庞大,需要消耗大量的时间的问题,从而提高爬虫抓取的效率,并保证了热点能 够在第一时间被发现和收录。
[0023] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
[0024] 根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明 了本发明的上述以及其他目的、优点和特征。

【专利附图】

【附图说明】
[0025] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0026] 图1示出了根据本发明一个实施例的生成时效性种子页集合的方法的流程图;
[0027] 图2示出了根据本发明一个实施例的生成时效性种子页集合的装置的结构示意 图;以及
[0028] 图3示出了根据本发明另一个实施例的生成时效性种子页集合的装置的结构示 意图。

【具体实施方式】
[0029] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0030] 为解决上述技术问题,本发明实施例提供了一种生成时效性种子页集合的方法, 图1示出了根据本发明一个实施例的生成时效性种子页集合的方法的流程图。如图1所示, 该方法至少包括以下步骤S102至步骤S106。
[0031] 步骤S102、获取并分析多个待判断页面的属性信息。
[0032] 步骤S104、在多个待判断页面中筛选出属性信息满足时效性种子页属性条件的页 面。
[0033] 步骤S106、将筛选出的满足时效性种子页属性条件的页面聚集,生成时效性种子 页集合。
[0034] 本发明提供的技术方案中,获取并分析多个待判断页面的属性信息,进而筛选出 多个待判断页面中满足时效性种子页属性条件的页面,覆盖面广,能够生成较为全面、完整 的时效性种子页集合。并且,本发明能够基于时效性种子页属性条件进行待判断页面的筛 选,筛选出满足时效性种子页属性条件的页面,并聚集生成时效性种子页集合,保证了时效 性种子页的召回率以及准确率。进一步地,经过筛选得到的时效性种子页集合在保证召回 率的同时规模只有百万量级,极大地减轻了爬虫实施抓取的负担,解决相关技术中爬虫需 要把全部链接(即规模达到数千亿甚至上万亿量级的链接)挑选一遍再抓一遍所处理的数 据量较为庞大,需要消耗大量的时间的问题,从而提高爬虫抓取的效率,并保证了热点能够 在第一时间被发现和收录。
[0035] 在上文步骤S102获取并分析多个待判断页面的属性信息之前,本发明还可以按 照指定时间周期抓取多个待判断页面,这里的指定时间周期如1天、1小时等。例如,以天 为单位,抓取360视频页面,抓取的页面的URL地址分别为http://video,so.com/11-01、 http: //video,so.com/11-02等等,可以看出是以日期" 11-01" " 11-02"来区分每天抓取的 页面。
[0036] 在步骤S102获取并分析多个待判断页面的属性信息之后,步骤S104在多个待判 断页面中筛选出属性信息满足时效性种子页属性条件的页面。本发明实施例中,时效性种 子页属性条件可以是该种子页能产生新链接,该种子页所产生的新链接具有索引价值以及 该种子页能持续产生新链接,等等。这里,种子页所产生的新链接具有索引价值是指种子页 所产生的新链接不能是重复、垃圾、作弊等类的页面。另外,种子页能持续产生新链接是因 为一次性产生的新链接没有重复调度价值(这里的调度是爬虫实施抓取调度,即爬虫决定 哪些页面需要发起抓取,并选取出这类页面的过程),因而需要多次或持续产生新链接。下 面将针对各时效性种子页属性条件详细介绍相应的筛选方案。
[0037] 首先,关于种子页能产生新链接。在本发明提供的方案中,对于每个待判断页面, 比较该待判断页面中的链接与已收录的链接,进而根据比较的结果,统计出该待判断页面 中的新链接的数量,从而筛选出多个待判断页面中新链接的数量满足时效性种子页的新链 接的数量的页面。举例来说,多个待判断页面分别为待判断页面A、B以及C,待判断页面A 中的链接为六1、4233、4435,待判断页面8中的链接为81、82、83、84,待判断页面(:中的 链接为CUC2、C3。此时,对于每个待判断页面,比较该待判断页面中的链接与已收录的链 接,进而根据比较的结果,统计出该待判断页面中的新链接的数量。经过比较和统计得到, 待判断页面A、B以及C中能产生新链接的数量分别为4、4、3。需要说明的是,这里列举的 待判断页面及其数量仅是示意性的,并不用于限制本发明。随后筛选出多个待判断页面中 新链接的数量满足时效性种子页的新链接的数量的页面。例如,对于每个待判断页面,判断 该待判断页面中新链接的数量是否大于第一预设阈值,若是,则判断该待判断页面为满足 时效性种子页的新链接的数量的页面。反之,则判断该待判断页面不为满足时效性种子页 的新链接的数量的页面。进一步地,在实际应用中可能会出现某个新链接在多个待判断页 面中被发现的情况,为避免贡献泛滥,在本发明的优选方案中,只将该新链接作为其中一个 待判断页面的新链接。
[0038] 其次,关于种子页所产生的新链接具有索引价值,即种子页所产生的新链接不能 是重复、垃圾、作弊等类的页面。在本发明的实施例中,对于每个待判断页面,统计出该待判 断页面中具备索引价值的新链接的数量,进而判断该待判断页面中具备索引价值的新链接 的数量是否大于第二预设阈值,若是,则可以判断该待判断页面为满足时效性种子页具备 索引价值的新链接的数量的页面。反之,则判断该待判断页面不为满足时效性种子页具备 索引价值的新链接的数量的页面。仍以上文多个待判断页面分别为待判断页面A、B以及C 为例(即待判断页面A、B以及C中产生新链接的数量分别为4、4、3),对于每个待判断页面, 统计出该待判断页面中具备索引价值的新链接的数量,经统计得到待判断页面A、B以及C 中具备索引价值的新链接的数量分别为4、4、1。随后,从待判断页面A、B以及C中筛选出 具备索引价值的新链接的数量大于第二预设阈值的页面。需要说明的是,上文列举的待判 断页面及其数量仅是示意性的,并不用于限制本发明,在实际应用中,待判断页面的数量规 模可以达到数千亿甚至上万亿量级的链接。
[0039] 再者,关于种子页能持续产生新链接,即一次性产生的新链接没有重复调度价值, 因而需要多次或持续产生新链接。本发明提供了一种优选的方案,在该方案中,对多个待判 断页面按照URL进行归类,随后对于每类URL,统计该类URL对应的待判断页面中的新链接 的数量以及具备索引价值的新链接的数量。进而判断该类URL对应的待判断页面中的新链 接的数量以及具备索引价值的新链接的数量是否满足时效性种子页的新链接的数量以及 具备索引价值的新链接的数量,若是,则可以判断该类URL对应的待判断页面为时效性种 子页。反之,则判断该类URL对应的待判断页面不为时效性种子页。
[0040] 举例来说,以天为单位,第1天,多个待判断页面分别为待判断页面A01、BOl以及 C01,待判断页面AOl中的链接为411、412、413、414、415,待判断页面即1中的链接为811、 812、813、814,待判断页面0)1中的链接为(:11、(:12、(:13。此时,对于每个待判断页面,比较 该待判断页面中的链接与已收录的链接,进而根据比较的结果,统计出该待判断页面中的 新链接的数量,经比较和统计得到待判断页面A0UB01以及COl中能产生的新链接的数量 分别为4、4、3,具备索引价值的新链接的数量分别为4、4、3。第2天,多个待判断页面分别 为待判断页面A02、B02、C02以及D02,待判断页面A02中的链接为421322323,待判断页 面B02中的链接为821、822、823、824、825,待判断页面〇)2中的链接为021、022,待判断页 面D02中的链接为D21、D22。此时,对于每个待判断页面,比较该待判断页面中的链接与已 收录的链接,进而根据比较的结果,统计出该待判断页面中的新链接的数量,经比较和统计 得到待判断页面A02、B02、C02以及D02中能产生的新链接的数量分别为1、5、1、2,具备索 引价值的新链接的数量分别为〇、4、1、2。以此类推,以天为单位,可以统计出多个待判断页 面中能产生的新链接的数量以及具备索引价值的新链接的数量,详细信息如下表1所示。
[0041] 表 1
[0042]

【权利要求】
1. 一种生成时效性种子页集合的方法,包括: 获取并分析多个待判断页面的属性信息; 在所述多个待判断页面中筛选出属性信息满足时效性种子页属性条件的页面; 将筛选出的满足所述时效性种子页属性条件的页面聚集,生成时效性种子页集合。
2. 根据权利要求1所述的方法,其中,所述获取并分析多个待判断页面的属性信息之 前,还包括: 按照指定时间周期抓取所述多个待判断页面。
3. 根据权利要求1-2任一项所述的方法,其中,在所述多个待判断页面中筛选出属性 信息满足时效性种子页属性条件的页面,包括: 对于每个待判断页面,比较该待判断页面中的链接与已收录的链接; 根据比较的结果,统计出该待判断页面中的新链接的数量; 筛选出所述多个待判断页面中新链接的数量满足时效性种子页的新链接的数量的页 面。
4. 根据权利要求1-3任一项所述的方法,其中,筛选出所述多个待判断页面中新链接 的数量满足时效性种子页的新链接的数量的页面,包括: 对于每个待判断页面,判断该待判断页面中的新链接的数量是否大于第一预设阈值; 若是,则判断该待判断页面为满足时效性种子页的新链接的数量的页面。
5. 根据权利要求1-4任一项所述的方法,其中,还包括: 对于每个待判断页面,统计出该待判断页面中具备索引价值的新链接的数量; 判断该待判断页面中具备索引价值的新链接的数量是否大于第二预设阈值; 若是,则判断该待判断页面为满足时效性种子页具备索引价值的新链接的数量的页 面。
6. 根据权利要求1-5任一项所述的方法,其中,还包括: 对所述多个待判断页面按照URL进行归类; 对于每类URL,统计该类URL对应的待判断页面中的新链接的数量以及具备索引价值 的新链接的数量; 判断该类URL对应的待判断页面中的新链接的数量以及具备索引价值的新链接的数 量是否满足时效性种子页的新链接的数量以及具备索引价值的新链接的数量; 若是,则判断该类URL对应的待判断页面为时效性种子页。
7. -种页面抓取方法,包括利用如权利要求1-6任一项生成的时效性种子页集合进行 页面抓取。
8. -种生成时效性种子页集合的装置,包括: 分析器,适于获取并分析多个待判断页面的属性信息; 页面筛选器,适于在所述多个待判断页面中筛选出属性信息满足时效性种子页属性条 件的页面; 种子页生成器,适于将筛选出的满足所述时效性种子页属性条件的页面聚集,生成时 效性种子页集合。
9. 根据权利要求8所述的装置,其中,所述分析器获取并分析多个待判断页面的属性 信息之前,还包括: 抓取器,适于按照指定时间周期抓取所述多个待判断页面。
10. -种搜索引擎,包括如权利要求8-9任一项所述的生成时效性种子页集合的装置。
【文档编号】G06F17/30GK104484382SQ201410758178
【公开日】2015年4月1日 申请日期:2014年12月10日 优先权日:2014年12月10日
【发明者】魏少俊 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1