一种用于基于站点检测多个资源链接的状态的方法与设备的制作方法

文档序号:6341461阅读:157来源:国知局
专利名称:一种用于基于站点检测多个资源链接的状态的方法与设备的制作方法
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种用于基于站点检测多个资源链接的 状态的技术。
背景技术
现有技术中,搜索引擎在抓取资源链接后,为保证抓取的资源链接在作为搜索结 果提供给用户时,这些资源链接的状态是可访问的,搜索引擎需要定期对这些资源链接进 行定期检测。上述方法会带来很多问题,例如,如果检测周期太频繁,会增加被检测站点的站点 压力,并且由于大多数资源链接的状态是比较稳定的,频繁检测也会增加搜索引擎的工作 负荷,同时产生不必要的检测成本。而如果检测周期间隔太长,会造成对资源链接的状态检 测丧失其应有的效果,无法实现检测目的。因此,如何提供一种对资源链接的状态进行有效检测的方法,成为目前急需解决 的问题之一。

发明内容
本发明的目的是提供一种用于基于站点检测多个资源链接的状态的方法与检测 设备。根据本发明的一个方面,提供了一种用于基于站点检测多个资源链接的状态的方 法,其中,该方法包括以下步骤a获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个 或多个资源链接;b从所述一个或多个链接站点中,选择待检测站点;c根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一个或 多个资源链接的状态。根据本发明的另一个方面,还提供了一种用于基于站点检测多个资源链接的状态 的检测设备,其中,该检测设备包括获取装置,用于获取一个或多个链接站点,其中,每个链接站点包括从属于所述链 接站点的一个或多个资源链接;选择装置,用于从所述一个或多个链接站点中,选择待检测站点;检测装置,用于根据所述待检测站点所含资源链接的相关信息,检测所述待检测 站点的一个或多个资源链接的状态。与现有技术相比,本发明基于站点检测多个资源链接的状态,对资源链接的状态 检测更有针对性,并可以根据待检测站点的站点自身特性调整相关检测参数,如检测顺序 等,使得多个资源链接的状态检测更为有效,从而保证了搜索引擎将这些资源链接作为搜 索结果提供给用户时,用户获得的均为可访问的搜索结果,提升了用户的使用体验。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显图1示出根据本发明一个方面的用于基于站点检测多个资源链接的状态的检测 设备的示意图;图2示出根据本发明一个优选实施例的用于基于站点检测多个资源链接的状态 的检测设备的示意图;图3示出根据本发明另一个方面的用于基于站点检测多个资源链接的状态的方 法流程图;图4示出根据本发明一个优选实施例的用于基于站点检测多个资源链接的状态 的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1为根据本发明一个方面的设备示意图,示出用于基于站点检测多个资源链接 的状态的检测设备。其中,检测设备1包括获取装置11、选择装置12和检测装置13。具体 地,获取装置11获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点 的一个或多个资源链接;接着,选择装置12从所述一个或多个链接站点中,选择待检测站 点;随后,检测装置13根据所述待检测站点所含资源链接的相关信息,检测所述待检测站 点的一个或多个资源链接的状态。更具体地,获取装置11获取一个或多个链接站点,其中,每个链接站点包括从属 于所述链接站点的一个或多个资源链接。具体地,获取装置11从诸如其自身装置、检测 设备1的其他装置、搜索引擎索引信息库、或者其他第三方设备处获取一个或多个链接站 点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接。例如,获取装 置11通过约定的通信方式向搜索引擎的应用程序接口(API)发送获取链接站点的请求, 并接收该搜索引擎返回的基于该请求在索引信息库中查询获得的链接站点,其中,该链接 站点包括一个或多个资源链接。又如,获取装置11通过“网络蜘蛛(spider)”、“网络爬虫 (crawler) ”或者“机器人(robot) ”等网页抓取工具从网络中抓取多个资源链接,并从这些 资源链接的相应字段提取资源链接所属的站点,并按站点排列这些资源链接,以获得一个 或多个链接站点,其中,每个链接站点包括一个或多个资源链接。本领域技术人员应能理解 上述获取链接站点的方式以及网页抓取工具仅为举例,其他现有的或今后可能出现的获取 链接站点的方式或者网页抓取工具如可适用于本发明,也应包含在本发明保护范围以内, 并以引用方式包含于此。接着,选择装置12从所述一个或多个链接站点中,选择待检测站点。具体地,选择 装置12根据获取装置11获取的一个或多个链接站点,从这(些)链接站点中,选择待检测 站点。例如,假设获取装置11仅获取一个链接站点,则该链接站点为待检测站点;当获取装 置11获取多个链接站点时,根据站点检测周期,确定当前可以检测的站点,再从这些站点中,选择上次检测时间最早的站点作为待检测站点。本领域技术人员应能理解上述选择待 检测站点的方式仅为举例,其他现有的或今后可能出现的选择待检测站点的方式如可适用 于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。随后,检测装置13根据所述待检测站点所含资源链接的相关信息,检测所述待检 测站点的一个或多个资源链接的状态。具体地,检测装置13按照诸如随机检测、顺序检测 或者按特定顺序检测等方式,根据选择装置12选择的待检测站点中所包括的资源链接的 相关信息,诸如URL链表、URL列表或者URL队列等,检测该待检测站点的一个或多个资源链 接的状态,例如通过发送访问请求检测某个资源链接是否可以访问。例如,选择装置12选 定待检测站点,检测装置13按照该待检测站点的URL链表顺序检测该待检测站点的资源链 接是否可以访问,当检测装置13向该资源链接所属的站点发送访问请求,该站点的返回码 是200,则认为该资源链接是可以访问的。本领域技术人员应能理解上述检测顺序、资源链 接的相关信息以及检测资源链接的状态的方式仅为举例,其他现有的或今后可能出现的检 测顺序、资源链接的相关信息或者检测资源链接的状态的方式如可适用于本发明,也应包 含在本发明保护范围以内,并以引用方式包含于此。优选地,获取装置11、选择装置12和检测装置13是持续不断工作的。具体地,获 取装置11获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个 或多个资源链接;接着,选择装置12从所述一个或多个链接站点中,选择待检测站点;随 后,检测装置13根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一 个或多个资源链接的状态。在此,本领域技术人员应理解“持续”是指获取装置11、选择装 置12和检测装置13分别按照设定的或实时调整的工作模式要求进行链接站点的获取、待 检测站点的选择及资源链接的状态的检测,直至检测设备1在较长时间内停止获取包括一 个或多个资源链接的链接站点。在一个优选实施例中(参照图1),获取装置11还由一个或多个资源链接获取其 所属的所述一个或多个链接站点。具体地,获取装置11根据一个或多个资源链接,通过如 从这(些)资源链接的相关字段识别域名后缀等方式,获取这(些)资源链接所属的一个 或多个链接站点。例如,获取装置11按照约定的通信方式向搜索引擎发送资源链接获取请 求,接收该搜索引擎基于该获取请求返回的多个资源链接,根据预设域名后缀库,对这些资 源链接做匹配查询,从这些链接的相关字段识别出相应的域名后缀,从而获得这些资源链 接所属的一个或多个链接站点。又如,假设第三方设备存储有资源链接,获取装置11按照 约定的通信方式,如Http通信协议,向该第三方设备发送资源链接获取请求,接收该第三 方设备响应该获取请求返回的资源链接,如“http //www. baidu. com/m/a. mp3”,"http // www. baidu. com/m/b. mp3,,,找到这些资源链接的协议字段“http //,,,以及路径字段“/ m/”,即获得这些资源链接所属的链接站点“誦.baidu. com”。本领域技术人员应能理解上 述获取资源链接所属站点的方式仅为举例,其他现有的或今后可能出现的获取资源链接所 属站点的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于 此。优选地,获取装置11还从网络中获取所述一个或多个资源链接。具体地,获取装 置11通过“网络蜘蛛(spider) ”、“网络爬虫(crawler) ”或者“机器人(robot) ”等网页抓 取工具,从网络中直接抓取一个或多个资源链接,根据这(些)资源链接,获得相应的一个或多个链接站点。例如,获取装置11从网络中爬取资源链接,从这些资源链接的相关字段 中提取其所属的链接站点,从而获得相应的一个或多个链接站点。在另一个优选实施例中(参照图1),检测装置13中的检测操作的顺序包括但不限 于,以下至少任一项1)随机检测所述待检测站点的一个或多个资源链接的状态;2)按照所述待检测站点所含资源链接的相关信息,来顺序检测所述待检测站点的 一个或多个资源链接的状态;3)按照所述待检测站点所含资源链接的相关信息,以特定顺序检测所述待检测站 点的一个或多个资源链接的状态。在此,选择装置12选定待检测站点后,检测装置13根据该待检测站点中包括的资 源链接,可以随机对这些资源链接进行状态检测;也可以按照这些资源链接的相关信息,如 URL链表,顺序进行状态检测;还可以根据这些资源链接的相关信息,如URL链表,按照特定 顺序进行状态检测,如先检测最新抓取的资源链接的状态,再检测历史抓取的资源链接的 状态。优选地,所述按照特定顺序检测资源链接的步骤包括i)首先检测所述待检测站点中从未检测过的资源链接中最先获取的第一资源链 接和所述第一资源链接的后续资源链接;ii)然后检测所述待检测站点中上次检测到的第二资源链接和上次未检测到的所 述第二资源链接的后续资源链接;iii)最后检测所述待检测站点中最先获取的第三资源链接和所述第三资源链接 的后续资源链接。具体地,根据待检测站点中资源链接的相关信息,将该待检测站点中最先获取的 第三资源链接标记为A,将该待检测站点中上次检测时最后检测到的第二资源链接标记为 B,将该待检测站点中从未检测到的资源链接中最早获取的第一资源链接标记为C,检测装 置13首先检测C及该资源链接的相关信息中C以后的资源链接,接着检测B及该资源链接 的相关信息中B以后的资源链接,最后检测A及该资源链接的相关信息中A以后的资源链 接。例如,假设待检测站点中资源链接的相关信息为URL链表,并且检测装置13每次检测 时,均需检测待检测站点中的全部资源链接,则C及C以后的资源链接即为上次检测后新添 加入该URL链表中的资源链接,B即为上次检测时最后检测到的该URL链表中的资源链接, B以后的资源链接即为C,A及A以后的资源链接即为该URL链表中的最早的资源链接和该 URL链表中A至B之间的资源链接。又如,假设待检测站点中资源链接的相关信息仍为URL 链表,而检测装置13按照预定的检测时间或者预定的检测资源链接的数量对该URL链接进 行检测,此时C及C以后的资源链接仍对应该URL链表中上次检测后新添加的资源链接,B 仍对应上次检测该URL链表时最后检测到的资源链接,B以后的资源链接对应该URL链表中 B至C之间的资源链接,A及A以后的资源链接仍对应该URL链表中的最早的资源链接和该 URL链表中A至B之间的资源链接;由于检测时间或者检测资源链接的数量的限制,当URL 链表中的资源链接数量过多时,检测装置13按照该URL链表进行一次检测,无法完全检测 B至C之间和A至B之间的全部资源链接,可能在检测到A至B之间的某个资源链接,甚至 是B至C之间的某个资源链接时,本次检测即结束,此时,最后检测到的资源链接即为下次检测时的B。更优选地,检测设备1还包括更新装置(未示出),该更新装置根据所述一个或多 个资源链接的状态,更新所述待检测站点所含资源链接的相关信息。具体地,更新装置根据 检测装置13检测到的待检测站点中的一个或多个资源链接的状态,更新该待检测站点的 资源链接的相关信息。例如,检测装置13检测到的待检测站点中多个资源链接的状态为不 可访问,据此,更新装置将该待检测站点的URL链表中相应的资源链接删除;或者标记为不 可访问,以待这些资源链接恢复可访问状态时进行变更。本领域技术人员应能理解上述更 新资源链接的相关信息的方式仅为举例,其他现有的或今后可能出现的更新资源链接的相 关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于 此。图2为根据本发明一个优选实施例的设备示意图,示出用于基于站点检测多个资 源链接的状态的检测设备。其中,选择装置12’还包括确定单元121’和选择单元122’。具 体地,确定单元121’从所述一个或多个链接站点中确定当前可检测站点;选择单元122’由 所述当前可检测站点中选择所述待检测站点。更具体地,确定单元121’从获取装置11获取的一个或多个链接站点中,根据诸如 站点访问压力、站点更新时间、或者站点流量等确定当前可检测站点;随后,选择单元122’ 由确定单元121’确定的当前可检测站点中,根据诸如站点优先级、站点产生时间等,选择待 检测站点。例如,获取装置11获取多个链接站点,确定单元121’根据站点访问压力,从这 些链接站点中确定当前可以频繁访问的链接站点作为当前可检测站点,选择单元122’再根 据这些当前可检测站点的产生时间,选择产生时间最早的作为待检测站点。本领域技术人 员应能理解上述确定当前可检测站点的方式以及选择待检测站点的方式仅为举例,其他现 有的或今后可能出现的确定当前可检测站点的方式或者选择待检测站点的方式如可适用 于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,选择单元122’还根据所述当前可检测站点的站点相关特性,确定所述当 前可检测站点的优先级;根据所述当前可检测站点的优先级,确定所述待检测站点。具体 地,选择单元122’根据确定单元121’确定的当前可检测站点的站点相关特性,诸如上次检 测时间、流量、更新时间等,确定这些当前可检测站点的优先级,并根据该优先级,确定待检 测站点。例如,选择单元122’根据当前可检测站点的上次检测时间,确定这些当前可检测 站点的优先级,如上次检测时间越早的,优先级越高,再根据该优先级,从这些当前可检测 站点中选择上次检测时间最早的作为待检测站点。更优选地,所述站点相关特性包括但不限于,以下至少任一项1)所述当前可检测站点的上次检测时间;2)所述当前可检测站点的流量;3)所述当前可检测站点的链接数量;4)所述当前可检测站点的更新时间;5)所述当前可检测站点的资源量。具体地,当前可检测站点的上次检测时间越早,其优先级越高,也即更应该尽早对 相应的当前可检测站点进行检测,以防止在两次检测的间隔时间内,该当前可检测站点的 访问状态发生变化,从而影响该站点中的资源链接提供给用户时的用户使用体验。当前可检测站点的流量越大,说明其用户访问量越大,相应的不能访问的可能性也越小,故当前可 检测站点的流量越小,其优先级越高。当前可检测站点的链接数量越多表明该当前可检测 站点的内部链接之间,以及该当前可检测站点的内部链接和该当前可检测站点的外部链接 之间的关系越密切,该当前可检测站点对用户的影响也越大,相应的优先级也越高。当前可 检测站点的更新时间越近,说明其越活跃,相应的不能访问的可能性也越低,故当前可检测 站点的更新时间越早的,其优先级越高。当前可检测站点的资源量越多,表明该当前可检测 站点的内容越丰富,相应的用户需求量也越高,故其优先级也越高。本领域技术人员应能理 解,上述站点相关特性不仅能够单独用来确定当前可检测站点的优先级,还可以相互结合 用以确定当前可检测站点的优先级。本领域技术人员还应能理解上述站点相关特性仅为举 例,其他现有的或今后可能出现的站点相关特性如可适用于本发明,也应包含在本发明保 护范围以内,并以引用方式包含于此。优选地,所述当前可检测站点基于但不限于,以下至少任一项来确定1)所述链接站点的访问压力;2)所述链接站点是否包括从未检测的资源链接;3)所述链接站点的预设检测周期。具体地,链接站点的访问压力指链接站点当前能够接受的访问频率,如果链接站 点中的需要检测的资源链接较多,其相应的访问压力也较大,故需要根据链接站点的访问 压力来确定该链接站点是否为当前可检测站点。由于网络中链接站点的数量巨大,而链接 站点中如果包括从未检测的资源链接,那么将该链接站点中的资源链接提供给用户时,其 是否可访问的不确定性更大,故需要将包括从未检测的资源链接的链接站点作为当前可检 测站点。对链接站点设定检测周期,按照预设检测周期确定当前可检测站点,可以提高对链 接站点的状态的检测效率,并且可以进一步将链接站点分组,对不同的分组采用不同的预 设检测周期,使得对链接站点的状态检测全面、高效,从而能够更好的为用户提供高质量的 搜索结果。本领域技术人员应能理解上述确定当前可检测站点的因素仅为举例,其他现有 的或今后可能出现的确定当前可检测站点的因素如可适用于本发明,也应包含在本发明保 护范围以内,并以引用方式包含于此。在一个优选实施例中(参照图1),检测设备1还包括第一降频装置(未示出),该 第一降频装置当一个资源链接的状态连续被检测为可访问状态的次数超过第一预定阈值 时,降低对该资源链接的检测频率。具体地,对资源链接被连续检测为可访问状态的次数设 定第一预定阈值,第一降频装置当一个资源链接的状态连续被检测为可访问状态的次数超 过该第一预定阈值时,降低该资源链接的检测频率。例如,假设第一预定阈值为5次,当一 个资源链接被连续5次被检测为可访问状态时,第一降频装置降低对该资源的检测频率, 如从每次检测该资源链接所属的链接站点时检测该资源链接,降低至每两次检测该资源链 接所属的链接站点时检测该资源链接。优选地,检测设备1还包括第二降频装置(未示出),该第二降频装置当从属于同 一站点的检测频率低于第二预定阈值的资源链接的个数超过第三预定阈值时,降低对所述 站点的站点检测频率。具体地,对资源链接的检测频率设定第二预定阈值,对同一站点中检 测频率低于第二预定阈值的资源链接的个数设定第三预定阈值,第二降频装置当从属于同 一站点的检测频率低于该第二预定阈值的资源链接的个数超过该第三预定阈值时,降低对该站点的站点检测频率。例如,记录同一站点中资源链接的检测频率,以及该站点中检测频 率低于第二预定阈值的资源链接的个数,当该个数超过第三预定阈值时,第二降频装置降 低对该站点的站点检测频率。本领域技术人员还应能理解,上述第一降频装置与第二降频装置仅为示例,在实 践中,第一降频装置与第二降频装置可以是两个独立的模块,也可以集成在一起。图3为根据本发明另一个方面的方法流程图,示出用于基于站点检测多个资源链 接的状态的过程。具体地,在步骤Sl中,检测设备1获取一个或多个链接站点,其中,每个链 接站点包括从属于所述链接站点的一个或多个资源链接;接着,在步骤S2中,检测设备1从 所述一个或多个链接站点中,选择待检测站点;随后,在步骤S3中,检测设备1根据所述待 检测站点所含资源链接的相关信息,检测所述待检测站点的一个或多个资源链接的状态。更具体地,在步骤Sl中,检测设备1获取一个或多个链接站点,其中,每个链接站 点包括从属于所述链接站点的一个或多个资源链接。具体地,在步骤Sl中,检测设备1从 诸如其自身装置、搜索引擎索引信息库、或者其他第三方设备处获取一个或多个链接站点, 其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接。例如,检测设备1通 过约定的通信方式向搜索引擎的应用程序接口(API)发送获取链接站点的请求,并接收该 搜索引擎返回的基于该请求在索引信息库中查询获得的链接站点,其中,该链接站点包括 一个或多个资源链接。又如,检测设备1通过“网络蜘蛛(spider) ”、“网络爬虫(crawler) ” 或者“机器人(robot) ”等网页抓取工具从网络中抓取多个资源链接,并从这些资源链接的 相应字段提取资源链接所属的站点,并按站点排列这些资源链接,以获得一个或多个链接 站点,其中,每个链接站点包括一个或多个资源链接。本领域技术人员应能理解上述获取链 接站点的方式以及网页抓取工具仅为举例,其他现有的或今后可能出现的获取链接站点的 方式或者网页抓取工具如可适用于本发明,也应包含在本发明保护范围以内,并以引用方 式包含于此。接着,在步骤S2中,检测设备1从所述一个或多个链接站点中,选择待检测站点。 具体地,在步骤Sl中,检测设备1根据其在步骤Sl中获取的一个或多个链接站点,从这 (些)链接站点中,选择待检测站点。例如,假设在步骤Sl中,检测设备1仅获取一个链接 站点,则该链接站点为待检测站点;当获取多个链接站点时,在步骤S2中,检测设备1根据 站点检测周期,确定当前可以检测的站点,再从这些站点中,选择上次检测时间最早的站点 作为待检测站点。本领域技术人员应能理解上述选择待检测站点的方式仅为举例,其他现 有的或今后可能出现的选择待检测站点的方式如可适用于本发明,也应包含在本发明保护 范围以内,并以引用方式包含于此。 随后,在步骤S3中,检测设备1根据所述待检测站点所含资源链接的相关信息,检 测所述待检测站点的一个或多个资源链接的状态。具体地,在步骤S3中,检测设备1按照 诸如随机检测、顺序检测或者按特定顺序检测等方式,根据其在步骤S2中选择的待检测站 点中所包括的资源链接的相关信息,诸如URL链表、URL列表或者URL队列等,检测该待检 测站点的一个或多个资源链接的状态,例如通过发送访问请求检测某个资源链接是否可以 访问。例如,在步骤S2中,检测设备1选定待检测站点;在步骤S3中,检测设备1按照该待 检测站点的URL链表顺序检测该待检测站点的资源链接是否可以访问,当检测设备1向该 资源链接所属的站点发送访问请求,该站点的返回码是200,则认为该资源链接是可以访问的。本领域技术人员应能理解上述检测顺序、资源链接的相关信息以及检测资源链接的状 态的方式仅为举例,其他现有的或今后可能出现的检测顺序、资源链接的相关信息或者检 测资源链接的状态的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用 方式包含于此。优选地,步骤Si、步骤S2和步骤S3是持续不断工作的。具体地,在步骤Sl中,检 测设备1获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个 或多个资源链接;接着,在步骤Si中,检测设备1从所述一个或多个链接站点中,选择待检 测站点;随后,在步骤Sl中,检测设备1根据所述待检测站点所含资源链接的相关信息,检 测所述待检测站点的一个或多个资源链接的状态。在此,本领域技术人员应理解“持续”是 指检测设备1在步骤Si、步骤S2和步骤S3分别按照设定的或实时调整的工作模式要求进 行链接站点的获取、待检测站点的选择及资源链接的状态的检测,直至检测设备1在较长 时间内停止获取包括一个或多个资源链接的链接站点。在一个优选实施例中(参照图幻,在步骤Sl中,检测设备1还由一个或多个资源 链接获取其所属的所述一个或多个链接站点。具体地,在步骤Si中,检测设备1根据一个或 多个资源链接,通过如从这(些)资源链接的相关字段识别域名后缀等方式,获取这(些) 资源链接所属的一个或多个链接站点。例如,在步骤Sl中,检测设备1按照约定的通信方 式向搜索引擎发送资源链接获取请求,接收该搜索引擎基于该获取请求返回的多个资源链 接,根据预设域名后缀库,对这些资源链接做匹配查询,从这些链接的相关字段识别出相应 的域名后缀,从而获得这些资源链接所属的一个或多个链接站点。又如,假设第三方设备存 储有资源链接,检测设备1按照约定的通信方式,如Http通信协议,向该第三方设备发送 资源链接获取请求,接收该第三方设备响应该获取请求返回的资源链接,如“http://WWW. baidu. com/m/a. mp3”,"http://www. baidu. com/m/b. mp3”,找到这些资源链接的协议字段 “http://”,以及路径字段“/m/”,即获得这些资源链接所属的链接站点“徽baidu. com”。 本领域技术人员应能理解上述获取资源链接所属站点的方式仅为举例,其他现有的或今后 可能出现的获取资源链接所属站点的方式如可适用于本发明,也应包含在本发明保护范围 以内,并以引用方式包含于此。优选地,在步骤Sl中,检测设备1还从网络中获取所述一个或多个资源链接。具 体地,在步骤Sl中,检测设备1通过“网络蜘蛛(spider) ”、“网络爬虫(crawler) ”或者“机 器人(robot)”等网页抓取工具,从网络中直接抓取一个或多个资源链接,根据这(些)资 源链接,获得相应的一个或多个链接站点。例如,获取装置11从网络中爬取资源链接,从这 些资源链接的相关字段中提取其所属的链接站点,从而获得相应的一个或多个链接站点。在另一个优选实施例中(参照图3),在步骤S3中,检测设备1中的检测操作的顺 序包括但不限于,以下至少任一项1)随机检测所述待检测站点的一个或多个资源链接的状态;2)按照所述待检测站点所含资源链接的相关信息,来顺序检测所述待检测站点的 一个或多个资源链接的状态;3)按照所述待检测站点所含资源链接的相关信息,以特定顺序检测所述待检测站 点的一个或多个资源链接的状态。在此,在步骤S2检测设备1选定待检测站点后,在步骤S3中,检测设备1根据该待检测站点中包括的资源链接,可以随机对这些资源链接进行状态检测;也可以按照这些 资源链接的相关信息,如URL链表,顺序进行状态检测;还可以根据这些资源链接的相关信 息,如URL链表,按照特定顺序进行状态检测,如先检测最新抓取的资源链接的状态,再检 测历史抓取的资源链接的状态。优选地,所述按照特定顺序检测资源链接的步骤包括i)首先检测所述待检测站点中从未检测过的资源链接中最先获取的第一资源链 接和所述第一资源链接的后续资源链接;ii)然后检测所述待检测站点中上次检测到的第二资源链接和上次未检测到的所 述第二资源链接的后续资源链接;iii)最后检测所述待检测站点中最先获取的第三资源链接和所述第三资源链接 的后续资源链接。具体地,根据待检测站点中资源链接的相关信息,将该待检测站点中最先获取的 第三资源链接标记为A,将该待检测站点中上次检测时最后检测到的第二资源链接标记为 B,将该待检测站点中从未检测到的资源链接中最早获取的第一资源链接标记为C,检测设 备1首先检测C及该资源链接的相关信息中C以后的资源链接,接着检测B及该资源链接的 相关信息中B以后的资源链接,最后检测A及该资源链接的相关信息中A以后的资源链接。 例如,假设待检测站点中资源链接的相关信息为URL链表,并且检测设备1每次检测时,均 需检测待检测站点中的全部资源链接,则C及C以后的资源链接即为上次检测后新添加入 该URL链表中的资源链接,B即为上次检测时最后检测到的该URL链表中的资源链接,B以 后的资源链接即为C,A及A以后的资源链接即为该URL链表中的最早的资源链接和该URL 链表中A至B之间的资源链接。又如,假设待检测站点中资源链接的相关信息仍为URL链 表,而检测设备1按照预定的检测时间或者预定的检测资源链接的数量对该URL链接进行 检测,此时C及C以后的资源链接仍对应该URL链表中上次检测后新添加的资源链接,B仍 对应上次检测该URL链表时最后检测到的资源链接,B以后的资源链接对应该URL链表中B 至C之间的资源链接,A及A以后的资源链接仍对应该URL链表中的最早的资源链接和该 URL链表中A至B之间的资源链接;由于检测时间或者检测资源链接的数量的限制,当URL 链表中的资源链接数量过多时,检测设备1按照该URL链表进行一次检测,无法完全检测B 至C之间和A至B之间的全部资源链接,可能在检测到A至B之间的某个资源链接,甚至是 B至C之间的某个资源链接时,本次检测即结束,此时,最后检测到的资源链接即为下次检 测时的B。更优选地,该过程还包括步骤S4 (未示出),在步骤S4中,检测设备1根据所述一 个或多个资源链接的状态,更新所述待检测站点所含资源链接的相关信息。具体地,在步骤 Sl中,检测设备1根据其在步骤S3中检测到的待检测站点中的一个或多个资源链接的状 态,更新该待检测站点的资源链接的相关信息。例如,在步骤S3中,检测设备1检测到的待 检测站点中多个资源链接的状态为不可访问,据此,在步骤S4中,检测设备1将该待检测站 点的URL链表中相应的资源链接删除;或者标记为不可访问,以待这些资源链接恢复可访 问状态时进行变更。本领域技术人员应能理解上述更新资源链接的相关信息的方式仅为举 例,其他现有的或今后可能出现的更新资源链接的相关信息的方式如可适用于本发明,也 应包含在本发明保护范围以内,并以引用方式包含于此。
图4示出根据本发明一个优选实施例的用于基于站点检测多个资源链接的状态 的方法流程图。其中,步骤S2,还包括步骤S21,和步骤S22,。具体地,在步骤S21,中,检 测设备1从所述一个或多个链接站点中确定当前可检测站点;在步骤S22’中,检测设备1 由所述当前可检测站点中选择所述待检测站点。图4中步骤Si’和步骤S3’的内容与图3中步骤Sl和步骤S3的内容相同,为简 明起见,不再赘述,以引用方式包含于此。更具体地,在步骤S21’中,检测设备1从其获取的一个或多个链接站点中,根据诸 如站点访问压力、站点更新时间、或者站点流量等确定当前可检测站点;随后,在步骤S22’ 中,检测设备1由其在步骤S21’确定的当前可检测站点中,根据诸如站点优先级、站点产生 时间等,选择待检测站点。例如,在步骤Si’中,检测设备1获取多个链接站点,在步骤S21’ 中,检测设备1根据站点访问压力,从这些链接站点中确定当前可以频繁访问的链接站点 作为当前可检测站点,在步骤S22’中,检测设备1再根据这些当前可检测站点的产生时间, 选择产生时间最早的作为待检测站点。本领域技术人员应能理解上述确定当前可检测站点 的方式以及选择待检测站点的方式仅为举例,其他现有的或今后可能出现的确定当前可检 测站点的方式或者选择待检测站点的方式如可适用于本发明,也应包含在本发明保护范围 以内,并以引用方式包含于此。优选地,在步骤S22’中,检测设备1还根据所述当前可检测站点的站点相关特性, 确定所述当前可检测站点的优先级;根据所述当前可检测站点的优先级,确定所述待检测 站点。具体地,在步骤S22’中,检测设备1根据其在步骤S21’确定的当前可检测站点的站 点相关特性,诸如上次检测时间、流量、更新时间等,确定这些当前可检测站点的优先级,并 根据该优先级,确定待检测站点。例如,在步骤S22’中,检测设备1根据当前可检测站点的 上次检测时间,确定这些当前可检测站点的优先级,如上次检测时间越早的,优先级越高, 再根据该优先级,从这些当前可检测站点中选择上次检测时间最早的作为待检测站点。更优选地,所述站点相关特性包括但不限于,以下至少任一项1)所述当前可检测站点的上次检测时间;2)所述当前可检测站点的流量;3)所述当前可检测站点的链接数量;4)所述当前可检测站点的更新时间;5)所述当前可检测站点的资源量。具体地,当前可检测站点的上次检测时间越早,其优先级越高,也即更应该尽早对 相应的当前可检测站点进行检测,以防止在两次检测的间隔时间内,该当前可检测站点的 访问状态发生变化,从而影响该站点中的资源链接提供给用户时的用户使用体验。当前可 检测站点的流量越大,说明其用户访问量越大,相应的不能访问的可能性也越小,故当前可 检测站点的流量越小,其优先级越高。当前可检测站点的链接数量越多表明该当前可检测 站点的内部链接之间,以及该当前可检测站点的内部链接和该当前可检测站点的外部链接 之间的关系越密切,该当前可检测站点对用户的影响也越大,相应的优先级也越高。当前可 检测站点的更新时间越近,说明其越活跃,相应的不能访问的可能性也越低,故当前可检测 站点的更新时间越早的,其优先级越高。当前可检测站点的资源量越多,表明该当前可检测 站点的内容越丰富,相应的用户需求量也越高,故其优先级也越高。本领域技术人员应能理解,上述站点相关特性不仅能够单独用来确定当前可检测站点的优先级,还可以相互结合 用以确定当前可检测站点的优先级。本领域技术人员还应能理解上述站点相关特性仅为举 例,其他现有的或今后可能出现的站点相关特性如可适用于本发明,也应包含在本发明保 护范围以内,并以引用方式包含于此。优选地,所述当前可检测站点基于但不限于,以下至少任一项来确定1)所述链接站点的访问压力;2)所述链接站点是否包括从未检测的资源链接;3)所述链接站点的预设检测周期。具体地,链接站点的访问压力指链接站点当前能够接受的访问频率,如果链接站 点中的需要检测的资源链接较多,其相应的访问压力也较大,故需要根据链接站点的访问 压力来确定该链接站点是否为当前可检测站点。由于网络中链接站点的数量巨大,而链接 站点中如果包括从未检测的资源链接,那么将该链接站点中的资源链接提供给用户时,其 是否可访问的不确定性更大,故需要将包括从未检测的资源链接的链接站点作为当前可检 测站点。对链接站点设定检测周期,按照预设检测周期确定当前可检测站点,可以提高对链 接站点的状态的检测效率,并且可以进一步将链接站点分组,对不同的分组采用不同的预 设检测周期,使得对链接站点的状态检测全面、高效,从而能够更好的为用户提供高质量的 搜索结果。本领域技术人员应能理解上述确定当前可检测站点的因素仅为举例,其他现有 的或今后可能出现的确定当前可检测站点的因素如可适用于本发明,也应包含在本发明保 护范围以内,并以引用方式包含于此。在一个优选实施例中(参照图幻,该过程还包括步骤S5 (未示出),在步骤S5中, 检测设备1当一个资源链接的状态连续被检测为可访问状态的次数超过第一预定阈值时, 降低对该资源链接的检测频率。具体地,对资源链接被连续检测为可访问状态的次数设定 第一预定阈值,在步骤S5中,检测设备1当一个资源链接的状态连续被检测为可访问状态 的次数超过该第一预定阈值时,降低该资源链接的检测频率。例如,假设第一预定阈值为5 次,当一个资源链接被连续5次被检测为可访问状态时,检测设备1降低对该资源的检测频 率,如从每次检测该资源链接所属的链接站点时检测该资源链接,降低至每两次检测该资 源链接所属的链接站点时检测该资源链接。优选地,该过程还包括步骤S6(未示出),在步骤S6中,检测设备1当从属于同一 站点的检测频率低于第二预定阈值的资源链接的个数超过第三预定阈值时,降低对所述站 点的站点检测频率。具体地,对资源链接的检测频率设定第二预定阈值,对同一站点中检测 频率低于第二预定阈值的资源链接的个数设定第三预定阈值,在步骤S6中,检测设备1当 从属于同一站点的检测频率低于该第二预定阈值的资源链接的个数超过该第三预定阈值 时,降低对该站点的站点检测频率。例如,记录同一站点中资源链接的检测频率,以及该站 点中检测频率低于第二预定阈值的资源链接的个数,当该个数超过第三预定阈值时,检测 设备1降低对该站点的站点检测频率。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在 不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论 从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权 利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此 外,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多 个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来 表示名称,而并不表示任何特定的顺序。
权利要求
1.一种用于基于站点检测多个资源链接的状态的方法,其中,该方法包括以下步骤a获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多 个资源链接;b从所述一个或多个链接站点中,选择待检测站点;c根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一个或多个 资源链接的状态。
2.根据权利要求1所述的方法,其中,所述步骤a还包括 -由一个或多个链接获取其所属的所述一个或多个链接站点。
3.根据权利要求2所述的方法,其中,所述步骤a还包括 -从网络中获取所述一个或多个链接。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤c中的检测操作的顺序包 括但不限于-随机检测所述待检测站点的一个或多个资源链接的状态;-按照所述待检测站点所含资源链接的相关信息,来顺序检测所述待检测站点的一个 或多个资源链接的状态;-按照所述待检测站点所含资源链接的相关信息,以特定顺序检测所述待检测站点的 一个或多个资源链接的状态。
5.根据权利要求4所述的方法,其中,所述按照特定顺序检测资源链接的步骤包括-首先检测所述待检测站点中从未检测过的资源链接中最先获取的第一资源链接和所 述第一资源链接的后续资源链接;-然后检测所述待检测站点中上次检测到的第二资源链接和上次未检测到的所述第二 资源链接的后续资源链接;-最后检测所述待检测站点中最先获取的第三资源链接和所述第三资源链接的后续资 源链接。
6.根据权利要求1至5中任一项所述的方法,其中,该方法还包括e根据所述一个或多个资源链接的状态,更新所述待检测站点所含资源链接的相关信肩、ο
7.根据权利要求1至6中任一项所述的方法,其中,所述步骤b还包括 bl从所述一个或多个链接站点中确定当前可检测站点;b2由所述当前可检测站点中选择所述待检测站点。
8.根据权利要求7所述的方法,其中,所述步骤1^2还包括-根据所述当前可检测站点的站点相关特性,确定所述当前可检测站点的优先级; -根据所述当前可检测站点的优先级,确定所述待检测站点。
9.根据权利要求8所述的方法,其中,所述站点相关特性包括以下至少任一项 -所述当前可检测站点的上次检测时间;-所述当前可检测站点的流量; -所述当前可检测站点的链接数量; -所述当前可检测站点的更新时间; -所述当前可检测站点的资源量。
10.根据权利要求7至9中任一项所述的方法,其中,所述当前可检测站点基于以下至 少任一项来确定-所述链接站点的访问压力;-所述链接站点是否包括从未检测的资源链接;-所述链接站点的预设检测周期。
11.根据权利要求1至10中任一项所述的方法,其中,该方法还包括f当一个资源链接的状态连续被检测为可访问状态的次数超过第一预定阈值时,降低 对该资源链接的检测频率。
12.根据权利要求11所述的方法,其中,该方法还包括g当从属于同一站点的检测频率低于第二预定阈值的资源链接的个数超过第三预定阈 值时,降低对所述站点的站点检测频率。
13.一种用于基于站点检测多个资源链接的状态的检测设备,其中,该设备包括 获取装置,用于获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接;选择装置,用于从所述一个或多个链接站点中,选择待检测站点; 检测装置,用于根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点 的一个或多个资源链接的状态。
14.根据权利要求13所述的设备,其中,所述获取装置还用于 -由一个或多个资源链接获取其所属的所述一个或多个链接站点。
15.根据权利要求14所述的设备,其中,所述获取装置还用于 -从网络中获取所述一个或多个资源链接。
16.根据权利要求13至15中任一项所述的方法,其中,所述检测装置中的检测操作包 括以下至少任一项-随机检测所述待检测站点的一个或多个资源链接的状态;-按照所述待检测站点所含资源链接的相关信息,来顺序检测所述待检测站点的一个 或多个资源链接的状态;-按照所述待检测站点所含资源链接的相关信息,以特定顺序检测所述待检测站点的 一个或多个资源链接的状态。
17.根据权利要求16所述的设备,其中,所述按照特定顺序检测资源链接的步骤包括 -首先检测所述待检测站点中从未检测过的资源链接中最先获取的第一资源链接和所述第一资源链接的后续资源链接;-然后检测所述待检测站点中上次检测到的第二资源链接和上次未检测到的所述第二 资源链接的后续资源链接;-最后检测所述待检测站点中最先获取的第三资源链接和所述第三资源链接的后续资 源链接。
18.根据权利要求13至17中任一项所述的设备,其中,该设备还包括更新装置,用于根据所述一个或多个资源链接的状态,更新所述待检测站点所含资源 链接的相关信息。
19.根据权利要求13至18中任一项所述的设备,其中,所述选择装置还包括确定单元,用于从所述一个或多个链接站点中确定当前可检测站点; 选择单元,用于由所述当前可检测站点中选择所述待检测站点。
20.根据权利要求19所述的设备,其中,所述选择单元还用于-根据所述当前可检测站点的站点相关特性,确定所述当前可检测站点的优先级; -根据所述当前可检测站点的优先级,确定所述待检测站点。
21.根据权利要求20所述的设备,其中,所述站点相关特性包括以下至少任一项 -所述当前可检测站点的上次检测时间;-所述当前可检测站点的流量; -所述当前可检测站点的链接数量; -所述当前可检测站点的更新时间; -所述当前可检测站点的资源量。
22.根据权利要求19至21中任一项所述的设备,其中,所述当前可检测站点基于以下 至少任一项来确定-所述链接站点的访问压力;-所述链接站点是否包括从未检测的资源链接;-所述链接站点的预设检测周期。
23.根据权利要求13至22中任一项所述的设备,其中,该设备还包括第一降频装置,用于当一个资源链接的状态连续被检测为可访问状态的次数超过第一 预定阈值时,降低对该资源链接的检测频率。
24.根据权利要求23所述的设备,其中,该设备还包括第二降频装置,用于当从属于同一站点的检测频率低于第二预定阈值的资源链接的个 数超过第三预定阈值时,降低对所述站点的站点检测频率。
全文摘要
本发明的目的是提供一种用于基于站点检测多个资源链接的状态的方法与检测设备。其中,检测设备获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接;从所述一个或多个链接站点中,选择待检测站点;根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一个或多个资源链接的状态。本发明基于站点检测多个资源链接的状态,对资源链接的状态检测更有针对性,并可以根据待检测站点的站点自身特性调整相关检测参数,如检测顺序等,使得多个资源链接的状态检测更为有效,从而保证了搜索引擎将这些资源链接作为搜索结果提供给用户时,用户获得的均为可访问的搜索结果,提升了用户的使用体验。
文档编号G06F17/30GK102083100SQ201010624369
公开日2011年6月1日 申请日期2010年12月31日 优先权日2010年12月31日
发明者姚远 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1