基于内容特征信息对链接进行去重处理的方法与设备的制作方法

文档序号:6341460阅读:124来源:国知局
专利名称:基于内容特征信息对链接进行去重处理的方法与设备的制作方法
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种用于基于内容特征信息对指向相同 资源文件的多个链接进行去重处理的技术。
背景技术
随着互联网的飞速发展,网络中存在大量重复的资源文件。例如,大多数用户会将 其希望分享的资源文件上传至网络,对于热门的、或者受欢迎度较高的资源文件,会被许多 用户上传至网络,这必然造成相同的资源文件被重复上传。同时,不同的网站也会转载、引 用以及提供下载相同的资源文件,这进一步扩大了网络中重复资源文件的数量。然后,搜索引擎通过“网络蜘蛛(spider)”、“网络爬虫(crawler) ”或者“机器人 (robot),,等网页抓取工具从网络中抓取网页时,对抓取到的网页不做区分,这些网页中可 能包括指向相同的资源文件的网页。如果不对这些指向相同的资源文件的网页去重,搜索 引擎在抓取这些网页后,需要大量的存储空间来存储这些网页,并且还需要分配更多的检 测设备对存储的网页进行后期检测。因此,如何提供一种基于内容特征信息对指向相同资源文件的多个链接进行去重 处理的方法,成为目前急需解决的问题之一。

发明内容
本发明的目的是提供一种用于基于内容特征信息对指向相同资源文件的多个链 接进行去重处理的方法与设备。根据本发明的一个方面,提供了一种用于基于内容特征信息对指向相同资源文件 的多个链接进行去重处理的方法,其中,该方法包括以下步骤a获取多个第一链接,其中,所述第一链接指向资源文件;b对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所 述第一链接相对应的内容特征信息;c根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接 进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点 且具有相同内容特征信息的第一链接;d对所述第一链接集进行去重处理。根据本发明的另一个方面,还提供了一种用于基于内容特征信息对指向相同资源 文件的多个链接进行去重处理的设备,其中,该设备包括获取装置,用于获取多个第一链接,其中,所述第一链接指向资源文件;处理装置,用于对所述第一链接所指向的资源文件执行基于摘要算法的处理操 作,以获取与所述第一链接相对应的内容特征信息;分组装置,用于根据所述内容特征信息,并结合所述第一链接所属的站点,对所述 多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接;去重装置,用于对所述第一链接集进行去重处理。与现有技术相比,本发明基于内容特征信息对指向相同资源文件的多个链接进行 去重处理,使得存储这些链接的设备,如搜索引擎服务器减少相应的存储空间,并降低了对 这些链接进行后期检测的成本,同时在将去重后的链接作为搜索结果提供给用户时,使得 用户获得更好的搜索体验。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显图1示出根据本发明一个方面的用于基于内容特征信息对指向相同资源文件的 多个链接进行去重处理的去重设备的示意图;图2示出根据本发明另一个方面的用于基于内容特征信息对指向相同资源文件 的多个链接进行去重处理的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1为根据本发明一个方面的设备示意图,示出用于基于内容特征信息对指向相 同资源文件的多个链接进行去重处理的去重设备。其中,去重设备1包括获取装置11、处理 装置12、分组装置13和去重装置14。具体地,获取装置11获取多个第一链接,其中,所述 第一链接指向资源文件;随后,处理装置12对所述第一链接所指向的资源文件执行基于摘 要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;接着,分组装置13根 据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以 获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征 信息相同的第一链接;随后,去重装置14对所述第一链接集进行去重处理。在此,去重设备1包括但不限于搜索引擎服务器以及与其相连的其他服务器等计 算设备,其中,计算设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基 于云计算的计算机集合。本领域技术人员应能理解上述去重设备仅为举例,其他现有的或 今后可能出现的去重设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用 方式包含于此。更具体地,获取装置11获取多个第一链接,其中,所述第一链接指向资源文件。具 体地,获取装置11从诸如其自身装置、去重设备1的其他装置、搜索引擎索引信息库、或者 其他第三方设备处获取多个第一链接,其中,这些第一链接指向资源文件。例如,获取装置 11通过约定的通信方式向搜索引擎的应用程序接口(API)发送获取第一链接的请求,并接 收该搜索引擎返回的基于该请求在索引信息库中查询获得的多个第一链接,其中,这些第 一链接指向资源文件。又如,获取装置11通过“网络蜘蛛(spider)”、“网络爬虫(crawler)” 或者“机器人(robot) ”等网页抓取工具从网络中抓取多个链接,并根据这些链接指向的内 容,获得指向资源文件的多个第一链接。本领域技术人员应能理解上述获取第一链接的方式以及网页抓取工具仅为举例,其他现有的或今后可能出现的获取第一链接的方式或者网 页抓取工具如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。随后,处理装置12对所述第一链接所指向的资源文件执行基于摘要算法的处理 操作,以获取与所述第一链接相对应的内容特征信息。具体地,处理装置12根据获取装置 11获取的多个第一链接,获取这些第一链接所指向的资源文件,并对这些资源文件执行基 于摘要算法的处理操作,以获取与这些第一链接分别对应的内容特征信息。例如,获取装置 11获取多个第一链接,处理装置12根据这些第一链接,获取这些第一链接所指向的多个资 源文件的前IOk字节数据,并基于MD5算法对每个资源文件的前IOk字节数据求MD5值,这 些MD5值即为与这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获 取内容特征信息的方式仅为举例,其他现有的或今后可能出现的获取内容特征信息的方式 如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。接着,分组装置13根据所述内容特征信息,并结合所述第一链接所属的站点,对 所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多 个从属于同一站点且内容特征信息相同的第一链接。具体地,分组装置13根据处理装置12 获取的与每个第一链接对应的内容特征信息,并结合每个第一链接所属的站点,对这些第 一链接进行分组,以获取一个或多个第一链接集,其中,这(些)第一链接集包括多个从属 于同一站点且具有相同内容特征信息的第一链接。例如,根据处理装置12获取的与每个第 一链接对应的内容特征信息,分组装置13先对具有相同内容特征信息的第一链接进行分 组,以获得多个候选链接集,再对这些候选链接集中的第一链接按照这些第一链接所属的 站点进行分组,从而得到多个第一链接集,每个第一链接集中包括多个从属于同一站点且 内容特征信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为 举例,其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含 在本发明保护范围以内,并以引用方式包含于此。随后,去重装置14对所述第一链接集进行去重处理。具体地,去重装置14对分组 装置13获得的多个第一链接集进行去重处理,诸如保留每个第一链接集中最新抓取的2个 第一链接、保留每个第一链接集中权威度最高的3个第一链接等。例如,分组装置13获得 多个第一链接集,去重装置14对部分第一链接集保留其中最新抓取的2个第一链接,对其 余部分的第一链接集保留其中权威度最高的3个第一链接。在此,去重装置14可以从诸如 其自身装置、去重设备1的其他装置、搜索引擎索引信息库、或者其他第三方设备处获取这 些第一链接的权威度。本领域技术人员应能理解上述对第一链接集去重的方式以及第一链 接的权威度的来源仅为举例,其他现有的或今后可能出现的对第一链接集去重的方式或者 第一链接的权威度的来源如可适用于本发明,也应包含在本发明保护范围以内,并以引用 方式包含于此。优选地,获取装置11、处理装置12、分组装置13和去重装置14是持续不断工作 的。具体地,获取装置11获取多个第一链接,其中,所述第一链接指向资源文件;随后,处 理装置12对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所 述第一链接相对应的内容特征信息;接着,分组装置13根据所述内容特征信息,并结合所 述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其 中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接;随后,去重装置14对所述第一链接集进行去重处理。在此,本领域技术人员应理解“持续”是指获取 装置11、处理装置12、分组装置13和去重装置14分别按照设定的或实时调整的工作模式 要求进行第一链接的获取、内容特征信息的获取,第一链接集的获取以及去重,直至去重设 备1在较长时间内停止获取包括指向资源文件的第一链接。优选地,所述去重装置中对所述第一链接集的去重处理基于但不限于,以下至少 任一项1)所述第一链接集中第一链接的抓取时间;2)所述第一链接集中第一链接的产生时间;3)所述第一链接集中第一链接对应的网页的流量;4)所述第一链接集中第一链接对应的网页的权威度。具体地,第一链接集中第一链接的抓取时间指搜索引擎抓取到第一链接并将其放 入搜索引擎索引信息库中的时间,该抓取时间越早,表明相应的第一链接被搜索引擎发现 的时间越早,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链 接集中第一链接的产生时间指该第一链接及其所指向的资源文件在网络上的发布时间,该 产生时间越早,表明相应的第一链接的存续时间越久,这在一定程度上表征了该第一链接 所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的流量指与该第一链 接相对应的网页的访问量,该流量可以是日级、周级,甚至是月级的,该流量越大,表明该第 一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的用户访问量越大,说 明该资源文件的用户关注度和用户欢迎度较高,这在较高程度上表征了该第一链接所指向 的资源文件的质量也较高。第一链接集中第一链接对应的网页的权威度指搜索引擎或者第 三方设备对与该第一链接相对应的网页的质量及重要程度的评价,该权威度越高,表明该 第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的较高且较为重要, 这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。本领域技术人员应能 理解上述对第一链接集去重处理的参考因素仅为举例,其他现有的或今后可能出现的对第 一链接集去重处理的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以 引用方式包含于此。在一个优选实施例中(参照图1),处理装置12还按照预定数据量,对所述第一链 接所指向的资源文件执行所述处理操作,以获取与所述第一链接相对应的内容特征信息。 具体地,处理装置12还按照预定数据量,如第一链接所指向的资源文件的头部IOk字节数 据、尾部IOk字节数据、或者两者的结合,对该资源文件执行基于摘要算法的处理操作,以 获取与这些第一链接分别对应的内容特征信息。例如,获取装置11获取多个第一链接,处 理装置12根据这些第一链接,获取这些第一链接所指向的多个资源文件的头部IOk字节数 据,并基于SHA算法对每个资源文件的头部IOk字节数据求SHA序列,这些SHA序列即为与 这些第一链接分别对应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息 的方式仅为举例,其他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发 明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,所述预定数据量基于但不限于,以下至少任一项1)所述资源文件的预定大小的头部数据;2)所述资源文件的预定大小的尾部数据;
3)所述资源文件的全部数据。具体地,处理装置12根据摘要算法,诸如MD5算法、SHA算法等,不但可以对资源 文件的全部数据计算内容特征信息,还可以仅基于资源文件的预定大小的头部数据或者尾 部数据,甚至是预定大小的头部数据与预定大小的尾部数据相结合,计算与资源文件相对 应的内容特征信息。本领域技术人员应能理解上述预定数据量仅为举例,其他现有的或今 后可能出现的预定数据量如可适用于本发明,也应包含在本发明保护范围以内,并以引用 方式包含于此。特别地,在资源文件的数据量较大的应用场景,如果只对资源文件的部分数据计 算内容特征信息,可以极大地降低计算成本,同时提高处理效率,以更快地对第一链接进行 分组,从而在计算量尽可能小的情况下,实现对第一链接集的去重,降低了第一链接的存储 设备的存储压力和后期数据检测压力。在另一个优选实施例中(参照图1),分组装置13还根据所述内容特征信息对所述 第一链接进行分组,以获取一个或多个候选链接集,其中,所述候选链接集包括多个内容特 征信息相同的第一链接;根据所述候选链接集中第一链接所属的站点,对所述候选链接集 进行分组,以获取所述第一链接集。具体地,分组装置13还根据与每个第一链接相对应的 内容特征信息,对这些第一链接进行分组,以获取一个或多个候选链接集,其中,每个候选 链接集包括具有相同内容特征信息的第一链接;并根据每个候选链接集中第一链接所属的 站点,对这些候选链接集再次分组,获得一个多个第一链接集,其中,这(些)第一链接集中 包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。例如,根据处 理装置12获取的与每个第一链接对应的内容特征信息,分组装置13先对具有相同内容特 征信息的第一链接进行分组,以获得多个候选链接集,再对这些候选链接集中的第一链接 按照这些第一链接所属的站点进行分组,从而得到多个第一链接集,每个第一链接集中包 括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应能理解上述获 取第一链接集的方式仅为举例,其他现有的或今后可能出现的获取第一链接集的方式如可 适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,分组装置13还根据所述内容特征信息,并结合所述第一链接所指向的资 源文件的资源相关信息及所述第一链接所属的站点,对所述第一链接进行分组,以获取所 述第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息及资源相 关信息相同的第一链接。具体地,分组装置13根据处理装置12获取的与每个第一链接相 对应的内容特征信息,并结合每个第一链接所指向的资源文件的资源相关信息,诸如资源 文件的格式、时长等,以及每个第一链接所属的站点,对这些第一链接进行分组,以获取一 个或多个第一链接集,其中,这(些)第一链接集包括多个从属于同一站点且具有相同内容 特征信息及相同资源相关信息的第一链接。例如,根据处理装置12每个第一链接对应的资 源文件的头部IOk字节数据计算获得内容特征信息,分组装置13先对资源文件的时长相 同的第一链接分组,获得多个第一分组;再对每一个第一分组进行分组,以获得多个第二分 组,其中,每个第二分组包括具有相同内容特征信息的第一链接;再对这些第二分组中的第 一链接按照这些第一链接所属的站点进行分组,从而得到多个第一链接集,每个第一链接 集中包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。本领域技 术人员应能理解上述获取第一链接集的方式仅为举例,其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包 含于此。更优选地,所述资源相关信息包括但不限于,以下至少任一项1)资源文件的格式;2)资源文件的时长;3)资源文件的数据量大小;4)资源文件的图片尺寸。具体地,资源文件的格式指每个第一链接所指向的资源文件的格式,如视频文件 的mp4格式、rmvb格式、mov格式等,音乐文件的cd格式、mp3格式、wma格式等,或者图片文 件的jpg格式、jpeg格式等。资源文件的时长指每个第一链接所指向的视频文件和音乐文 件的时长。资源文件的数据量大小指每个第一链接所指向的资源文件的数据量大小。资源 文件的图片尺寸指每个第一链接所指向的图片文件的尺寸,即图片文件的长和宽,有时用 图片文件的分辨率来表示。特别地,在处理装置12仅对第一链接所指向的资源文件的部分 数据计算内容特征信息的情况下,结合这些资源文件的资源相关信息,分组装置13能够更 快地对第一链接进行分组,同时极大地降低了处理装置12和分组装置13的数据处理压力, 提高了去重设备1的去重效率,减轻了第一链接的存储设备的存储压力和后期数据检测压 力。本领域技术人员应能理解上述资源相关信息仅为举例,其他现有的或今后可能出现的 资源相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于 此。在再一个优选实施例中(参照图1),去重设备1还包括预处理装置(未示出),该 预处理装置对所述第一链接集进行预处理操作,以获得待去重的第一链接集;其中,所述预 处理操作基于但不限于,以下至少任一项1)所述第一链接集中第一链接的数量;2)所述第一链接集中第一链接所指向的资源文件的数据量;随后,去重装置14还 对所述待去重的第一链接集进行去重处理。具体地,预处理装置对分组装置13获取的第一 链接集进行预处理操作,诸如过滤包含第一链接的数量低于第一阈值的第一链接集、过滤 包含的第一链接所指向的资源文件的数据量小于第二阈值的第一链接集,以获得需要去重 装置14进行去重的第一链接集;随后,去重装置14还对经过预处理装置处理的待去重第一 链接集进行去重处理。例如,分组装置13获取多个第一链接集,预处理装置过滤这些第一 链接集中包含第一链接的数量低于3且包含的第一链接所指向的资源文件的数据量小于 IOk字节的第一链接集,以获得待去重的第一链接集;随后,去重装置14对这些待去重的第 一链接集进行去重处理。本领域技术人员应能理解上述预处理操作的参考因素仅为举例, 其他现有的或今后可能出现的预处理操作的参考因素如可适用于本发明,也应包含在本发 明保护范围以内,并以引用方式包含于此。优选地,所述摘要算法包括但不限于,以下至少任一项1)MD5 算法;2) SHA 算法。具体地,MD5算法的全称是Message-Digest Algorithm 5 (信息-摘要算法),其 将整个资源文件当作一个大文本信息,通过不可逆的字符串变换算法,产生唯一的MD5值。SHA算法是一种数据加密算法,其思想是接收一段明文,然后以一种不可逆的方式将它转换 成一段(通常更小)密文,也可以简单的理解为取一串输入码(称为预映射或信息),并把 它们转化为长度较短、位数固定的输出序列即散列值(也称为信息摘要)的过程。本领域 技术人员应能理解上述摘要算法仅为举例,其他现有的或今后可能出现的摘要算法如可适 用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,所述资源文件包括但不限于,以下至少任一项1)音乐文件;2)视频文件;3)图片文件;4)文本文件。具体地,每个第一链接指向的资源文件可以是音乐文件、视频文件、图片文件、或 者文本文件等任何一种可以通过摘要算法获得内容特征信息的文件。处理装置12可以根 据这些资源文件的部分或者全部数据计算内容特征信息。分组装置13可以基于这些资源 文件的内容特征信息,并结合这些资源文件的资源相关信息及对应这些资源文件的第一链 接所属的站点对与这些资源文件分别对应的第一链接进行分组,得到多个第一链接集。去 重装置14可以对每个指向相同资源文件的第一链接集去重。本领域技术人员应能理解上 述资源文件仅为举例,其他现有的或今后可能出现的资源文件如可适用于本发明,也应包 含在本发明保护范围以内,并以引用方式包含于此。图2示出根据本发明另一个方面的用于基于内容特征信息对指向相同资源文件 的多个链接进行去重处理的方法流程图。具体地,在步骤Sl中,去重设备1获取多个第一链 接,其中,所述第一链接指向资源文件;随后,在步骤S2中,去重设备1对所述第一链接所指 向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信 息;接着,在步骤S3中,去重设备1根据所述内容特征信息,并结合所述第一链接所属的站 点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集 包括多个从属于同一站点且内容特征信息相同的第一链接;随后,在步骤S4中,去重设备1 对所述第一链接集进行去重处理。在此,去重设备1包括但不限于搜索引擎服务器以及与其相连的其他服务器等计 算设备,其中,计算设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基 于云计算的计算机集合。本领域技术人员应能理解上述去重设备仅为举例,其他现有的或 今后可能出现的去重设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用 方式包含于此。更具体地,在步骤Sl中,去重设备1获取多个第一链接,其中,所述第一链接指向 资源文件。具体地,在步骤Sl中,去重设备1从诸如其自身装置、搜索引擎索引信息库、或 者其他第三方设备处获取多个第一链接,其中,这些第一链接指向资源文件。例如,在步 骤Sl中,去重设备1通过约定的通信方式向搜索引擎的应用程序接口(API)发送获取第 一链接的请求,并接收该搜索引擎返回的基于该请求在索引信息库中查询获得的多个第一 链接,其中,这些第一链接指向资源文件。又如,在步骤Sl中,去重设备1通过“网络蜘蛛 (spider)”、“网络爬虫(crawler) ”或者“机器人(robot) ”等网页抓取工具从网络中抓取多 个链接,并根据这些链接指向的内容,获得指向资源文件的多个第一链接。本领域技术人员应能理解上述获取第一链接的方式以及网页抓取工具仅为举例,其他现有的或今后可能出 现的获取第一链接的方式或者网页抓取工具如可适用于本发明,也应包含在本发明保护范 围以内,并以引用方式包含于此。随后,在步骤S2中,去重设备1对所述第一链接所指向的资源文件执行基于摘要 算法的处理操作,以获取与所述第一链接相对应的内容特征信息。具体地,在步骤S2中,去 重设备1根据其在步骤Sl中获取的多个第一链接,获取这些第一链接所指向的资源文件, 并对这些资源文件执行基于摘要算法的处理操作,以获取与这些第一链接分别对应的内容 特征信息。例如,在步骤Sl中,去重设备1获取多个第一链接;在步骤S2中,去重设备1根 据这些第一链接,获取这些第一链接所指向的多个资源文件的前IOk字节数据,并基于MD5 算法对每个资源文件的前IOk字节数据求MD5值,这些MD5值即为与这些第一链接分别对 应的内容特征信息。本领域技术人员应能理解上述获取内容特征信息的方式仅为举例,其 他现有的或今后可能出现的获取内容特征信息的方式如可适用于本发明,也应包含在本发 明保护范围以内,并以引用方式包含于此。接着,在步骤S3中,去重设备1根据所述内容特征信息,并结合所述第一链接所属 的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链 接集包括多个从属于同一站点且内容特征信息相同的第一链接。具体地,在步骤S3中,去 重设备1根据其在步骤S2中获取的与每个第一链接对应的内容特征信息,并结合每个第一 链接所属的站点,对这些第一链接进行分组,以获取一个或多个第一链接集,其中,这(些) 第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接。例如,根据其 在步骤S2中获取的与每个第一链接对应的内容特征信息,在步骤S3中,去重设备1先对具 有相同内容特征信息的第一链接进行分组,以获得多个候选链接集,再对这些候选链接集 中的第一链接按照这些第一链接所属的站点进行分组,从而得到多个第一链接集,每个第 一链接集中包括多个从属于同一站点且内容特征信息相同的第一链接。本领域技术人员应 能理解上述获取第一链接集的方式仅为举例,其他现有的或今后可能出现的获取第一链接 集的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。随后,在步骤S4中,去重设备1对所述第一链接集进行去重处理。具体地,在步骤 S4中,去重设备1对其在步骤S3中获得的多个第一链接集进行去重处理,诸如保留每个第 一链接集中最新抓取的2个第一链接、保留每个第一链接集中权威度最高的3个第一链接 等。例如,在步骤S3中,去重设备1获得多个第一链接集;在步骤S4中,去重设备1对部分 第一链接集保留其中最新抓取的2个第一链接,对其余部分的第一链接集保留其中权威度 最高的3个第一链接。在此,去重装置14可以从诸如其自身装置、搜索引擎索引信息库、或 者其他第三方设备处获取这些第一链接的权威度。本领域技术人员应能理解上述对第一链 接集去重的方式以及第一链接的权威度的来源仅为举例,其他现有的或今后可能出现的对 第一链接集去重的方式或者第一链接的权威度的来源如可适用于本发明,也应包含在本发 明保护范围以内,并以引用方式包含于此。优选地,步骤Si、步骤S2、步骤S3和步骤S4是持续不断工作的。具体地,在步骤 Sl中,去重设备1获取多个第一链接,其中,所述第一链接指向资源文件;随后,在步骤S2 中,去重设备1对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取 与所述第一链接相对应的内容特征信息;接着,在步骤S3中,去重设备1根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个 第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一 链接;随后,在步骤S4中,去重设备1对所述第一链接集进行去重处理。在此,本领域技术 人员应理解“持续”是指去重设备1在步骤Si、步骤S2、步骤S3和步骤S4分别按照设定的 或实时调整的工作模式要求进行第一链接的获取、内容特征信息的获取,第一链接集的获 取以及去重,直至去重设备1在较长时间内停止获取包括指向资源文件的第一链接。优选地,所述步骤S4中对所述第一链接集的去重处理基于但不限于,以下至少任 一项1)所述第一链接集中第一链接的抓取时间;2)所述第一链接集中第一链接的产生时间;3)所述第一链接集中第一链接对应的网页的流量;4)所述第一链接集中第一链接对应的网页的权威度。具体地,第一链接集中第一链接的抓取时间指搜索引擎抓取到第一链接并将其放 入搜索引擎索引信息库中的时间,该抓取时间越早,表明相应的第一链接被搜索引擎发现 的时间越早,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。第一链 接集中第一链接的产生时间指该第一链接及其所指向的资源文件在网络上的发布时间,该 产生时间越早,表明相应的第一链接的存续时间越久,这在一定程度上表征了该第一链接 所指向的资源文件的质量也较高。第一链接集中第一链接对应的网页的流量指与该第一链 接相对应的网页的访问量,该流量可以是日级、周级,甚至是月级的,该流量越大,表明该第 一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的用户访问量越大,说 明该资源文件的用户关注度和用户欢迎度较高,这在较高程度上表征了该第一链接所指向 的资源文件的质量也较高。第一链接集中第一链接对应的网页的权威度指搜索引擎或者第 三方设备对与该第一链接相对应的网页的质量及重要程度的评价,该权威度越高,表明该 第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的较高且较为重要, 这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。本领域技术人员应能 理解上述对第一链接集去重处理的参考因素仅为举例,其他现有的或今后可能出现的对第 一链接集去重处理的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以 引用方式包含于此。在一个优选实施例中(参照图2),在步骤S2中,去重设备1还按照预定数据量,对 所述第一链接所指向的资源文件执行所述处理操作,以获取与所述第一链接相对应的内容 特征信息。具体地,在步骤S2中,去重设备1还按照预定数据量,如第一链接所指向的资源 文件的头部IOk字节数据、尾部IOk字节数据、或者两者的结合,对该资源文件执行基于摘 要算法的处理操作,以获取与这些第一链接分别对应的内容特征信息。例如,在步骤Sl中, 去重设备1获取多个第一链接;在步骤S2中,去重设备1根据这些第一链接,获取这些第一 链接所指向的多个资源文件的头部IOk字节数据,并基于SHA算法对每个资源文件的头部 IOk字节数据求SHA序列,这些SHA序列即为与这些第一链接分别对应的内容特征信息。本 领域技术人员应能理解上述获取内容特征信息的方式仅为举例,其他现有的或今后可能出 现的获取内容特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以 引用方式包含于此。
优选地,所述预定数据量基于但不限于,以下至少任一项1)所述资源文件的预定大小的头部数据;2)所述资源文件的预定大小的尾部数据;3)所述资源文件的全部数据。具体地,在步骤S2中,去重设备1根据摘要算法,诸如MD5算法、SHA算法等,不 但可以对资源文件的全部数据计算内容特征信息,还可以仅基于资源文件的预定大小的头 部数据或者尾部数据,甚至是预定大小的头部数据与预定大小的尾部数据相结合,计算与 资源文件相对应的内容特征信息。本领域技术人员应能理解上述预定数据量仅为举例,其 他现有的或今后可能出现的预定数据量如可适用于本发明,也应包含在本发明保护范围以 内,并以引用方式包含于此。特别地,在资源文件的数据量较大的应用场景,如果只对资源文件的部分数据计 算内容特征信息,可以极大地降低计算成本,同时提高处理效率,以更快地对第一链接进行 分组,从而在计算量尽可能小的情况下,实现对第一链接集的去重,降低了第一链接的存储 设备的存储压力和后期数据检测压力。在另一个优选实施例中(参照图2),在步骤S3中,去重设备1还根据所述内容特 征信息对所述第一链接进行分组,以获取一个或多个候选链接集,其中,所述候选链接集包 括多个内容特征信息相同的第一链接;根据所述候选链接集中第一链接所属的站点,对所 述候选链接集进行分组,以获取所述第一链接集。具体地,在步骤S3中,去重设备1还根 据与每个第一链接相对应的内容特征信息,对这些第一链接进行分组,以获取一个或多个 候选链接集,其中,每个候选链接集包括具有相同内容特征信息的第一链接;并根据每个候 选链接集中第一链接所属的站点,对这些候选链接集再次分组,获得一个多个第一链接集, 其中,这(些)第一链接集中包括多个从属于同一站点且内容特征信息及资源相关信息相 同的第一链接。例如,根据其在步骤S2中获取的与每个第一链接对应的内容特征信息,在 步骤S3中,去重设备1先对具有相同内容特征信息的第一链接进行分组,以获得多个候选 链接集,再对这些候选链接集中的第一链接按照这些第一链接所属的站点进行分组,从而 得到多个第一链接集,每个第一链接集中包括多个从属于同一站点且内容特征信息相同的 第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举例,其他现有的或 今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含在本发明保护范围以 内,并以引用方式包含于此。优选地,在步骤S3中,去重设备1还根据所述内容特征信息,并结合所述第一链 接所指向的资源文件的资源相关信息及所述第一链接所属的站点,对所述第一链接进行分 组,以获取所述第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信 息及资源相关信息相同的第一链接。具体地,在步骤S3中,去重设备1根据其在步骤S2中 获取的与每个第一链接相对应的内容特征信息,并结合每个第一链接所指向的资源文件的 资源相关信息,诸如资源文件的格式、时长等,以及每个第一链接所属的站点,对这些第一 链接进行分组,以获取一个或多个第一链接集,其中,这(些)第一链接集包括多个从属于 同一站点且具有相同内容特征信息及相同资源相关信息的第一链接。例如,根据其在步骤 S2中每个第一链接对应的资源文件的头部IOk字节数据计算获得内容特征信息,在步骤S3 中,去重设备1先对资源文件的时长相同的第一链接分组,获得多个第一分组;再对每一个第一分组进行分组,以获得多个第二分组,其中,每个第二分组包括具有相同内容特征信息 的第一链接;再对这些第二分组中的第一链接按照这些第一链接所属的站点进行分组,从 而得到多个第一链接集,每个第一链接集中包括多个从属于同一站点且内容特征信息及资 源相关信息相同的第一链接。本领域技术人员应能理解上述获取第一链接集的方式仅为举 例,其他现有的或今后可能出现的获取第一链接集的方式如可适用于本发明,也应包含在 本发明保护范围以内,并以引用方式包含于此。更优选地,所述资源相关信息包括但不限于,以下至少任一项1)资源文件的格式;2)资源文件的时长;3)资源文件的数据量大小;4)资源文件的图片尺寸。具体地,资源文件的格式指每个第一链接所指向的资源文件的格式,如视频文件 的mp4格式、rmvb格式、mov格式等,音乐文件的cd格式、mp3格式、wma格式等,或者图片 文件的jpg格式、jpeg格式等。资源文件的时长指每个第一链接所指向的视频文件和音乐 文件的时长。资源文件的数据量大小指每个第一链接所指向的资源文件的数据量大小。资 源文件的图片尺寸指每个第一链接所指向的图片文件的尺寸,即图片文件的长和宽,有时 用图片文件的分辨率来表示。特别地,在去重设备1仅对第一链接所指向的资源文件的部 分数据计算内容特征信息的情况下,结合这些资源文件的资源相关信息,去重设备1能够 更快地对第一链接进行分组,同时极大地降低了其数据处理压力,提高了去重效率,减轻了 第一链接的存储设备的存储压力和后期数据检测压力。本领域技术人员应能理解上述资源 相关信息仅为举例,其他现有的或今后可能出现的资源相关信息如可适用于本发明,也应 包含在本发明保护范围以内,并以引用方式包含于此。在再一个优选实施例中(参照图2),该过程还包括步骤S5(未示出),在步骤S5 中,去重设备1对所述第一链接集进行预处理操作,以获得待去重的第一链接集;其中,所 述预处理操作基于但不限于,以下至少任一项1)所述第一链接集中第一链接的数量;2)所述第一链接集中第一链接所指向的资源文件的数据量;随后,在步骤S4中, 去重设备1还对所述待去重的第一链接集进行去重处理。具体地,在步骤S5中,去重设备 1对其在步骤S3中获取的第一链接集进行预处理操作,诸如过滤包含第一链接的数量低于 第一阈值的第一链接集、过滤包含的第一链接所指向的资源文件的数据量小于第二阈值的 第一链接集,以获得需要进行去重的第一链接集;随后,在步骤S4中,去重设备1还对经过 步骤S5处理的待去重第一链接集进行去重处理。例如,在步骤S3中,去重设备1获取多个 第一链接集;在步骤S5中,去重设备1过滤这些第一链接集中包含第一链接的数量低于3 且包含的第一链接所指向的资源文件的数据量小于IOk字节的第一链接集,以获得待去重 的第一链接集;随后,在步骤S4中,去重设备1对这些待去重的第一链接集进行去重处理。 本领域技术人员应能理解上述预处理操作的参考因素仅为举例,其他现有的或今后可能出 现的预处理操作的参考因素如可适用于本发明,也应包含在本发明保护范围以内,并以引 用方式包含于此。优选地,所述摘要算法包括但不限于,以下至少任一项
1)MD5 算法;2) SHA 算法。具体地,MD5算法的全称是Message-Digest Algorithm 5 (信息-摘要算法),其 将整个资源文件当作一个大文本信息,通过不可逆的字符串变换算法,产生唯一的MD5值。 SHA算法是一种^ ,其思想是接收一段明文,然后以一种不可逆的方式将它转换成一 段(通常更小)密文,也可以简单的理解为取一串输入码(称为预映射或信息),并把它们 转化为长度较短、位数固定的输出序列即散列值(也称为信息摘要)的过程。本领域技术 人员应能理解上述摘要算法仅为举例,其他现有的或今后可能出现的摘要算法如可适用于 本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,所述资源文件包括但不限于,以下至少任一项1)音乐文件;2)视频文件;3)图片文件;4)文本文件。具体地,每个第一链接指向的资源文件可以是音乐文件、视频文件、图片文件、或 者文本文件等任何一种可以通过摘要算法获得内容特征信息的文件。在步骤S2中,去重设 备1可以根据这些资源文件的部分或者全部数据计算内容特征信息。在步骤S3中,去重设 备1可以基于这些资源文件的内容特征信息,并结合这些资源文件的资源相关信息及对应 这些资源文件的第一链接所属的站点对与这些资源文件分别对应的第一链接进行分组,得 到多个第一链接集。在步骤S4中,去重设备1可以对每个指向相同资源文件的第一链接集 去重。本领域技术人员应能理解上述资源文件仅为举例,其他现有的或今后可能出现的资 源文件如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在 不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论 从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权 利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有 变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此 外,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多 个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来 表示名称,而并不表示任何特定的顺序。
权利要求
1.一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法, 其中,该方法包括以下步骤a获取多个第一链接,其中,所述第一链接指向资源文件;b对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第 一链接相对应的内容特征信息;c根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行 分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内 容特征信息相同的第一链接;d对所述第一链接集进行去重处理。
2.根据权利要求1所述的方法,其中,所述步骤d中对所述第一链接集的去重处理基于 以下至少任一项-所述第一链接集中第一链接的抓取时间; -所述第一链接集中第一链接的产生时间; -所述第一链接集中第一链接对应的网页的流量; -所述第一链接集中第一链接对应的网页的权威度。
3.根据权利要求1或2所述的方法,其中,所述步骤b还包括-按照预定数据量,对所述第一链接所指向的资源文件执行所述处理操作,以获取与所 述第一链接相对应的内容特征信息。
4.根据权利要求3所述的方法,其中,所述预定数据量基于以下至少任一项 -所述资源文件的预定大小的头部数据;-所述资源文件的预定大小的尾部数据; -所述资源文件的全部数据。
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤c还包括-根据所述内容特征信息对所述第一链接进行分组,以获取一个或多个候选链接集,其 中,所述候选链接集包括多个内容特征信息相同的第一链接;-根据所述候选链接集中第一链接所属的站点,对所述候选链接集进行分组,以获取所 述第一链接集。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤c还包括-根据所述内容特征信息,并结合所述第一链接所指向的资源文件的资源相关信息及 所述第一链接所属的站点,对所述第一链接进行分组,以获取所述第一链接集,其中,所述 第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。
7.根据权利要求6所述的方法,其中,所述资源相关信息包括以下至少任一项 -资源文件的格式;-资源文件的时长; -资源文件的数据量大小; -图片类型资源文件的图片尺寸。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括 -对所述第一链接集进行预处理操作,以获得待去重的第一链接集; 其中,所述预处理操作基于以下至少任一项-所述第一链接集中第一链接的数量; -所述第一链接集中第一链接所指向的资源文件的大小; 其中,所述步骤d还包括 -对所述待去重的第一链接集进行去重处理。
9.根据权利要求1至8中任一项所述的方法,其中,所述摘要算法包括以下至少任一项-MD5算法; -SHA算法。
10.根据权利要求1至9中任一项所述的方法,其中,所述资源文件包括以下至少任一项-音乐文件; -视频文件; -图片文件; -文本文件。
11.一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的去重 设备,其中,该设备包括获取装置,用于获取多个第一链接,其中,所述第一链接指向资源文件; 处理装置,用于对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以 获取与所述第一链接相对应的内容特征信息;分组装置,用于根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个 第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于 同一站点且内容特征信息相同的第一链接;去重装置,用于对所述第一链接集进行去重处理。
12.根据权利要求11所述的设备,其中,所述去重装置中对所述第一链接集的去重处 理基于以下至少任一项-所述第一链接集中第一链接的抓取时间; -所述第一链接集中第一链接的产生时间; -所述第一链接集中第一链接对应的网页的流量; -所述第一链接集中第一链接对应的网页的权威度。
13.根据权利要求11或12所述的设备,其中,所述处理装置还用于-按照预定数据量,对所述第一链接所指向的资源文件执行所述处理操作,以获取与所 述第一链接相对应的内容特征信息。
14.根据权利要求13所述的设备,其中,所述预定数据量基于以下至少任一项 -所述资源文件的预定大小的头部数据;-所述资源文件的预定大小的尾部数据; -所述资源文件的全部数据。
15.根据权利要求11至14中任一项所述的设备,其中,所述分组装置还用于-根据所述内容特征信息对所述第一链接进行分组,以获取一个或多个候选链接集,其 中,所述候选链接集包括多个内容特征信息相同的第一链接;-根据所述候选链接集中第一链接所属的站点,对所述候选链接集进行分组,以获取所 述第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接。
16.根据权利要求11至15中任一项所述的设备,其中,所述分组装置还用于-根据所述内容特征信息,并结合所述第一链接所指向的资源文件的资源相关信息及 所述第一链接所属的站点,对所述第一链接进行分组,以获取所述第一链接集,其中,所述 第一链接集包括多个从属于同一站点且内容特征信息及资源相关信息相同的第一链接。
17.根据权利要求16所述的设备,其中,所述资源相关信息包括以下至少任一项 -资源文件的格式;-资源文件的时长; -资源文件的数据量大小; -图片类型资源文件的图片尺寸。
18.根据权利要求11至17中任一项所述的设备,其中,该设备还包括预处理装置,用于对所述第一链接集进行预处理操作,以获得待去重的第一链接集;其中,所述预处理操作基于以下至少任一项-所述第一链接集中第一链接的数量;-所述第一链接集中第一链接所指向的资源文件的大小;其中,所述去重装置还用于-对所述待去重的第一链接集进行去重处理。
19.根据权利要求11至18中任一项所述的设备,其中,所述摘要算法包括以下至少任 一项-MD5算法; -SHA算法。
20.根据权利要求11至19中任一项所述的设备,其中,所述资源文件包括以下至少任 一项-音乐文件; -视频文件; -图片文件; -文本文件。
全文摘要
本发明的目的是提供一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法与设备。其中,去重设备获取多个第一链接;对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且具有相同内容特征信息的第一链接;对所述第一链接集进行去重处理。本发明使得存储这些链接的设备减少了存储空间,并降低了对这些链接进行后期检测的成本,同时在将去重后的链接作为搜索结果提供给用户时,使得用户获得更好的搜索体验。
文档编号G06F17/30GK102063498SQ201010624368
公开日2011年5月18日 申请日期2010年12月31日 优先权日2010年12月31日
发明者姚远 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1