重复网页识别方法和装置制造方法

文档序号:6619593阅读:160来源:国知局
重复网页识别方法和装置制造方法
【专利摘要】本发明实施例公开了一种重复网页识别方法和装置。所述重复网页识别方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。本发明实施例公开的重复网页识别方法和装置利用互联网网页之间的相互链接关系提高了重复网页的识别效率。
【专利说明】重复网页识别方法和装置

【技术领域】
[0001] 本发明实施例涉及网络数据通信【技术领域】,尤其涉及一种重复网页识别方法和装 置。

【背景技术】
[0002] 在互联网为广大民众普遍使用的今天,新的网站、网页层出不穷。在众多的网页 中,有相当一部分是重复网页。重复网页是指实质内容相同的网页,例如,显示内容完全相 同的网页;正文内容相同,但标题不同的网页;正文内容相同,但辅助内容不同的网页等。 有研究显示,重复网页占据当今互联网上网页总数的70%。有数量如此之大的重复性的数 据,对于任何一个搜索引擎来说,都不得不说是相当大的处理障碍。
[0003] 现有的重复网页识别方案都是对互联网上的网页独立的进行重复网页识别,并没 有利用网页之间的相互关系进行识别。因此,造成了重复网页的识别效率低下。


【发明内容】

[0004] 有鉴于此,本发明实施例提出一种重复网页识别方法和装置,以提高重复网页的 识别效率。
[0005] 第一方面,本发明实施例提供了一种重复网页识别方法,所述方法包括:
[0006] 从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存 储至重复网页集合;
[0007] 依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页 中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
[0008] 第二方面,本发明实施例提供了一种重复网页识别装置,所述装置包括:
[0009] 原始重复网页识别模块,用于从互联网网页中识别至少一组原始重复网页,并将 所述至少一组原始重复网页存储至重复网页集合;
[0010] 候选重复网页识别模块,用于依据互联网网页的链接关系,从与所述至少一组原 始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至 重复网页集合。
[0011] 本发明实施例提供的重复网页识别方法和装置,通过从互联网网页中识别至少一 组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合,依据互联网网页 的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网 页,并将所述候选重复网页存储至重复网页集合,从而利用网页之间的相互链接关系搜索 重复网页,提高了重复网页的识别效率。

【专利附图】

【附图说明】
[0012] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显:
[0013] 图1是本发明第一实施例提供的重复网页识别方法的流程图;
[0014] 图2是本发明第二实施例提供的重复网页识别方法中原始重复网页识别的流程 图;
[0015] 图3是本发明第三实施例提供的重复网页识别方法中候选重复网页识别的流程 图;
[0016] 图4是本发明第四实施例提供的重复网页识别方法的流程图;
[0017] 图5是本发明第四实施例提供的重复网页识别方法的流程示意图;
[0018] 图6是本发明第五实施例提供的重复网页识别方法中重复网页验证的流程图; [0019] 图7是本发明第六实施例提供的重复网页识别装置的结构图。

【具体实施方式】
[0020] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于 描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0021] 图1示出了本发明的第一实施例。
[0022] 图1是本发明第一实施例提供的重复网页识别方法的流程图。所述重复网页识别 方法由重复网页识别装置执行,并且,所述重复网页识别装置集成在用于识别重复网页的 服务器中。
[0023] 参见图1,所述重复网页识别方法包括:
[0024] S110,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复 网页存储至重复网页集合。
[0025] 在互联网大为流行的今天,互联网上有数量规模巨大的网页。在这些不同的网页 中,重复网页占据了其中相当的比重。所谓重复网页,就是指网页的内容代码完全相同,或 者差异非常小的网页。由于重复网页的存在,搜索引擎在进行网页内容抓取的过程中就需 要对重复的网页进行剔除,以便提供给用户唯一的网页信息。
[0026] 通常情况下,在两个重复网页的相同位置的链接所指向的网页也是重复网页。本 实施例通过网页之间的这种链接关系,迭代的识别互联网上的重复网页,从而提高重复网 页识别的效率。
[0027] 由于是根据网页之间的链接关系迭代的识别重复网页,所以首先需要从互联网网 页中识别出至少一组原始重复网页,以作为后续进行迭代的基础。每组原始重复网页包括 至少两个代码相同或者差异很小的重复网页。优选的,可以通过相同反向链接数量以及锚 文本相似度识别出一组原始重复网页。
[0028] 对于一个网络文档来说,所有指向该文档的链接都是它的反向链接。网页上将文 本作为一个超链接,指向其他网页,则这样的链接被称为锚文本链接,而锚文本链接所对应 的呈现给用户的文本被称为锚文本。所述锚文本相似度是锚文本代码中相同代码占全部锚 文本代码的比率。
[0029] 所述重复网页集合是由不同的重复网页组成的集合。在识别出原始重复网页以 后,将识别得出的原始重复网页存储到所述重复网页集合。优选的,可以将所述原始重复网 页的统一资源定位符(Uniform resource locator, URL)存储至所述重复网页集合,以记录 所述原始重复网页。
[0030] S120,依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系 的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
[0031] 针对每组原始重复网页,从互联网网页中识别到原始重复网页以后,可以从所述 原始重复网页的链接所指向的网页中识别出另外一组重复网页。识别出的该组重复网页称 为一级重复网页。类似的,可以从所述一级重复网页的链接所指向的网页中识别出二级重 复网页。以此类推,可以依据互联网网页的链接关系,从互联网网页中识别出多级候选重复 网页,添加到一个重复网页集合中。
[0032] 优选的,可以利用XPATH以及锚文本从已识别的重复网页中识别重复链接,再计 算所述重复链接所指向的网页的相似度,最后根据网页的相似度识别互联网网页是否有重 复网页。其中,XPATH是可扩展标记语言(Extensiblemarkuplanguage,XML)路径语言,是 万维网联盟(World wide web consortium, W3C)关于查询部分XML文档的通用语言标准。
[0033] 需要说明的是,本实施例提供的重复网页识别方法不仅适用于使用超文本标记语 言(Hypertext markup language, HTML)写成的静态网页,而且对于使用动态服务器页面 (Active server page, ASP)、Java 服务器页面(Java server page, JSP)等语言写成的动态 网页同样适用。
[0034] 本实施例通过从互联网网页中识别至少一组原始重复网页,将所述至少一组原始 重复网页存储至重复网页集合,再依据互联网网页的链接关系,从与所述至少一组原始重 复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复 网页集合,实现了通过互联网网页之间的链接关系迭代的识别候选重复网页,提高了重复 网页的识别效率。
[0035] 图2示出了本发明的第二实施例。
[0036] 图2是本发明第二实施例提供的重复网页识别方法中原始重复网页识别的流程 图。参见图2,所述重复网页识别方法以本发明第一实施例为基础,进一步的,从互联网网 页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合包 括:
[0037] S111,根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的 锚文本以及链接地址。
[0038] 所述互联网网页链接关系库是一个预先建立的数据库。该数据库中存储着预先收 集的互联网上不同网页之间的链接关系。比如网页A的页面有一个链接指向了网页B,那 么,在所述互联网网页链接关系库中就会存储网页A指向网页B的链接关系。所述互联网 网页链接关系库是获取原始重复网页的依据。
[0039] 所述设定网页资源是指互联网网页中的某个或某些网页,其作为识别重复网页的 起始网页。可以从任意一个网页开始识别其重复网页。设定网页资源优选采用互联网上设 定网页的统一资源定位符(Uniform resource locator, URL)来表示该网页。通过所述设定 网页资源,可以获取所述设定网页资源所表示的设定网页的至少两个反向链接网页。所述 反向链接网页,就是网页上有链接指向所述设定网页资源的网页。例如,A网页中存在一个 链接,该链接指向B网页,B网页是设定网页资源对应的网页,则A网页即是B网页的反向 链接网页。
[0040] 本实施例是通过对所述至少两个反向链接网页的锚文本以及链接地址进行比较 而识别重复网页的。因此,在获取设定网页资源的至少两个反向链接网页以后,获取所述至 少两个反向链接网页的锚文本以及链接地址。
[0041] 假设获取到了设定网页资源的两个反向链接网页:A网页及B网页。A网页和B网 页上否有它们各自的反向链接,而每个反向链接都对应有它们各自的锚文本。分别获取A 网页以及B网页的所有反向链接,以及每个反向链接对应的锚文本,以便对A网页同B网页 是否可以组成重复网页组进行识别。
[0042] S112,将反向链接网页中相同反向链接数量超过预定相同反向链接数量阈值,并 且锚文本相似度超过锚文本相似度阈值的反向链接网页作为重复网页组。
[0043] 获取所述至少两个反向链接网页的锚文本以及链接地址之后,计算反向链接网页 中相同反向链接的数量,以及反向链接网页的锚文本相似度。其中,反向链接是否相同可 以通过比对反向链接地址来识别,也就是将链接地址完全相同的反向链接作为相同反向链 接。假设设定网页资源有两个反向链接网页,A网页及B网页,并且相同反向链接数量阈值 是45,那么当A网页与B网页上的链接地址完全相同的反向链接的数量超过45个的时候, A网页与B网页中相同反向链接数量就超过了预定相同反向链接数量阈值。
[0044] 所述锚文本相似度可以通过计算相同锚文本在所有锚文本代码中所占的比率而 计算得到。计算所述反向链接网页的相同反向链接数量以及锚文本相似度以后,将相同反 向链接数量超过预定的相同反向链接数量阈值,且锚文本相似度超过锚文本相似度阈值的 反向链接网页作为重复网页组。
[0045] S113,计算所述重复网页组中网页的网页相似度,并将相似度满足设定阈值的网 页作为一组原始重复网页。
[0046] 通过计算相同反向链接数量及锚文本相似度确定重复网页组之后,计算所述重复 网页组中网页的网页相似度。所述网页相似度是不同网页之间相同代码占网页所有代码的 比率。计算所述重复网页组中网页的网页相似度之后,将所述网页的网页相似度与设定阈 值进行比较,并将网页相似度大于设定阈值的网页作为一组原始重复网页。
[0047] 本实施例通过根据互联网网页链接关系库获取设定网页资源的至少两个反向链 接网页的锚文本以及链接地址,根据相同反向链接数量以及锚文本相似度确定重复网页 组,并根据重复网页组中网页的网页相似度确定原始重复网页,使得能够根据设定网页资 源获取原始重复网页,为迭代计算重复网页提供了基础。
[0048] 图3示出了本发明的第三实施例。
[0049] 图3是本发明第三实施例提供的重复网页识别方法中候选重复网页识别的流程 图。参见图3,所述重复网页识别方法以本发明第一实施例为基础,进一步的,依据互联网网 页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复 网页,并将所述候选重复网页存储至重复网页集合包括:
[0050] S121,将所述至少一组原始重复网页作为当前网页,根据当前网页上的锚文本识 别无效链接,并将所述无效链接从当前网页上去除。
[0051] 所述原始重复网页中包括若干网页链接,其中的一部分网页链接有其对应的锚文 本。
[0052] 有一些锚文本对应的网页链接对于识别重复网页是无效的。比如锚文本"首页", 其对应的网页链接一般都指向同一个网站的一个固定页面,因此,该锚文本对应的网页链 接对于识别重复网页是无效的。将这类锚文本对应的链接定义为无效链接。此外,其他对 识别重复网页无帮助的链接也可以视为无效链接,可以根据需求设置关键词、模板等,从而 在网页中按需清除掉无效链接,以免干扰后续识别工作。
[0053] 在识别重复网页的过程中,首先将所述原始重复网页作为当前网页,识别当前网 页上的锚文本来识别无效链接,然后将无效链接从当前网页中去除,以避免对候选重复网 页的误识别。
[0054] S122,获取当前网页中XPATH相同、锚文本相同或相近的重复链接。
[0055] XPATH是可扩展标记语言(Extensible markup language, XML)路径语言,是万维 网联盟(World wide web consortium, W3C)关于查询部分XML文档的通用语言标准。XPATH 给出从某个节点起的查询路径,搜索文档。使用XPATH可以在XML层次结构中快速定位和 提取信息,它的内建函数提供了全面的功能,可以方便的处理数值及文本数据。XPATH本质 上是与具有层次结构的XML数据模型相匹配的查询语言,它可以通过任何方向浏览树来选 择节点,并根据节点的值和位置应用谓词。
[0056] 由于HTML与XML语言的相似性,而大部分的网页都是使用HTML语言编写而成的, 所以,可以使用XPATH对网页中不同链接对应的节点进行定位。如果两个链接在当前网页 中的XPATH相同,则说明这两个链接在当前网页中所在的位置相同。利用这一点,本实施例 通过XPATH来选择重复链接。
[0057] 选择重复链接还需要参考链接的锚文本。如果两个链接在当前网页上的XPATH相 同,并且其对应的锚文本相同,那么这两个链接是重复链接;另外,如果两个链接在当前网 页上的XPATH相同,而且其对应的锚文本相近,则这两个链接也被认为是重复链接。而链接 对应的锚文本是否相近可以通过预先配置的锚文本近义词词典来进行辨认。
[0058] S123,将所述重复链接指向的网页作为候选重复网页存储至重复网页集合。
[0059] 所述重复网页集合是用来存储重复网页的集合。在通过XPATH以及锚文本识别出 重复链接以后,将所述重复链接指向的网页作为候选重复网页存储至所述重复网页集合。
[0060] S124,将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操作,直 至获取到的新的候选重复网页的数量小于或等于设定稳定值。
[0061] 在根据XPATH以及锚文本识别出所述原始重复网页所直接链接的候选重复网页 以后,再将所述候选重复网页作为当前网页,迭代的获取当前网页所直接连接的候选重复 网页,也就是下一级候选重复网页。
[0062] 在不断迭代获取下一级候选重复网页的过程中,所述重复网页集合中存储的网页 的数量会不断增长。由于互联网网页的总量虽然庞大,但毕竟有限,所以不断迭代获取下一 级候选重复网页的过程中,所述重复网页集合中的网页数量会逐渐稳定在一个数量上,也 就是获取到的信息候选重复网页的数量小于或等于设定稳定值。此时,停止对所述候选重 复网页的迭代获取,并以所述重复网页集合中存储的候选重复网页作为最终获取重复网页 的结果。
[0063] 本实施例通过迭代的执行从网页上去除无效链接,利用锚文本以及XPATH识别重 复链接,以及将所述重复链接所指向的网页存储至重复网页集合,实现了根据互联网上网 页之间的相互连接关系获取重复网页,进一步的提高了重复网页的识别效率。
[0064] 图4及图5示出了本发明的第四实施例。
[0065] 图4是本发明第四实施例提供的重复网页识别方法的流程图。所述重复网页识别 方法以本发明第一实施例为基础,进一步的,在依据互联网网页的链接关系,从与所述至少 一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页 存储至重复网页集合之后,还包括:对所述重复网页集合中的重复网页是否重复进行验证。
[0066] 参见图4,所述重复网页识别方法包括:
[0067] S410,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复 网页存储至重复网页集合。
[0068] S420,依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系 的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
[0069] S430,对所述重复网页集合中的重复网页是否重复进行验证。
[0070] 通过XATH以及锚文本相似度对重复网页进行识别已经具有很好的识别率,因此, 所述重复网页集合中存储的候选重复网页大部分就是重复网页。但是,不能排除通过XPATH 以及锚文本相似度识别出的候选重复网页实际上内容完全不同。所以需要对所述重复网页 集合中的重复网页是否重复进行验证。
[0071] 对重复网页的验证可以通过读取所述重复网页的内容,再计算重复网页之间的网 页相似度,最后认定网页相似度高于预定阈值的网页为重复网页。
[0072] 图5是本发明第四实施例提供的重复网页识别方法的流程示意图。参见图5,执行 所述重复网页识别方法的服务器首先从互联网中进行原始重复网页的获取501,然后对获 取到的原始重复网页进行重复特征提取502。提取到所述原始重复网页的重复特征以后,根 据预先建立的互联网网页链接关系库511迭代的进行候选重复网页获取503,并将获取的 候选重复网页存入重复页面集合512。最后,对所述重复页面集合512中存储的重复页面进 行页面抓取504和结果验证505。
[0073] 本实施例通过在迭代获取重复网页后,通过页面读取对所述重复网页集合中的重 复网页进行验证,进一步的提高了对重复网页进行识别的准确率。
[0074] 图6示出了本发明的第五实施例。
[0075] 图6是本发明第五实施例提供的重复网页识别方法中重复网页验证的流程图。参 见图6,所述重复网页识别方法以本发明第四实施例为基础,进一步的,对所述重复网页集 合中的重复网页是否重复进行验证包括:
[0076] S431,抓取所述重复网页集合中重复网页的代码。
[0077] 在进行重复网页验证之前,所述重复网页集合中存储有原始重复网页以及候选重 复网页。将所述原始重复网页以及候选重复网页统称为重复网页。
[0078] 对所述重复网页集合中的重复网页是否重复进行验证,可以是比对所述重复网页 集合中重复网页的网页内容,并将网页内容完全相同或者基本相同的网页确认为实际重复 网页。
[0079] 由于需要对重复网页的网页内容进行比对,所以首先需要抓取所述重复网页集合 中重复网页的代码。
[0080] S432,根据所述重复网页的代码计算重复网页的网页相似度。
[0081] 所述网页相似度是网页代码中相同代码占全部网页代码的比率。在抓取重复网页 的代码以后,根据所抓取的重复网页的代码计算所述重复网页的相似度。计算的过程可以 是,首先统计所述重复网页中相同代码的代码量,再统计所述重复网页的总代码量,最后依 据相同代码的代码量与总代码量的比值确定所述网页相似度。
[0082] S433,确认网页相似度高于相似度阈值的重复网页作为实际重复网页。
[0083] 计算所述重复网页的网页相似度以后,将所述网页相似度高于相似度阈值的重复 网页作为实际重复网页。
[0084] 本实施例通过抓取重复网页的网页代码,计算重复网页的网页相似度,以及确认 网页相似度高于相似度阈值的重复网页为实际重复网页,实现了对重复网页的验证,提高 了对重复网页进行识别的准确率。
[0085] 图7示出了本发明的第六实施例。
[0086] 图7是本发明第六实施例提供的重复网页识别装置的结构图。参见图7,所述重复 网页识别装置包括:原始重复网页识别模块710以及候选重复网页识别模块720。
[0087] 所述原始重复网页识别模块710用于从互联网网页中识别至少一组原始重复网 页,并将所述至少一组原始重复网页存储至重复网页集合。
[0088] 所述候选重复网页识别模块720用于依据互联网网页的链接关系,从与所述至少 一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页 存储至重复网页集合。
[0089] 优选的,所述重复网页识别装置还包括:重复网页验证模块730。
[0090] 所述重复网页验证模块730用于在从与所述至少一组原始重复网页有链接关系 的网页中识别重复网页,并将该重复网页存储至重复网页集合之后,对所述重复网页集合 中的重复网页是否重复进行验证。
[0091] 优选的,所述原始重复网页识别模块710包括:特征提取单元711、重复网页组确 定单元712以及重复网页确定单元713。
[0092] 所述特征提取单元711用于根据互联网网页链接关系库获取设定网页资源的至 少两个反向链接网页的锚文本以及链接地址。
[0093] 所述重复网页组确定单元712用于将反向链接网页中相同反向链接数量超过预 定相同反向链接数量阈值,并且锚文本相似度超过锚文本相似度阈值的反向链接网页作为 重复网页组。
[0094] 所述重复网页确定单元713用于计算所述重复网页组中网页的网页相似度,并将 相似度满足设定阈值的网页作为一组原始重复网页。
[0095] 优选的,所述锚文本相似度是锚文本代码中相同代码占全部锚文本代码的比率。
[0096] 优选的,所述候选重复网页识别模块720包括:无效链接去除单元721、候选链接 获取单元722、重复网页集合存储单元723以及执行单元724。
[0097] 所述无效链接去除单元721用于将所述至少一组原始重复网页作为当前网页,根 据当前网页上的锚文本识别无效链接,并将所述无效链接从当前网页上去除。
[0098] 所述候选链接获取单元722用于获取当前网页中XPATH相同、锚文本相同或相近 的重复链接。
[0099] 所述重复网页集合存储单元723用于将所述重复链接指向的网页作为候选重复 网页存储至重复网页集合。
[0100] 所述执行单元724用于将所述候选重复网页作为当前网页,返回执行所述去除无 效链接的操作,直至获取到的新的候选重复网页的数量小于或等于设定稳定值。
[0101] 优选的,所述重复网页验证模块730包括:代码抓取单元731、网页相似度计算单 元732以及重复网页确定单元733。
[0102] 所述代码抓取单元731用于抓取所述重复网页集合中重复网页的代码。
[0103] 所述网页相似度计算单元732用于根据所述重复网页的代码计算重复网页的网 页相似度。
[0104] 所述重复网页确定单元733用于确认网页相似度高于相似度阈值的重复网页作 为实际重复网页。
[0105] 优选的,所述网页相似度是网页代码中相同代码占全部网页代码的比率。
[0106] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0107] 本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计 算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络 上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储 装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多 个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和 软件的结合。
[0108] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与 其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
[0109] 以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员 而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同 替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1. 一种重复网页识别方法,其特征在于,包括: 从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至 重复网页集合; 依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭 代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
2. 根据权利要求1所述的方法,其特征在于,在依据互联网网页的链接关系,从与所述 至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复 网页存储至重复网页集合之后,还包括: 对所述重复网页集合中的重复网页是否重复进行验证。
3. 根据权利要求1或2所述的方法,其特征在于,从互联网网页中识别至少一组原始重 复网页,并将所述至少一组原始重复网页存储至重复网页集合包括: 根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的锚文本以 及链接地址; 将反向链接网页中相同反向链接数量超过预定相同反向链接数量阈值,并且锚文本相 似度超过锚文本相似度阈值的反向链接网页作为重复网页组; 计算所述重复网页组中网页的网页相似度,并将相似度满足设定阈值的网页作为一组 原始重复网页。
4. 根据权利要求3所述的方法,其特征在于,所述锚文本相似度是锚文本代码中相同 代码占全部锚文本代码的比率。
5. 根据权利要求1或2所述的方法,其特征在于,从与所述至少一组原始重复网页有链 接关系的网页中识别候选重复网页,并将所述候选重复网页存储至重复网页集合包括: 将所述至少一组原始重复网页作为当前网页,根据当前网页上的锚文本识别无效链 接,并将所述无效链接从当前网页上去除; 获取当前网页中XPATH相同、锚文本相同或相近的重复链接; 将所述重复链接指向的网页作为候选重复网页存储至重复网页集合; 将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操作,直至获取到 的新的候选重复网页的数量小于或等于设定稳定值。
6. 根据权利要求2所述的方法,其特征在于,对所述重复网页集合中的重复网页是否 重复进行验证包括: 抓取所述重复网页集合中重复网页的代码; 根据所述重复网页的代码计算重复网页的网页相似度; 确认网页相似度高于相似度阈值的重复网页作为实际重复网页。
7. 根据权利要求6所述的方法,其特征在于,所述网页相似度是网页代码中相同代码 占全部网页代码的比率。
8. -种重复网页识别装置,其特征在于,包括: 原始重复网页识别模块,用于从互联网网页中识别至少一组原始重复网页,并将所述 至少一组原始重复网页存储至重复网页集合; 候选重复网页识别模块,用于依据互联网网页的链接关系,从与所述至少一组原始重 复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复 网页集合。
9. 根据权利要求8所述的装置,其特征在于,还包括: 重复网页验证模块,用于在从与所述至少一组原始重复网页有链接关系的网页中识别 重复网页,并将该重复网页存储至重复网页集合之后,对所述重复网页集合中的重复网页 是否重复进行验证。
10. 根据权利要求8或9所述的装置,其特征在于,所述原始重复网页识别模块包括: 特征提取单元,用于根据互联网网页链接关系库获取设定网页资源的至少两个反向链 接网页的锚文本以及链接地址; 重复网页组确定单元,用于将反向链接网页中相同反向链接数量超过预定相同反向链 接数量阈值,并且锚文本相似度超过锚文本相似度阈值的反向链接网页作为重复网页组; 重复网页确定单元,用于计算所述重复网页组中网页的网页相似度,并将相似度满足 设定阈值的网页作为一组原始重复网页。
11. 根据权利要求10所述的装置,其特征在于,所述锚文本相似度是锚文本代码中相 同代码占全部锚文本代码的比率。
12. 根据权利要求8或9所述的装置,其特征在于,所述候选重复网页识别模块包括: 无效链接去除单元,用于将所述至少一组原始重复网页作为当前网页,根据当前网页 上的锚文本识别无效链接,并将所述无效链接从当前网页上去除; 候选链接获取单元,用于获取当前网页中XPATH相同、锚文本相同或相近的重复链接; 重复网页集合存储单元,用于将所述重复链接指向的网页作为候选重复网页存储至重 复网页集合; 执行单元,用于将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操 作,直至获取到的新的候选重复网页的数量小于或等于设定稳定值。
13. 根据权利要求9所述的装置,其特征在于,所述重复网页验证模块包括: 代码抓取单元,用于抓取所述重复网页集合中重复网页的代码; 网页相似度计算单元,用于根据所述重复网页的代码计算重复网页的网页相似度; 重复网页确定单元,用于确认网页相似度高于相似度阈值的重复网页作为实际重复网 页。
14. 根据权利要求13所述的装置,其特征在于,所述网页相似度是网页代码中相同代 码占全部网页代码的比率。
【文档编号】G06F17/30GK104063506SQ201410324553
【公开日】2014年9月24日 申请日期:2014年7月8日 优先权日:2014年7月8日
【发明者】李羽, 颜俊伟, 李 浩 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1