具有报错特征的网页识别方法和装置制造方法

文档序号：6542189阅读：254来源：国知局

具有报错特征的网页识别方法和装置制造方法
【专利摘要】本发明公开了一种具有报错特征的网页识别方法和装置，其中，方法包括：将多个网页进行聚类，得到一个或多个网页集合；判断网页集合中各网页内容是否都包含预设的否定词，将网页集合中的各网页内容都包含否定词的网页集合作为待验证报错网页集合；提取待验证报错网页集合的一个或多个属性特征，根据属性特征验证待验证报错网页集合得到报错网页集合，并提取报错网页集合的相关信息；根据报错网页集合识别报错网页。根据该方案，无需结合每个页面和其特定的报错句子，效率更高，并且，通过实时地自动挖掘生成报错网页集合，并且对网页报错词句的变化不敏感，降低了识别的滞后性。
【专利说明】具有报错特征的网页识别方法和装置
【技术领域】
[0001]本发明涉及互联网【技术领域】，具体涉及一种具有报错特征的网页识别方法和装置。
【背景技术】
[0002]互联网中充斥着各种低质量的网页，这类页面中不具备实际内容。搜索引擎在抓取、分析、建库、索引时需要识别并且剔除这些低质量的网页。这些低质量网页不仅占用了搜索引擎的资源、降低引擎效率，而且如果未被及时识别、剔除，还会出现在搜索结果页面中，而用户点击访问后无法获得有效信息，这严重影响了用户体验。
[0003]低质量网页种类较多，其中一种是具有报错特征的网页，即具有明显的报错词句的网页。比如打开网页后提示:“网页已删除”、“404not found”、“页面不存在”等等。
[0004]现有技术中对这类具有报错特征的网页的识别方法主要依靠人工识别网站下的报错句子，各站点的报错句子，可能互不相同，采取站点和报错句子结合的方法来挖掘报错网页，一旦站点匹配并且网页中含有已经识别的报错句子则认为这个网页为报错网页。
[0005]人工识别报错句子的缺点是覆盖面有限而且不及时。人工识别一般是发现一种报错类型的句子则添加生效一种，主站点下各个子站点页面的报错特征可能不同而且可能随时变化，每个子站点对应的页面都需要采用结合站点和报错句子进行识别，因此，采用这种方式进行大面积的识别报错句子时，人工代价太大，效率很低。并且这种方法具有滞后性，一旦页面改变了报错句子则无法识别，需要人工重新添加新的报错词句。

【发明内容】

[0006]鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的具有报错特征的网页识别方法和装置。
[0007]根据本发明的一个方面，提供了一种具有报错特征的网页识别方法，包括:将多个网页进行聚类，得到一个或多个网页集合；判断网页集合中各网页内容是否都包含预设的否定词，将网页集合中的各网页内容都包含否定词的网页集合作为待验证报错网页集合；提取待验证报错网页集合的一个或多个属性特征，根据属性特征验证待验证报错网页集合得到报错网页集合，并提取报错网页集合的相关信息；根据报错网页集合识别报错网页。
[0008]可选地，所述将所述网页集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合具体为:将所述网页集合中每个网页均包含同一否定词的网页集合作为待验证报错网页集合；
[0009]所述方法还包括:将包含所述否定词的句子作为该待验证报错网页集合的报错句子。
[0010]可选地，所述对多个网页进行聚类具体为:针对一主站点，根据路径信息对该主站点中的各个链接网页进行聚类；
[0011]所述报错网页集合的相关信息包括以下信息中的一项或多项:所述报错网页集合在主站点中的路径信息、主站点信息、报错句子以及其签名信息。
[0012]可选地，所述根据路径信息对该主站点中的各个链接网页进行聚类进一步包括:
[0013]计算所述主站点中的各个链接网页的路径信息；
[0014]对计算得到的路径信息进行去重处理，计算所述去重处理后获得的路径信息的签名；
[0015]根据所述路径信息的签名进行聚类，将路径信息的签名相同的链接网页加入同一网页集合中。
[0016]可选地，所述待验证报错网页集合的属性特征包括以下特征的一项或多项的组合:
[0017]所述待验证报错网页集合中包含的不同网页数量；
[0018]所述待验证报错网页集合中全部网页和/或单个网页所包含的句子的总数；
[0019]所述待验证报错网页集合中全部网页中包含的不同句子的数量；
[0020]所述待验证报错网页集合的报错句子的长度；
[0021]同一主站点包含同一报错句子的不同网页集合数量。
[0022]可选地，所述根据所述属性特征验证所述待验证报错网页集合得到报错网页集合具体为:选取属性特征符合以下预设策略中一项或多项的待验证报错网页集合作为报错网页集合:
[0023]报错句子在待验证报错网页集合中所有的网页中被包含；
[0024]待验证报错集合中包含的不同网页数量大于对应预设阈值的网页集合；
[0025]待验证报错集合中全部网页和/或单个网页所包含的句子的总数小于对应预设阈值的网页集合；
[0026]待验证报错集合中全部网页包含的不同句子的数量小于对应预设阈值的网页集合；
[0027]所述报错句子长度小于对应预设阈值的网页集合；
[0028]同一主站点包含同一报错句子的不同网页集合数量小于对应预设阈值。
[0029]可选地，所述根据所述报错网页集合识别报错网页具体包括:
[0030]获取待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子和该句子的签名；
[0031]查询所述待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子是否与所述主站点中的任一报错网页集合的信息匹配，若匹配，则确定所述待识别网页为报错网页。
[0032]根据本发明的另一方面，提供了一种具有报错特征的网页识别装置，包括:聚类模块，用于将多个网页进行聚类，得到一个或多个网页集合；判断模块，用于判断聚类模块得到的一个或多个网页集合中是否都包含预设的否定词，将集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合；报错集合生成模块，用于提取待验证报错网页集合的一个或多个属性特征，根据属性特征验证待验证报错网页集合得到报错网页集合，并提取报错网页集合的相关信息；识别模块，用于根据所述报错网页集合识别报错网页。
[0033]可选地，所述判断模块具体用于:判断所述网页集合中各网页内容是否都包含同一预设的否定词，将所述网页集合中每个网页均包含同一否定词的网页集合作为待验证报错网页集合。
[0034]可选地，所述聚类模块具体用于:针对一主站点，根据路径信息对该主站点中的各个链接网页进行聚类；
[0035]所述报错网页集合的相关信息包括以下信息中的一项或多项:所述报错网页集合在主站点中的路径信息、主站点信息、报错句子以及其签名信息。
[0036]可选地，所述聚类模块具体包括:
[0037]路径信息计算单元，用于计算所述主站点中的各个链接网页的路径信息；
[0038]签名计算单元，用于对计算得到的路径信息进行去重处理，计算所述去重处理后获得的路径信息的签名；
[0039]聚类单元，用于根据所述路径信息的签名进行聚类，将路径信息的签名相同的链接网页加入同一网页集合中。
[0040]可选地，所述待验证报错网页集合的属性特征包括以下特征的一项或多项的组合:
[0041]所述待验证报错网页集合中包含的不同网页数量；
[0042]所述待验证报错网页集合中全部网页和/或单个网页所包含的句子的总数；
[0043]所述待验证报错网页集合中全部网页中包含的不同句子的数量；
[0044]所述待验证报错网页集合的报错句子的长度；
[0045]同一主站点包含同一报错句子的不同网页集合数量。
[0046]可选地，所述报错集合生成模块具体用于:选取属性特征符合以下预设策略中一项或多项的待验证报错网页集合作为报错网页集合:
[0047]报错句子在网页集合中所有的网页中被包含；
[0048]待验证报错集合中包含的不同网页数量大于对应预设阈值的网页集合；
[0049]待验证报错集合中全部网页和/或单个网页所包含的句子的总数小于对应预设阈值的网页集合；
[0050]待验证报错集合中全部网页包含的不同句子的数量小于对应预设阈值的网页集合；
[0051]所述报错句子长度小于对应预设阈值的网页集合；
[0052]同一主站点包含同一报错句子的不同网页集合数量小于对应预设阈值。
[0053]可选地，所述识别模块具体包括:
[0054]提取单元，用于提取所述报错网页集合的相关信息；
[0055]获取单元，用于获取待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子；
[0056]查询单元，用于查询所述待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子是否与所述提取单元提取的主站点中的任一条报错网页集合的信息匹配，若匹配，则确定所述待识别网页为报错网页。
[0057]根据本发明的具有报错特征的网页识别方法和装置，对大量网页进行聚类分析，形成多个网页集合。通过聚类方法生成的每个网页集合中的网页具有相同的报错特征，包含相同的否定词或报错句子，如果一个网页集合中的每个网页内容都包含否定词，将该集合作为一个待验证的报错网页集合，通过分析该待验证报错网页集合的属性特征，确定真正的报错网页集合，并提取出相关信息。然后，根据报错网页集合及相关信息对任意给定的网页进行识别。根据该方案，以具有相同报错特征的网页集合作为识别的参照，每个报错集合可用于识别多个报错网页，而无需结合每个页面和其特定的报错句子，效率更高，并且，通过实时地自动挖掘生成报错网页集合，并且对网页报错词句的变化不敏感，降低了识别的滞后性。
[0058]上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0059]通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中:
[0060]图1示出了根据本发明一个实施例的具有报错特征的网页识别方法的流程图；
[0061]图2示出了根据本发明一个实施例的生成报错集合的方法的流程图；
[0062]图3示出了根据本发明一个实施例的利用报错集合对具有报错特征的网页进行识别的方法的流程图；
[0063]图4示出了根据本发明一个实施例的具有报错特征的网页识别装置的结构框图。【具体实施方式】
[0064]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
[0065]图1示出了根据本发明一个实施例的具有报错特征的网页识别方法的流程图，如图1所示，该方法包括如下步骤:
[0066]步骤S110，将多个网页进行聚类，得到一个或多个网页集合。
[0067]该步骤在服务器进行，服务器采用一定的网页聚类方法对抓取、收录的网页，或一定目标范围内的网页进行聚类。该步骤中聚类的目的是将具有相同报错特征的网页加入到同一个集合中，而不同集合内之间的报错特征相异。
[0068]可通过多种聚类方法实现该目的，例如，基于域名和文本内容的聚类，将同一主站点域名下文本内容相似的网页形成一个集合，认为集合中的网页具有相同的报错特征；或者根据页面链接和页面标签进行聚类，页面标签可反映页面的标题等描述信息，也能够提供页面的结构信息，因此，可以认为在页面结构中位于相似节点、位置的链接指向同类页面，而同类页面具有相同的报错特征。其他能实现此目的的聚类方法不再一一列举。
[0069]步骤S120，判断网页集合中各网页内容是否都包含预设的否定词，将网页集合中的各网页内容都包含否定词的网页集合作为待验证报错网页集合。[0070]具有报错特征的网页一般通过包含否定词的句子提示用户，否定词可以是“已删除”、“页面不存在”、“不可用”、“Not Found”等。
[0071]对集合中的每个网页提取页面内容，将页面内容与上述预设的否定词相匹配，如果存在一个网页集合，该集合中的每个网页都能与一个或多个否定词匹配，将该网页集合作为待验证的报错网页集合。
[0072]步骤S130，提取待验证报错网页集合的一个或多个属性特征，根据属性特征验证待验证报错网页集合得到报错网页集合，并提取报错网页集合的相关信息。
[0073]网页内容丰富多样，上述否定词在网页中可能作为正常的文字内容而并不用于报错提示。该步骤结合网页集合的多个属性特征对待验证的报错网页集合进行判断。作为示例，可以获取集合内的不同网页数量作为属性特征，为该属性特征预设一个阈值，例如，阈值设为20。如果该集合中的网页数量大于20，并且每个网页中都包含预设的否定词，则将该待验证报错集合确认为报错集合。
[0074]步骤S140，提取报错网页集合的相关信息并根据报错网页集合的相关信息识别报错网页。
[0075]利用得到的报错网页集合进行报错网页的识别，该步骤的具体过程对应于步骤S110，例如，步骤SllO中对一主站点根据页面标签对其中的链接进行了聚类，则上述相关信息可以包括该报错网页集合对应的否定词，标签的节点、位置信息，主站点域名等。
[0076]则识别过程是:对一给定的待识别网页，获取该网页中的否定词，标签节点信息和主站点域名，查看是否与任意报错集合的相关信息匹配，将匹配的待识别网页识别为报错网页。
[0077]根据本发明上述实施例提供的方法，对大量网页进行聚类分析，形成多个网页集合。通过聚类方法生成的每个网页集合中的网页具有相同的报错特征，包含相同的否定词或报错句子，如果一个网页集合中的每个网页内容都包含否定词，将该集合作为一个待验证的报错网页集合，通过分析该待验证报错网页集合的属性特征，确定真正的报错网页集合，并提取出相关信息。然后，根据报错网页集合及相关信息对任意给定的网页进行识别。根据该方案，以具有相同报错特征的网页集合作为识别的参照，每个报错集合可用于识别多个报错网页，而无需结合每个页面和其特定的报错句子，效率更高，并且，报错网页集合的生成过程实时地自动进行，因此对网页报错词句的变化不敏感，降低了识别的滞后性。
[0078]图2示出了根据本发明另一个实施例的生成报错网页集合的方法的流程图，如图2所示，该方法以一个主站点为例，示出了对该站点下的网页进行聚类、筛选得到报错网页集合的方法，该方法包括如下步骤:
[0079]步骤S210，针对一主站点，根据路径信息对该主站点中的各个链接进行聚类。
[0080]路径信息指该主站点下各链接的在页面中的位置信息。一般地，格式良好的页面的样式和布局是有规律的，具有相同或相似路径信息的链接指向同类的页面，或参数不同的同一页面，这些页面具有相同的报错特征。
[0081]具体地，该步骤中采用Xpath聚类方法对一主站点下的链接网页进行聚类，Xpath可用于遍历页面中的标签和属性，表示标签和属性在页面中的路径信息。Xpath方法将页面表示为DOM树结构，页面中的每个标签作为DOM树的一个叶节点，采用深度优先的遍历策略，提取DOM树中的每一个叶节点，通过比较其Xpath，将其添加到具有最大相似度的Xpath聚类中，在本发明中，即是遍历主站点源码中包含的全部URL链接，获取每个链接的路径信息，添加到两个Xpath节点相同的聚类中。
[0082]下面以一主站点的源码为例，说明Xpath聚类过程，假设页面的主站点源码为:
[0083]
【权利要求】
1.一种具有报错特征的网页识别方法，包括: 将多个网页进行聚类，得到一个或多个网页集合；判断所述网页集合中各网页内容是否都包含预设的否定词，将所述网页集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合；提取所述待验证报错网页集合的一个或多个属性特征，根据所述属性特征验证所述待验证报错网页集合得到报错网页集合；提取所述报错网页集合的相关信息并根据所述报错网页集合的相关信息识别报错网页。
2.根据权利要求1所述的方法，所述将所述网页集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合具体为:将所述网页集合中每个网页均包含同一否定词的网页集合作为待验证报错网页集合；所述方法还包括:将包含所述否定词的句子作为该待验证报错网页集合的报错句子。
3.根据权利要求1-2任一项所述的方法，所述对多个网页进行聚类具体为:针对一主站点，根据路径信息对该主站点中的各个链接网页进行聚类；所述报错网页集合的相关信息包括以下信息中的一项或多项:所述报错网页集合在主站点中的路径信息、主站点信息、报错句子以及其签名信息。
4.根据权利要求1-3任一项所述的方法，所述根据路径信息对该主站点中的各个链接网页进行聚类进一步包括:` 计算所述主站点中的各个链接网页的路径信息；对计算得到的路径信息进行去重处理，计算所述去重处理后获得的路径信息的签名；根据所述路径信息的签名进行聚类，将路径信息的签名相同的链接网页加入同一网页^ 由:? 口卞 O
5.根据权利要求1-4任一项所述的方法，所述待验证报错网页集合的属性特征包括以下特征的一项或多项的组合: 所述待验证报错网页集合中包含的不同网页数量；所述待验证报错网页集合中全部网页和/或单个网页所包含的句子的总数；所述待验证报错网页集合中全部网页中包含的不同句子的数量；所述待验证报错网页集合的报错句子的长度；同一主站点包含同一报错句子的不同网页集合数量。
6.根据权利要求1-5任一项所述的方法，所述根据所述属性特征验证所述待验证报错网页集合得到报错网页集合具体为:选取属性特征符合以下预设策略中一项或多项的待验证报错网页集合作为报错网页集合: 报错句子在待验证报错网页集合中所有的网页中被包含；待验证报错集合中包含的不同网页数量大于对应预设阈值的网页集合；待验证报错集合中全部网页和/或单个网页所包含的句子的总数小于对应预设阈值的网页集合；待验证报错集合中全部网页包含的不同句子的数量小于对应预设阈值的网页集合；所述报错句子长度小于对应预设阈值的网页集合；同一主站点包含同一报错句子的不同网页集合数量小于对应预设阈值。
7.根据权利要求1-6任一项所述的方法，所述根据所述报错网页集合识别报错网页具体包括: 获取待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子和该句子的签名；查询所述待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子是否与所述主站点中的任一报错网页集合的信息匹配，若匹配，则确定所述待识别网页为报错网页。
8.一种具有报错特征的网页识别装置，包括: 聚类模块，用于将多个网页进行聚类，得到一个或多个网页集合；判断模块，用于判断所述聚类模块得到的一个或多个网页集合中是否都包含预设的否定词，将集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合；报错集合生成模块，用于提取所述待验证报错网页集合的一个或多个属性特征，根据所述属性特征验证所述待验证报错网页集合得到报错网页集合；识别模块，用于提取所述报错网页集合的相关信息并根据所述报错网页集合的相关信息识别报错网页。
9.根据权利要求8所述的装置，所述判断模块具体用于:判断所述网页集合中各网页内容是否都包含同一预设的否定词，将所述网页集合中每个网页均包含同一否定词的网页集合作为待验证报错网页集合。
10.根据权利要求8-9任一项所述的装置，所述聚类模块具体用于:针对一主站点，根据路径信息对该主站点中的各个链接网页进行聚类；所述报错网页集合的相关信息包括以下信息中的一项或多项:所述报错网页集合在主站点中的路径信息、主站点信息、报错句子以及其签名信息。
【文档编号】G06F17/30GK103870590SQ201410122361
【公开日】2014年6月18日申请日期:2014年3月28日优先权日:2014年3月28日
【发明者】王智广申请人:北京奇虎科技有限公司, 奇智软件（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王智广
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司
我是此专利的发明人

上一篇：跨浏览器的文档显示系统及其方法
上一篇：一种河网模拟计算的设计方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。