导航网页的识别方法和装置与流程

文档序号:11133947阅读:287来源:国知局
导航网页的识别方法和装置与制造工艺

本发明涉及网页识别技术领域,具体而言,涉及一种导航网页的识别方法和装置。



背景技术:

在互联网领域中,为了达到应用的目的,很多时候需要对网页的类别进行识别。例如,在网络爬虫的应用中,一般是先检测网页的网址(URL)是否已经爬取过,如果检测出网页的网址(URL)已经爬取过,则不需要再次爬取该网页。但是在爬取过程中,对于一些网页来说,通过爬取该网页,可以获知其能够链接到的内容网页,因此,这些网页是爬虫应用中需要重复爬取的网页,称之为导航网页(或者导航列表页)。

目前,对于如何识别导航网页,通常采用的方法是对爬取到的网页内容进行分析,获取其包含的链接的个数或者内容长度比(链接中包含的内容长度与网页总的内容长度的比值)。其中,当链接的个数大于一个预设值,或者内容长度比大于一个预设值时,认为上述网页为导航网页。该方法对于一些网页是可以进行识别的,但是对于一些内容网页来说,其包含大量的网页链接或者包含的网页内容很少,通过上述方法进行检测极有可能将该内容网页判断为导航网页,也即,导致网页识别错误。

针对相关技术中识别导航网页的准确性差的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明的主要目的在于提供一种导航网页的识别方法和装置,以解决识别导航网页的准确性差的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种导航网页的识别方法。

本发明实施例的导航网页的识别方法包括:获取待识别网页的网页内容;对网页内容进行解析,得到解析结果;根据解析结果确定第一链接数和第二链接数,其中,第一链接数为待识别网页中包含的网页链接的数量,第二链接数为待识别网页中包含的特征链接的数量,特征链接为用于对待识别网页的链接数量进行拓展的网页链接;以及根据第一链接数和第二链接数判断待识别网页是否为导航网页。

进一步地,根据第一链接数和第二链接数判断待识别网页是否为导航网页包括:根据第一链接数获取第一目标值;根据第二链接数获取第二目标值;将第一目标值和第二目标值之和与第一预设值进行比较,得到第一比较结果;以及根据第一比较结果 判断待识别网页是否为导航网页,其中,如果第一比较结果为第一目标值和第二目标值之和大于第一预设值,则确定待识别网页为导航网页,如果第一比较结果为第一目标值和第二目标值之和不大于第一预设值,则确定待识别网页不是导航网页。

进一步地,在根据第一链接数和第二链接数判断待识别网页是否为导航网页之前,该方法还包括:根据解析结果确定待识别网页中包含的统一资源定位符;确定统一资源定位符的层级个数,根据第一链接数和第二链接数判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数以及层级个数判断待识别网页是否为导航网页。

进一步地,在根据第一链接数、第二链接数以及层级个数判断待识别网页是否为导航网页之前,该方法还包括:判断统一资源定位符中是否包含第一信息,得到第一判断结果,其中,第一信息为用于标识待识别网页的网页类别特征的信息,根据第一链接数、第二链接数以及层级个数判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数、层级个数以及第一判断结果判断待识别网页是否为导航网页。

进一步地,在根据第一链接数、第二链接数、层级个数以及第一判断结果判断待识别网页是否为导航网页之前,该方法还包括:根据解析结果判断待识别网页中是否包括第二信息,得到第二判断结果,其中,第二信息为用于标识待识别网页的网页内容特征的信息,根据第一链接数、第二链接数、层级个数以及第一判断结果判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数、层级个数、第一判断结果以及第二判断结果判断待识别网页是否为导航网页。

进一步地,根据第一链接数、第二链接数、层级个数、第一判断结果以及第二判断结果判断待识别网页是否为导航网页包括:根据第一链接数获取第一目标值;根据第二链接数获取第二目标值;根据层级个数获取第三目标值;根据第一判断结果获取第四目标值;根据第二判断结果获取第五目标值;将第一目标值、第二目标值、第三目标值、第四目标值以及第五目标值之和与第二预设值进行比较,得到第二比较结果;以及根据第二比较结果判断待识别网页是否为导航网页,其中,如果第二比较结果为第一目标值、第二目标值、第三目标值、第四目标值以及第五目标值之和大于第二预设值,则确定待识别网页为导航网页,如果第二比较结果为第一目标值、第二目标值、第三目标值、第四目标值以及第五目标值之和不大于第二预设值,则确定待识别网页不是导航网页。

进一步地,在根据第一链接数和第二链接数判断待识别网页是否为导航网页之前,该方法还包括:根据解析结果确定待识别网页中包含的统一资源定位符;判断统一资源定位符中是否包含第一信息,得到第一判断结果,其中,第一信息为用于标识待识别网页的网页类别特征的信息,根据第一链接数和第二链接数判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数以及第一判断结果判断待识别网页是否 为导航网页。

进一步地,在根据第一链接数和第二链接数判断待识别网页是否为导航网页之前,该方法还包括:根据解析结果判断待识别网页中是否包括第二信息,得到第二判断结果,其中,第二信息为用于标识待识别网页的网页内容特征的信息,根据第一链接数和第二链接数判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数以及第二判断结果判断待识别网页是否为导航网页。

为了实现上述目的,根据本发明的另一方面,提供了一种导航网页的识别装置。

本发明实施例的导航网页的识别装置包括:获取单元,用于获取待识别网页的网页内容;解析单元,用于对网页内容进行解析,得到解析结果;确定单元,用于根据解析结果确定第一链接数和第二链接数,其中,第一链接数为待识别网页中包含的网页链接的数量,第二链接数为待识别网页中包含的特征链接的数量,特征链接为用于对待识别网页的链接数量进行拓展的网页链接;以及判断单元,用于根据第一链接数和第二链接数判断待识别网页是否为导航网页。

进一步地,判断单元包括:第一获取模块,用于根据第一链接数获取第一目标值;第二获取模块,用于根据第二链接数获取第二目标值;比较模块,用于将第一目标值和第二目标值之和与第一预设值进行比较,得到第一比较结果;以及判断模块,用于根据第一比较结果判断待识别网页是否为导航网页,其中,如果第一比较结果为第一目标值和第二目标值之和大于第一预设值,则确定待识别网页为导航网页,如果第一比较结果为第一目标值和第二目标值之和不大于第一预设值,则确定待识别网页不是导航网页。

通过本发明,采用包括如下步骤的方法:获取待识别网页的网页内容;对网页内容进行解析,得到解析结果;根据解析结果确定第一链接数和第二链接数,其中,第一链接数为待识别网页中包含的网页链接的数量,第二链接数为待识别网页中包含的特征链接的数量,特征链接为用于对待识别网页的链接数量进行拓展的网页链接;以及根据第一链接数和第二链接数判断待识别网页是否为导航网页,解决了识别导航网页的准确性差的问题,进而通过根据第一链接数和第二链接数判断待识别网页是否为导航网页,到达了提高导航网页识别的准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明第一实施例的导航网页的识别方法的流程图;

图2是根据本发明实施例第二实施例的导航网页的识别方法的流程图;

图3是根据本发明实施例的导航网页的识别方法中的特征链接的示意图;

图4是根据本发明实施例的导航网页的识别方法中的第二信息的示意图;以及

图5是根据本发明实施例的导航网页的识别装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面根据本发明的实施例,提供了一种导航网页的识别方法。

图1是根据本发明第一实施例的导航网页的识别方法的流程图,如图1所示,该方法包括如下的步骤:

步骤S102,获取待识别网页的网页内容。

在该步骤中,待识别网页为用于识别其是否为导航网页的网页。对于待识别网页而言,其识别结果可能为导航网页,或者为其他的网页,比如,内容网页。该待识别网页的网页内容可以通过网络爬虫爬取得到。在网络爬虫的应用中,通常网络爬虫会一次爬取大量的网页,为了鉴别上述网页是否需要后续多次爬取,需要识别上述网页是否为导航网页,因此,可以将上述的大量的网页均作为待识别网页,一一进行识别。

步骤S104,对网页内容进行解析,得到解析结果。

该步骤中,对网页内容的解析可以通过HTML解析器(即Html Agility Pack)实现。HTML解析器为超文本标记语言解析器,用于分析超文本标记语言网页的工具,可以获取网页的详细信息,包括链接、源码的提取分析等。

步骤S106,根据解析结果确定第一链接数和第二链接数,其中,第一链接数为待识别网页中包含的网页链接的数量,第二链接数为待识别网页中包含的特征链接的数量,特征链接为用于对待识别网页的链接数量进行拓展的网页链接。

在该步骤中,第一链接数是待识别网页包含的链接的总个数。对于导航网页来说,通常会包括大量的网页链接。因此,待识别网页中包括的链接的数量可以作为研究待识别网页是否为导航网页的一个重要的参考指标。但是,待识别网页包含的链接数量又并非是验证待识别网页是否为导航网页的充分必要条件,也即,待识别网页存在大量的链接时也不一定是导航网页。例如,对于一些内容网页来说,网页内容中也可能存在大量的网页链接。因此,在根据本实施例的导航网页的识别方法中,将特征链接的数量作为研究待识别网页是否为导航网页的另外一个参考指标。

上述的特征链接为用于对待识别网页的链接数量进行拓展的网页链接。在导航网页中,由于网页的篇幅限制,或者出于对网页的特殊布局,往往会将一些网页链接隐藏起来,通过点击特征链接,可以将隐藏的链接显示出来。例如,在新闻导航网页中,对于每种类型的新闻栏目均展示若干(并非全部)的新闻链接,通过点击每个栏目中名称为“更多”的链接,可以展示出其他的新闻链接。这里的“更多”链接即为本实施例中的特征链接。本发明不对特征链接的具体链接名称进行限定。例如,在另外一些导航网页中,会将特征链接命名为“展开”、“热榜”等。

需要说明的是,根据该实施例的导航网页的识别方法由于考虑了特征链接这一因素,因此,在很大程度上提升了该方法的可拓展性。伴随识别方法的执行,可以随时加入对新的特征链接的统计。比如,网页分析人员发现在某些网页上存在新的用于对网页的链接数量进行拓展的网页链接,则可以将其作为特征链接,在后续的导航网页识别过程中将其作为统计第二链接数的基础。

步骤S108,根据第一链接数和第二链接数判断待识别网页是否为导航网页。

以上述获取的第一链接数和第二链接数作为考量指标,可以对待识别网页是否为导航网页进行判断。该实施例由于在考虑第一链接数的基础上,加入了第二链接数,使得判断结果更加接近于真实情况,也即,提高了导航网页识别的准确性。

根据该实施例的导航网页的识别方法,由于包括:获取待识别网页的网页内容;对网页内容进行解析,得到解析结果;根据解析结果确定第一链接数和第二链接数,其中,第一链接数为待识别网页中包含的网页链接的数量,第二链接数为待识别网页 中包含的特征链接的数量,特征链接为用于对待识别网页的链接数量进行拓展的网页链接;以及根据第一链接数和第二链接数判断待识别网页是否为导航网页,解决了识别导航网页的准确性差的问题,进而通过根据第一链接数和第二链接数判断待识别网页是否为导航网页,到达了提高导航网页识别的准确性的效果。

优选地,根据第一链接数和第二链接数判断待识别网页是否为导航网页可以包括如下的步骤:根据第一链接数获取第一目标值;根据第二链接数获取第二目标值;将第一目标值和第二目标值之和与第一预设值进行比较,得到第一比较结果;以及根据第一比较结果判断待识别网页是否为导航网页,其中,如果第一比较结果为第一目标值和第二目标值之和大于第一预设值,则确定待识别网页为导航网页,如果第一比较结果为第一目标值和第二目标值之和不大于第一预设值,则确定待识别网页不是导航网页。

在上述实施例中,将待识别网页的第一链接数和第二链接数转换为同一水平下的数值,将该数值与第一预设值进行比较,从而根据比较结果对待识别网页是否为导航页进行判断。第一预设值为预先设定的一个参考值,可以是对大量导航网页中第一目标值和第二目标值之和进行统计的结果。

上述用于统计的大量导航网页的特征决定了参考值(第一预设值的特征),使得参考值可以是具有普遍适用性的一个数值,或者对于某一类型的网页具有适用性。例如,对大量新闻导航网页的第一目标值和第二目标值之和进行统计,获取第一预设值。第一预设值针对不同的类型的网页为不同的常量。

例如,可以预先设定算法,当待识别网页中的网页链接的数量超过第一预设链接数量时,第一目标值为第一预设目标值;当待识别网页中包含特征链接时,第二目标值为特征链接的个数与第二预设目标值的乘积。比如,当待识别网页中的网页链接的数量超过25个时,则第一预设目标值为20;特征链接的个数为5个,则第二目标值为5与10(第二预设目标值)的乘积。

再例如,假设第一预设值为60,待识别网页中的网页链接的数量为30,特征链接的个数为2个,则按照上述示例中的算法,第一目标值为20,第二目标值为20,则第一目标值与第二目标值之和未大于第一预设值为60,则可以认为该待识别网页不是导航页。

上述例子可以理解为采用了一种打分的机制。例如,当待识别网页中的网页链接的数量超过25个时,则加20分;如果存在“更多”链接时,则每存在一个“更多”链接,则在原分数的基础上增加10分。当总分数超过60分(第一预设值)时,确定待识别网页为导航网页。

需要说明的是,本发明实施例不对计算第一目标值和第二目标值的算法作具体的限定。例如,还可以采用如下的计算方式获取第一目标值和第二目标值:当待识别网页中的网页链接的数量大于第一预设链接数量小于或者等于第二预设链接数量时,第一目标值为第一预设目标值,当待识别网页中的网页链接的数量大于第二预设链接数量时,第一目标值为第三预设目标值;当待识别网页中包含的特征连接超过第三预设链接数量时,第二目标值为特征链接的个数与第二预设目标值的乘积。

优选地,在根据第一链接数和第二链接数判断待识别网页是否为导航网页之前,该方法还可以包括:根据解析结果确定待识别网页中包含的统一资源定位符;确定统一资源定位符的层级个数,根据第一链接数和第二链接数判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数以及层级个数判断待识别网页是否为导航网页。

对于一个网页来说,通常其统一资源定位符(URL)包含的层级个数越多,其为导航网页的概率就越低。例如,第一网页(内容网页)的URL为http://www.gov.cn/xinwen/2015-02/01/content_2812896.htm,第二网页(导航网页)的URL为http://www.gov.cn/xinwen,第一网页的URL层级个数(为4)多于第二网页的URL层级个数(为1)。因此,根据该实施例的导航网页的识别方法,将URL的层级个数作为判断待识别网页是否为导航网页的一个指标。由于考虑到URL的层级个数这一因素,使得对于导航网页的识别的准确率更高。

例如,根据第一链接数、第二链接数以及层级个数判断待识别网页是否为导航网页可以通过如下的步骤实现:首先,假设预设算法如下:当第一链接数超过20个时,对应第一链接数的第一目标值为20,否则为0;对应特征链接的第二目标值为特征链接的个数与10的乘积;对应层级个数的第三目标值为层级个数与-5的乘积;以及,用于与上述3个目标值之和进行比较的预设值为60。然后,将确定的待识别网页的第一链接数、第二链接数以及层级个数代入到上述预设算法中。假设第一链接数为10,第二链接数为2,层级个数为4,则上述3个目标值之和为0,小于60。最后,根据比较结果确定该待识别网页不是导航网页。

需要说明的是,本实施例不对具体的预设算法进行限定。根据要求识别的精度的不同,可以分别设定不同的预设算法。

在上述实施例中,在根据第一链接数、第二链接数以及层级个数判断待识别网页是否为导航网页之前,该方法还可以包括:判断统一资源定位符中是否包含第一信息,得到第一判断结果,其中,第一信息为用于标识待识别网页的网页类别特征的信息,根据第一链接数、第二链接数以及层级个数判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数、层级个数以及第一判断结果判断待识别网页是否为导航 网页。

一个网页的URL中往往包含诸多信息,其中,在某些网页的URL中包含标识待识别网页的网页类别特征的信息,即上述的第一信息。例如,URL:http://www.gov.cn/xinwen/2015-02/01/content_2812896.htm,该URL中包括关键字“content”,表明该网页有可能是内容网页。这里的“content”可以用于标识该网页为内容网页,但是URL中具有“content”关键字的网页却不一定是内容网页,仅是代表其为内容网页的可能性较大。因此,在根据该实施例的导航网页的识别方法中,将URL中是否包含第一信息作为进行导航网页识别的指标,该指标的引入可以增加导航网页识别的准确性。

例如,根据第一链接数、第二链接数、层级个数以及第一判断结果判断待识别网页是否为导航网页可以通过如下的步骤实现:首先,假设预设算法如下:当第一链接数超过20个时,对应第一链接数的第一目标值为20,否则为0;对应特征链接的第二目标值为特征链接的个数与10的乘积;对应层级个数的第三目标值为层级个数与-5的乘积;当判断结果为包含“content”时,与该结果对应的第四目标值为-1与10的乘积,当判断结果为不包含“content”时,与该结果对应的第四目标值为1与10的乘积;以及,用于与上述4个目标值之和进行比较的预设值为30。然后,将确定的待识别网页的第一链接数、第二链接数、层级个数以及第一判断结果代入到上述预设算法中。假设第一链接数为25,第二链接数为2,层级个数为2,不包含“content”,则上述4个目标值之和为40,大于30。最后,根据比较结果确定该待识别网页为导航网页。

需要说明的是,本发明实施例不对第一信息作具体的限定。例如,第一信息还可以包括:item、page、list、nav等。其中,item、page等可以作为标识内容网页的信息(当一个网页的URL中包含这些信息时,该网页不是导航网页的概率较大),list、nav等可以作为标识导航网页的信息(当一个网页的URL中包含这些信息时,该网页为导航网页的概率较大)。

在上述实施例中,在根据第一链接数、第二链接数、层级个数以及第一判断结果判断待识别网页是否为导航网页之前,该方法还包括:根据解析结果判断待识别网页中是否包括第二信息,得到第二判断结果,其中,第二信息为用于标识待识别网页的网页内容特征的信息,根据第一链接数、第二链接数、层级个数以及第一判断结果判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数、层级个数、第一判断结果以及第二判断结果判断待识别网页是否为导航网页。

在该实施例中,第二信息为用于标识待识别网页的网页内容特征的信息。例如,在一些内容网页中往往包含“字体”、“分享”、“来源”、“编辑”等关键字,这些关键字标识了该网页可以改变字体、用于分享、来源信息等内容特征。根据本实施例的导航网页的识别方法,将网页中是否包含第二信息作为判断导航网页的一个指标,增加 了导航网页识别的准确性。

在上述实施例中,根据第一链接数、第二链接数、层级个数、第一判断结果以及第二判断结果判断待识别网页是否为导航网页还可以包括:根据第一链接数获取第一目标值;根据第二链接数获取第二目标值;根据层级个数获取第三目标值;根据第一判断结果获取第四目标值;根据第二判断结果获取第五目标值;将第一目标值、第二目标值、第三目标值、第四目标值以及第五目标值之和与第二预设值进行比较,得到第二比较结果;以及根据第二比较结果判断待识别网页是否为导航网页,其中,如果第二比较结果为第一目标值、第二目标值、第三目标值、第四目标值以及第五目标值之和大于第二预设值,则确定待识别网页为导航网页,如果第二比较结果为第一目标值、第二目标值、第三目标值、第四目标值以及第五目标值之和不大于第二预设值,则确定待识别网页不是导航网页。

例如,根据第一链接数、第二链接数、层级个数、第一判断结果以及第二判断结果判断待识别网页是否为导航网页可以通过如下的步骤实现:首先,假设预设算法如下:当第一链接数超过20个时,对应第一链接数的第一目标值为20,否则为0;对应特征链接的第二目标值为特征链接的个数与10的乘积;对应层级个数的第三目标值为层级个数与-5的乘积;当第一判断结果为包含“content”时,与该结果对应的第四目标值为-1与10的乘积,当第一判断结果为不包含“content”时,与该结果对应的第四目标值为1与10的乘积;当第二判断结果为包含“来源”时,与该结果对应的第五目标值为-1与5的乘积,当第二判断结果为不包含“来源”时,与该结果对应的第五目标值为1与5的乘积;以及,用于与上述5个目标值之和进行比较的预设值为30。假设第一链接数为25,第二链接数为2,层级个数为2,URL中不包含“content”,并且网页内容中不包含“来源”。则上述5个目标值之和为45,大于30。最后,根据比较结果确定该待识别网页为导航网页。

需要说明的是,本发明不对计算第一目标值至第五目标值的算法进行具体的限定,同时,也可以根据实际的识别情况对第一信息、第二信息以及特征链接进行拓展,以进一步提高导航网页识别的准确度。

优选地,在根据第一链接数和第二链接数判断待识别网页是否为导航网页之前,该方法还包括:根据解析结果确定待识别网页中包含的统一资源定位符;判断统一资源定位符中是否包含第一信息,得到第一判断结果,其中,第一信息为用于标识待识别网页的网页类别特征的信息,根据第一链接数和第二链接数判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数以及第一判断结果判断待识别网页是否为导航网页。

如前所述,URL中包含的第一信息(网页类别特征的信息)可以作为导航网页识 别的一个重要的指标。为了提升网页识别的执行效率,可以在进行导航网页识别时,综合考虑第一链接数、第二链接数以及第一判断结果三个指标。该实施例,在保证导航网页识别的准确性的前提下,提升了导航网页识别的准确性。

优选地,在根据第一链接数和第二链接数判断待识别网页是否为导航网页之前,该方法还包括:根据解析结果判断待识别网页中是否包括第二信息,得到第二判断结果,其中,第二信息为用于标识待识别网页的网页内容特征的信息,根据第一链接数和第二链接数判断待识别网页是否为导航网页包括:根据第一链接数、第二链接数以及第二判断结果判断待识别网页是否为导航网页。

如前所述,网页内容中包含的第二信息(网页内容特征的信息)是导航网页识别的一个重要的指标。为了提升网页识别的执行效率,可以在进行导航网页识别时,综合考虑第一链接数、第二链接数以及第二判断结果三个指标。该实施例,在保证导航网页识别的准确性的前提下,提升了导航网页识别的准确性。

需要说明的是,在根据本发明实施例的导航网页的识别方法中,主要涉及以下几个指标:第一链接数、第二链接数、层级个数、第一判断结果(网页类别特征的信息)、第二判断结果(网页内容特征的信息)。其中,根据网页识别的不同的需求,可以将第一链接数、第二链接数与其他任意指标组合,以对导航网页进行识别。在对不同类型的网页进行识别时,可以对各指标指定不同的优先级别。例如,在对新闻导航网页进行识别时,由于新闻导航网页的URL中一般不会包含“content”,而在新闻的内容页的URL中通常会出现“content”,因此,在对新闻导航网页进行识别时,可以优先考虑第一链接数、第二链接数和第一判断结果(网页类别特征的信息)三个指标。在达到预设的准确度要求的前提下,考虑的指标越少,导航网页识别的准确性将越高。如果想进一步地提升识别的准确度,可以进一步增加新的指标(例如层级个数)。

另外,除上述具体介绍的实施例之外,根据本发明的导航网页的识别方法还可以包括以下两种实施例:1、根据第一链接数、第二链接数、第一判断结果以及第二判断结果判断待识别网页是否为导航网页;2、根据第一链接数、第二链接数、层级个数以及第二判断结果判断待识别网页是否为导航网页。其中包括的具体的指标上述内容中已进行了介绍,这里不予赘述。

图2是根据本发明实施例第二实施例的导航网页的识别方法的流程图,该实施例可以作为图1所示实施例的一种优选实施方式。如图2所示,该方法包括如下的步骤:

步骤S202,获取待识别网页的网页内容。

步骤S204,通过HTML解析器对该网页内容进行解析。

步骤S206,根据解析结果获取链接计算模块、URL计算模块、内容计算模块的计 算指标。

计算指标为用于输入到链接计算模块、内容计算模块、URL计算模块中的计算参数,各个计算模块中事先存储了用于计算的算法,通过向各个模块中添加相应的计算指标,可以分别获取第一计算值(对应链接计算模块)、第二计算值(对应内容计算模块)和第三计算值(对应URL计算模块)。

用户通过添加计算指标,能够提高导航网页识别的准备性。下面是用于链接计算模块、内容计算模块或者URL计算模块的配置文件的格式:

<ModuleName>//注释,这里是模块名称,例如链接模块LinkModule

<Item>//注释,这里是单条计算指标,例如链接的总数

<Name>名称</Name>

<Type>类型</Type>

<Value>基准值</Value>

<Score>分数</Score>

<Item>

</ModuleName>

按照上述配置文件格式可以对判断指标进行扩展,三个计算模块根据配置文件计算相应数值。

步骤S208,根据链接计算模块的计算指标,获取第一计算值。

链接计算模块涉及的计算指标可以包括:待识别网页的链接总数和特征链接。图3是根据本发明实施例的导航网页的识别方法中的特征链接的示意图。如图3所示,“更多”链接1即为上述的特征链接。由于图1所示实施例中已对其进行了说明,这里不再赘述。

适用于链接计算模块的配置文件包含的程序如下:

<links>

<link>

<Name>Count</Name>

<Type>GreaterThan</Type>

<Value>25</Value>

<Score>20</Score>

</link>

<link>

<Name>更多</Name>

<Type>Exist</Type>

<Value>1</Value>

<Score>10</Score>

</link>

<links>

上述配置文件表示,如果网页中链接大于25个,则第一计算值增加20,如果存在“更多”链接,则每存在一个“更多”链接,第一计算值增加10。

需要说明的是,URL计算模块和内容计算模块的配置文件与链接计算模块的配置文件相同,仅是配置文件的配置(其中涉及的计算指标)不同。

步骤S210,根据URL计算模块的计算指标,获取第二计算值。

URL计算模块包括的计算指标可以包括:URL的层级个数和URL中是否包括第一信息。这里的第一信息同图1所示实施例中的第一信息,这里不再赘述。

步骤S212,根据内容计算模块的计算指标,获取第三计算值。

内容计算模块包括的计算指标可以包括:待识别网页中是否包括第二信息,这里的第二信息同图1所示实施例中的第二信息,图4是根据本发明实施例的导航网页的识别方法中的第二信息的示意图。如图4所示,关键字“字体”3、关键字“分享”4和关键字“来源”5均为上述第二信息,可以用于标识待识别网页的网页内容特征。图1所示实施例已对第二信息进行了说明,这里不再赘述。

通过增加对第二信息的判断可以提高导航网页识别的准确性,并且可以有很好的扩展性,可以随时增加或者修改配置。

需要说明的是,上述的步骤S208至步骤S212不限定具体的执行顺序。

步骤S214,获取第一计算值、第二计算值和第三计算值之和。

步骤S216,检测第一计算值、第二计算值和第三计算值之和是否大于预设值。

步骤S218,如果检测出第一计算值、第二计算值和第三计算值之和大于预设值, 则确定该待识别网页为导航网页。

该步骤中的预设值可以作为一个判断的标准值,当第一计算值、第二计算值和第三计算值之和超过预设值时,确定该待识别网页为导航网页,当第一计算值、第二计算值和第三计算值之和没有超过预设值时,确定该待识别网页为内容网页。

根据该实施例的导航网页的识别方法,由于包括上述的步骤S202至步骤S218,解决了识别导航网页的准确性差的问题,进而通过链接计算模块、URL计算模块和内容计算模块分别计算第一计算值、第二计算值以及第三计算值,进而根据三个计算值之和与预设值进行比较,用以判断待识别网页是否为导航网页,到达了提高导航网页识别的准确性的效果。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

下面根据本发明的实施例,提供了一种导航网页的识别装置。

需要说明的是,根据本发明实施例的导航网页的识别装置可以执行根据本发明实施例的导航网页的识别方法,根据本发明实施例的导航网页的识别方法也可以通过根据本发明实施例的导航网页的识别装置来执行。

图5是根据本发明实施例的导航网页的识别装置的示意图。如图5所示,该装置包括:获取单元10、解析单元20、确定单元30和判断单元40。

获取单元10,用于获取待识别网页的网页内容。

解析单元20,用于对网页内容进行解析,得到解析结果。

确定单元30,用于根据解析结果确定第一链接数和第二链接数,其中,第一链接数为待识别网页中包含的网页链接的数量,第二链接数为待识别网页中包含的特征链接的数量,特征链接为用于对待识别网页的链接数量进行拓展的网页链接。

判断单元40,用于根据第一链接数和第二链接数判断待识别网页是否为导航网页。

根据该实施例的导航网页的识别装置,由于包括:获取单元10,用于获取待识别网页的网页内容;解析单元20,用于对网页内容进行解析,得到解析结果;确定单元30,用于根据解析结果确定第一链接数和第二链接数,其中,第一链接数为待识别网页中包含的网页链接的数量,第二链接数为待识别网页中包含的特征链接的数量,特征链接为用于对待识别网页的链接数量进行拓展的网页链接;以及判断单元40,用于 根据第一链接数和第二链接数判断待识别网页是否为导航网页,解决了识别导航网页的准确性差的问题,进而通过判断单元40根据第一链接数和第二链接数判断待识别网页是否为导航网页,到达了提高导航网页识别的准确性的效果。

优选地,判断单元40包括:第一获取模块,用于根据第一链接数获取第一目标值;第二获取模块,用于根据第二链接数获取第二目标值;比较模块,用于将第一目标值和第二目标值之和与第一预设值进行比较,得到第一比较结果;以及判断模块,用于根据第一比较结果判断待识别网页是否为导航网页,其中,如果第一比较结果为第一目标值和第二目标值之和大于第一预设值,则确定待识别网页为导航网页,如果第一比较结果为第一目标值和第二目标值之和不大于第一预设值,则确定待识别网页不是导航网页。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1