一种网页中的块重要性计算方法及系统的制作方法

文档序号:6499381阅读:118来源:国知局
一种网页中的块重要性计算方法及系统的制作方法【专利摘要】本发明公开了一种网页中的块重要性计算方法,包括以下步骤:提供第一网页,第一网页包括多个区域块;对第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对多个特定区域和多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将多个区域块进行分类;根据每个特定区域的重要性等级得到与之对应的分类结果中多个区域块的重要性等级。根据本发明的实施例,具有块重要性等级计算精度高、准确的优点。本发明还提出了一种网页中块重要性计算系统。【专利说明】一种网页中的块重要性计算方法及系统【
技术领域
】[0001]本发明涉及互联网【
技术领域
】,特别涉及一种网页中的块重要性计算方法及系统。【
背景技术
】[0002]互联网网页,由阅读者视觉或者网页设计者的表达需要,可将网页分成若干区域,这些区域对表达页面主要内容的作用不同,阅读者的视觉关注程度也不同。比如,网页上部,通常是网站内部通用的,起引导用户了解网站整体结构的作用,对表达网页主要内容的贡献较小;又比如,网页中央部门,一般是网页表达主要内容之所在,也是阅读者主要阅读的区域。因此,搜索引擎检索,有必要计算出网页各个区域对表达网页主要内容的贡献程度,即块的重要性值,对指导网页分块,检索匹配具有重要作用。[0003]通常认为:表达页面主要内容的区域,其重要性最高;跟主要内容无关的区域,其重要性最低;表达与主要内容相关的内容的区域,其重要性居中。[0004]RuihuaSong等人发明了一种计算块重要性的方法。该方法假设页面中相同主题的区域可以组合成独立的块。计算流程是:先对网页分块,然后将各块的特征值输入到计算重要性的算法中,进而得到各块的重要性值。训练目标是使算法的结果和用户标注的块重要性值之间的差值平方最小。该方法主要使用单个页面的块的空间位置特征和内容特征。空间位置特征是指该块在整个网页中的绝对位置或者相对于整个页面的相对位置,内容特征是指单个页面块中包含的图片,链接,文本,用户评论提交区域等页面内容。[0005]Shian-Hua等人提出了基于table标签分类的新闻文章块的识别方法。该方法首先将table标签当成块的切分方式,得到块;然后计算每个块的特征,确认这些特征在站点内所有其他页面的情况,计算出每个特征的信息熵;以块内每个特征信息熵的平均值为块的信息熵,当块的信息熵小于阈值时,则判定该块是文章块,否则不是文章块。该方法计算多页面信息的页面,必须来自于同一个站点。[0006]LanYi等人认为页面copyright,广告等区域,与表达页面主要内容无关,是网页噪声。进而提出了基于同一个站点页面噪声区域含有相近内容和展现形式的假设,提出了一种消除网页噪声的方法。该方法同样假设同一个站点的页面来自于同一类网页模板。基于这种认识,该方法定义了一种称之为SiteStyleTree(SST)的数据结构,SST计算站点内页面相近的展现形式和内容。对SST上的每个节点,计算其子节点数目和在所有页面上的分布情况。如果节点的子节点数目越多,类别分布情况越多,该节点的得分越大。当得分小于阈值时,该节点被判为噪声节点,反之为有意义节点。[0007]综上,现有技术存在以下缺点:[0008]1:只用到了块在页面中的绝对位置关系,没有利用到块跟页面特定区域的关系。[0009]2:大多只使用了单一页面的信息。[0010]3:使用的多页面信息,假设多页面信息必须来自于同一站点多页面信息也不包含跟特定区域的关系信息。[0011]4:应用范围较窄,解决问题有限。【
发明内容】[0012]本发明的目的旨在至少解决上述技术缺陷之一。[0013]为此,本发明的目的在于提出一种网页中的块重要性计算方法,该方法具有块重要性等级计算精度高、准确的优点。[0014]本发明的另一目的在于提出一种网页中的块重要性计算系统。[0015]为达到上述目的,本发明第一方面的实施例公开了一种网页中的块重要性计算方法,包括以下步骤:提供第一网页,所述第一网页包括多个区域块;对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对所述多个特定区域和所述多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;以及根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级。[0016]根据本发明实施例的网页中的块重要性计算方法,对网页进行解析得到多个不同重要性等级的特定区域,并通过网页中多个区域块和特定区域之间的语义关系对多个区域块进行分类,并根据分类结果对应的特定区域的重要性得到网页中每个区域块的重要性,本发明的实施例通过特定区域和区域块之间的内容关系等得到区域块的重要性,能够显著地提高区域块分类的召回率和准确率,从而具有块重要性计算精度高、准确的优点。[0017]另外,根据本发明上述实施例的网页中的块重要性计算方法还可以具有如下附加的技术特征:[0018]在一些示例中,还包括:根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正。[0019]在一些示例中,所述根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正的步骤进一步包括:获取与第一网页相关的同簇网页;分别获取所述同簇网页中每个网页的多个特定区域和多个分类结果;计算所述同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息;计算所有的所述分布信息的统计信息;根据所述分布信息的统计信息和所述关系信息对所述第一网页中对应的特定区域和每个分类结果中的区域块进行修正;以及根据修正后的所述第一网页的每个特定区域的重要性得到与之对应的分类结果中所述多个区域块的重要性。[0020]在一些示例中,其中,所述同簇网页为与所述第一网页具有相似的DOM树结构的网页。[0021]在一些示例中,所述分部信息包括:所在坐标、所占面积以及词语分布信息。[0022]在一些示例中,所述多个特定区域包括:网页路径引导区域、网页内容的标题区域和网页版权声明区域。[0023]在一些示例中,所述网页版权声明区域的重要性等级低于所述网页路径引导区域,所述网页路径引导区域的重要性等级低于所述网页内容的标题区域。[0024]在一些示例中,在得到所述多个区域块的重要性等级之后,还包括:根据所述多个区域块的重要性等级对所述多个区域块中的内容进行评判。[0025]在一些示例中,还包括:对重要性等级最高的区域块进行内容监测。[0026]本发明第二方面的实施例公开了一种网页中的块重要性计算系统,包括:获取模块,用于获取第一网页,所述第一网页包括多个区域块;解析模块,用于对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分析模块,用于对所述多个特定区域和所述多个区域块进行语义分析;分类模块,用于根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;以及计算模块,用于根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级。[0027]根据本发明实施例的网页中的块重要性计算系统,对网页进行解析得到多个不同重要性等级的特定区域,并通过网页中多个区域块和特定区域之间的语义关系对多个区域块进行分类,并根据分类结果对应的特定区域的重要性得到网页中每个区域块的重要性,本发明的实施例通过特定区域和区域块之间的内容关系等得到区域块的重要性,能够显著地提高区域块分类的召回率和准确率,从而具有块重要性计算精度高、准确的优点[0028]另外,根据本发明上述实施例的网页中的块重要性计算系统还可以具有如下附加的技术特征:[0029]在一些示例中,所述获取模块还用于:获取与所述第一网页相关的同簇网页。[0030]在一些示例中,还包括:修正模块,用于根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正。[0031]在一些示例中,所述修正模块用于在:获取所述同簇网页中每个网页的多个特定区域和多个分类结果之后,计算所述同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息,且计算所有的所述分布信息的统计信息,并根据所述分布信息的统计信息和所述关系信息对所述第一网页中对应的特定区域和每个分类结果中的区域块进行修正。[0032]在一些示例中,其中,所述同簇网页为与所述第一网页具有相似的DOM树结构的网页。[0033]在一些示例中,所述分部信息包括:所在坐标、所占面积以及词语分布信息。[0034]在一些示例中,所述多个特定区域包括:网页路径引导区域、网页内容的标题区域和网页版权声明区域。[0035]在一些示例中,所述网页版权声明区域的重要性等级低于所述网页路径引导区域,所述网页路径引导区域的重要性等级低于所述网页内容的标题区域。[0036]在一些示例中,还包括:评判模块,用于根据所述多个区域块的重要性等级对所述多个区域块中的内容进行评判。[0037]在一些示例中,还包括:监测模块,用于对重要性等级最高的区域块进行内容监测。[0038]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。【专利附图】【附图说明】[0039]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:[0040]图1是根据本发明一个实施例的网页中的块重要性计算方法的流程图;[0041]图2A-2C是根据本发明一个实施例的网页中的块重要性计算方法的多个特定区域的不意图;[0042]图3是根据本发明另一个实施例的网页中的块重要性计算方法的流程图;[0043]图4A和图4B是根据本发明一个实施例的网页中的块重要性计算方法的修正前的特定区域块的示意图;[0044]图5A和5B是根据本发明一个实施例的网页中的块重要性计算方法的修正后的区域块的示意图;以及[0045]图6是根据本发明一个实施例的网页中的块重要性计算系统的结构图。【具体实施方式】[0046]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。[0047]在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。[0048]在本发明的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。[0049]以下结合附图描述根据本发明实施例的网页中的块重要性计算方法及系统。[0050]图1是根据本发明一个实施例的网页中的块重要性计算方法的流程图。如图1所示,根据本发明一个实施例的网页中的块重要性计算方法,包括如下步骤:[0051]步骤SlOl:提供第一网页,所述第一网页包括多个区域块,其中,第一网页指当前待计算块重要性的网页,即目前大部分普通的网页均可。[0052]在本发明的一个实施例中,第一网页可为任意网站中的一个网页,区域块指网页中的最小粒度块,最小粒度块为独立不可再分的块,例如某一个标题或者网页中的某一个链接等,且每个最小粒度块内的内容的重要性是一致的。本发明的实施例中对网页中块重要性进行计算,指对网页中的最小粒度块的重要性进行预测。[0053]步骤S102:对第一网页进行解析以得到具有不同重要性等级的多个特定区域。在本发明的一个实施例中,多个特定区域包括但不限于网页路径引导区域、网页内容的标题区域和网页版权声明区域。进一步地,网页版权声明区域的重要性等级低于所述网页路径引导区域,所述网页路径引导区域的重要性等级低于所述网页内容的标题区域。[0054]其中,特定区域指表示特定明确含义的区域。这些特定区域几乎在所有页面中都会存在,含义和位置也相对固定。例如,表示当前页面到网站首页路径关系的区域(一个特定区域),可称之为mypos区域;网页标题所在的区域(一个特定区域),可称之为realtitle区域;表示页面版权、声明隐私的区域(一个特定区域),可称之为copyright区域。在本发明的示例中,可通过网页解析方法识别出网页的特定区域。例如,以网页:http://finance.sina.com.cn/consume/puguangtai/20121220/031014059223.shtml为例,可识别出如图2A、2B和2C所示的三个不同重要性等级的特定区域,其中,图2A示出了mypos区域、图2B不出了realtitle区域、图2C不出了copyright区域。[0055]步骤S103:分别对多个特定区域和多个区域块进行语义分析。[0056]具体地,对多个特定区域和多个区域块进行语义分析是为了分析出多个特定区域和多个区域块所表述的内容的含义,例如,再次以网页:http://finance.sina.com.cn/consume/puguangtai/20121220/031014059223.shtml为例。在对多个特定区域进行语义识别后,如图2A、2B和2C所示,分别描述了页面的特定区域:mypos、realtitle和copyright区域。对三者进行语义分析,mypos区域主要语义为:“肯德基麦当劳原料鸡速成门新浪财经生活正文”,realtitle区域主要语义为:“肯德基抗生素隐瞒”,copyright区域主要语义为:“新浪公司版权”。此外,多个区域块进行语义分析与上述对多个特定区域进行语义识别的方法类似,此处不做描述。[0057]步骤S104:根据每个区域块和每个特定区域之间的语义相似度将多个区域块进行分类。[0058]具体地,在得到第一网页中多个区域块和多个特定区域的语义后,如果多个区域块所表示的主要语义和realtitle区域所表示的主要语义的相似度最高,即语义最为接近,则可认为该区域块表达了页面主要内容,是最重要区域,即块重要性最高;如果和mypos区域所表示的语义的相似度最高,则可认为该区域块表达的内容与页面主要内容相关,对页面主要内容有信息补充作用,但不是该页面所表达的最具体内容,是次要区域,块重要性低于与realtitle区域所表示的主要语义的相似度最高的区域块的重要性;如果和copyright区域所表示的语义的相似度最高,可认为该区域块表达的内容与页面主要内容没有直接关系,是无关区域,块重要性低于与mypos区域所表示的语义的相似度最高的区域块的重要性。有上述分析可知,可以将多个区域块进行分类,例如,对于网页:[0059]http://finance,sina.com.cn/consume/puguangtai/20121220/031014059223.shtml而言,多个区域块可分为三类,第一类由与realtitle区域所表示的主要语义的相似度较高且与第二类第三类中的区域块所表示的语义的相似度较低的区域块组成,第二类由与mypos区域所表示的语义的相似度较高且与第一类第三类中的区域块所表示的语义的相似度较低的区域块组成,第三类由与copyright区域所表示的语义的相似度较高且与第一类第二类中的区域块所表示的语义的相似度较低的区域块组成的区域块组成。[0060]步骤S105:根据每个特定区域的重要性等级得到与之对应的分类结果中多个区域块的重要性等级。其中,每一个分类结果中的区域块的重要性等级相同,不同分类结果中的区域块的重要性等级不同。例如:对于上述第一类的区域块(一个分类结果),其重要性等级最高,第二类的区域块的重要性等级低于第一类的区域块的重要性等级,第三类的区域块的重要性等级低于第二类的区域块的重要性等级。[0061]根据本发明实施例的网页中的块重要性计算方法,对网页进行解析得到多个不同重要性等级的特定区域,并通过网页中多个区域块和特定区域之间的语义关系对多个区域块进行分类,并根据分类结果对应的特定区域的重要性得到网页中每个区域块的重要性,本发明的实施例通过特定区域和区域块之间的内容关系等得到区域块的重要性,能够显著地提高区域块分类的召回率和准确率,从而具有块重要性计算精度高、准确的优点。[0062]为了进一步提高网页中区域块的重要性的计算精度,本发明的进一步实施例的网页中的块重要性计算方法,还包括:根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正。[0063]具体地,如图3所示,根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正的步骤包括:[0064]步骤S301:获取与第一网页相关的同簇网页。在本发明的一个实施例中,同簇网页为与第一网页具有相似的DOM树结构的网页。在该实例中,DOM树为HTMLDocumentObjectModel(文档对象模型)的缩写,HTMLDOM指适用于HTML/XHTML的文档对象模型,具体地,DOM树是指将网页的HTML源码解析成“树”结构,便于程序遍历和访问网页中的任何内容。[0065]步骤S302:分别获取同簇网页中每个网页的多个特定区域和多个分类结果。在该实例中,同簇网页中每个网页的多个特定区域和多个分类结果的获取方法与上述实施例中获取第一网页中的多个特定区域和多个分类结果的方法相同。[0066]步骤S303:计算同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息。其中,分部信息包括:所在坐标(即每个特定区域和每个区域块在对应网页中的坐标)、所占面积以及词语分布信息等,具体地,分部信息指是指区域块内文本长度,文本term语义分布,链接数目,图片数量,图片面积等信息等。[0067]步骤S304:计算所有的分布信息的统计信息。例如计算所有的分部信息的均值方差等统计学参数,其中,分部信息的分布越广,表明该区域块表达的内容越丰富,也是每个页面频繁变化的部分,可能是重要性等级最高的区域块。[0068]步骤S305:根据分布信息的统计信息和关系信息和关系信息对第一网页中对应的特定区域和每个分类结果中的区域块进行修正。其中,关系信息指:区域块和特定区域的关系的分布信息,例如:在一个网页中,区域块和特定区域位置关系的均值和方差,占页面面积的均值和方差,文本长度均值和方差,文本面积,文本签名,链接的重复比例,链接数目的均值和方差,图片个数的均值和方差,图片面积的均值和方差,图片面积占块面积的均值和方差,用户评论区域的面积均值和方差,用户评论区域面积占块面积的均值和方差等信息。例如:如果区域块与realtitle区域的空间和内容关系比较接近,则说明该区域块重要性高的概率会增大;如果区域块与copyright区域或者mypos区域的内容关系比较接近,贝Ij表示该块重要性高的概率会减小。因此,对于第一网页和同簇网页而言,假设与第一网页同簇的网页为5个,对于第一网页中的区域块I而言,在第一网页中,如果按照步骤SlOl至步骤S105的步骤得到区域块I分为与realtitle区域对应的分类结果中,而对于5个同簇网页中,与区域块I对应位置的区域块在各自的网页中被分为与mypos区域对应的分类结果中,则根据区域块重要性等级的概率分布,可知,应将区域块I分为与mypos区域对应的分类结果中,因此,需要对第一网页中区域块I的进行修正,即将区域块I由与realtitle区域对应的分类结果中调整至与mypos区域对应的分类结果中。[0069]作为一个具体的例子,统计同簇网页中所有网页相同xpath所示区域的多页面信息,其中,xpath为从DOM树的根节点到当前节点的路径,在该实例中,多页面信指上述所指的分部信息和关系信息。仍以http://finance,sina.com.cn/consume/puguangtai/20121220/031014059223.shtml为例,如果仅在单页面(第一网页)计算如图2A和2B所示的特定区域,从上述分析可知,可能会出现误差甚至错误。由于同簇网页,例如:http://finance.sina.com.cn/consume/20121225/085714106842.shtml等页面的DOM树结构与其很相似,通过计算与其相似的所有页面(同簇网页)的特定区域,然后来修正单页面(第一网页)中特定区域可能存在的问题。以计算第一网页中的realtitle区域为例,具体步骤如下:[0070]步骤1:根据网页的url查找第一网页的同簇网页,例如第一网页的url:http://finance,sina.com.cn/consume/puguangtai/20121220/031014059223.shtml[0071]某一网页的url为:[0072]http://finance,sina.com.cn/consume/20121225/085714106842.shtml[0073]由于第一网页的url和上述某一网页的url类似,因此,可认为其DOM树结构也相似。[0074]步骤2:分别计算上述两个url对应的realtitle区域,分别得到的结果可能如图4A和图4B,均存在错误,其中,图4A所不的realtitle区域不完整,而图4B所不的realtitle区域包括不必要的信息,即图4B的下侧出现的文字等。[0075]步骤3:计算上述两个realtitle区域的坐标,面积均值,词语分布等统计信息,并根据上述信息等对图4A所示的realtitle区域进行修正,修正结果如图2B所示。[0076]步骤4:重复上述步骤2和3,得到上述第一网页的其它特定区域等的修正结果。[0077]步骤5:假设对第一网页的某区域块或者某区域的修正结果如图5A所示,分别计算各自页面内的上述区域块或者区域中词语与realtitle区域中词语相同的数目以及占realtitle区域中词语数目的比例等。如图5B所示,修正后的相关内容区域,即跟网页主要内容相关的话题等信息的区域如图5B所示。[0078]步骤6:计算步骤5中所述的比例均值,可得realtitle区域和上述区域块或者区域中词语共现比例的页面信息。从而可根据共现比例的页面信息对区域块进行修正等。[0079]步骤S306:根据修正后的第一网页的每个特定区域的重要性得到与之对应的分类结果中多个区域块的重要性。[0080]根据本发明实施例的网页中的块重要性计算方法,利用同簇网页中区域块和特定区域的关系,对第一网页中的区域块和特定区域进行修正,也可将第一网页中错误的区域块和特定区域进行修正,从而更加准确地得到特定区域以及区域块以及区域块所在的分类结果,进一步提高区域块分类的召回率和准确率,从而保证网页中块重要性计算的精度,使得块重要性计算结果更加可信。[0081]在本发明的一个实施例中,在得到多个区域块的重要性等级之后,还包括:根据多个区域块的重要性等级对多个区域块中的内容进行评判。例如:搜索引擎需要对网页链接的关系进行打分,如pagerank。本发明能够识别出页面主要内容区域,相关内容区域,无关内容区域,即多个分类结果中区域块对应的区域。通常,位于无关内容区域的链接,重要性较低;位于主要内容区域和相关内容区域的链接,重要性较高。因而,在实际应用中,例如:搜索引擎对页面中不同区域的链接进行打分。如图2C,位于无关区域,图5B位于相关内容区域,图2A所示的链接跟本页面的关系打分低于图5B所示的链接跟本页面的关系打分。[0082]在本发明的一个实施例中,还包括:对重要性等级最高的区域块进行内容监测。在具体应用中,互联网上有很多页面存在作弊行为,例如:页面的主要内容被嵌入无关的广告内容。本发明的实施例通过对重要性等级最高的区域块进行内容监测,可发现页面中重要区域,因而可指导搜索引擎通过对该区域内部内容进行分析,如term语义分布,句子主题相关性,进而判断是否有作弊现象。[0083]根据本发明实施例的网页中的块重要性计算方法,具有块重要性等级计算精度高、准确的优点。[0084]图6是根据本发明一个实施例的网页中的块重要性计算系统的结构图。如图6所示,根据本发明一个实施例的网页中的块重要性计算系统600,包括:获取模块610、解析模块620、分析模块630、分类模块640和计算模块650。[0085]其中,获取模块610用于获取第一网页,第一网页包括多个区域块,多个特定区域包括:网页路径引导区域、网页内容的标题区域和网页版权声明区域,进一步地,网页版权声明区域的重要性等级低于网页路径引导区域,网页路径引导区域的重要性等级低于网页内容的标题区域。解析模块620用于对第一网页进行解析以得到具有不同重要性等级的多个特定区域。分析模块630用于对多个特定区域和多个区域块进行语义分析。分类模块640用于根据每个区域块和每个特定区域之间的语义相似度将多个区域块进行分类。计算模块650用于根据每个特定区域的重要性等级得到与之对应的分类结果中多个区域块的重要性等级。[0086]根据本发明实施例的网页中的块重要性计算系统,对网页进行解析得到多个不同重要性等级的特定区域,并通过网页中多个区域块和特定区域之间的语义关系对多个区域块进行分类,并根据分类结果对应的特定区域的重要性得到网页中每个区域块的重要性,本发明的实施例通过特定区域和区域块之间的内容关系等得到区域块的重要性,能够显著地提高区域块分类的召回率和准确率,从而具有块重要性计算精度高、准确的优点。[0087]在本发明的一个实施例中,获取模块610还用于:获取与所述第一网页相关的同簇网页,其中,同簇网页为与第一网页具有相似的DOM树结构的网页。进一步地,网页中的块重要性计算系统600还包括:修正模块660,修正模块660用于根据与第一网页相关的同簇网页对所述多个特定区域和多个区域块的重要性等级进行修正。具体而言,修正模块660用于在获取同簇网页中每个网页的多个特定区域和多个分类结果之后,计算同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息,且计算所有的分布信息的统计信息,并根据分布信息的统计信息和关系信息对第一网页中对应的特定区域和每个分类结果中的区域块进行修正。在该实例中,分部信息包括:所在坐标(特定区域或区域块在对应网页中的坐标)、所占面积(特定区域或区域块在对应网页中所占的面积)以及词语分布信肩、O[0088]根据本发明实施例的网页中的块重要性计算系统,利用同簇网页中区域块和特定区域的关系,对第一网页中的区域块和特定区域进行修正,也可将第一网页中错误的区域块和特定区域进行修正,从而更加准确地得到特定区域以及区域块以及区域块所在的分类结果,进一步提高区域块分类的召回率和准确率,从而保证网页中块重要性计算的精度,使得块重要性计算结果更加可信。[0089]在本发明的一个实施例中,网页中的块重要性计算系统600还包括:评判模块670,评判模块670用于根据多个区域块的重要性等级对多个区域块中的内容进行评判。例如:搜索引擎需要对网页链接的关系进行打分,如pagerank。本发明能够识别出页面主要内容区域,相关内容区域,无关内容区域,即多个分类结果中区域块对应的区域。通常,位于无关内容区域的链接,重要性较低;位于主要内容区域和相关内容区域的链接,重要性较高。因而,在实际应用中,例如:搜索引擎对页面中不同区域的链接进行打分。如图2C,位于无关区域,图5B位于相关内容区域,图2A所示的链接跟本页面的关系打分低于图5B所示的链接跟本页面的关系打分。[0090]在本发明的一个实施例中,网页中的块重要性计算系统600,还包括:监测模块680,监测模块680用于对重要性等级最高的区域块进行内容监测。在具体应用中,互联网上有很多页面存在作弊行为,例如:页面的主要内容被嵌入无关的广告内容。本发明的实施例通过对重要性等级最高的区域块进行内容监测,可发现页面中重要区域,因而可指导搜索引擎通过对该区域内部内容进行分析,如term语义分布,句子主题相关性,进而判断是否有作弊现象。[0091]根据本发明实施例的网页中的块重要性计算系统,具有块重要性等级计算精度高、准确的优点。[0092]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。[0093]尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。【权利要求】1.一种网页中的块重要性计算方法,其特征在于,包括以下步骤:提供第一网页,所述第一网页包括多个区域块;对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对所述多个特定区域和所述多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;以及根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级。2.根据权利要求1所述的方法,其特征在于,还包括:根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正。3.根据权利要求2所述的方法,其特征在于,所述根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正的步骤进一步包括:获取与第一网页相关的同簇网页;分别获取所述同簇网页中每个网页的多个特定区域和多个分类结果;计算所述同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息;计算所有的所述分布信息的统计信息;根据所述分布信息的统计信息和所述关系信息对所述第一网页中对应的特定区域和每个分类结果中的区域块进行修正;以及根据修正后的所述第一网页的每个特定区域的重要性得到与之对应的分类结果中所述多个区域块的重要性。4.根据权利要求3所述的方法,其特征在于,其中,所述同簇网页为与所述第一网页具有相似的DOM树结构的网页。5.根据权利要求3或4所述的方法,其特征在于,所述分部信息包括:所在坐标、所占面积以及词语分布信息。6.根据权利要求1所述的方法,其特征在于,所述多个特定区域包括:网页路径引导区域、网页内容的标题区域和网页版权声明区域。7.根据权利要求6所述的方法,其特征在于,所述网页版权声明区域的重要性等级低于所述网页路径引导区域,所述网页路径引导区域的重要性等级低于所述网页内容的标题区域。8.根据权利要求1所述的方法,其特征在于,在得到所述多个区域块的重要性等级之后,还包括:根据所述多个区域块的重要性等级对所述多个区域块中的内容进行评判。9.根据权利要求1所述的方法,其特征在于,还包括:对重要性等级最高的区域块进行内容监测。10.一种网页中的块重要性计算系统,其特征在于,包括:获取模块,用于获取第一网页,所述第一网页包括多个区域块;解析模块,用于对所述第一网页进行解析以得到具有不同重要性等级的多个特定区域;分析模块,用于对所述多个特定区域和所述多个区域块进行语义分析;分类模块,用于根据每个区域块和每个特定区域之间的语义相似度将所述多个区域块进行分类;以及计算模块,用于根据每个特定区域的重要性等级得到与之对应的分类结果中所述多个区域块的重要性等级。11.根据权利要求10所述的系统,其特征在于,所述获取模块还用于:获取与所述第一网页相关的同簇网页。12.根据权利要求11所述的系统,其特征在于,还包括:修正模块,用于根据与第一网页相关的同簇网页对所述多个特定区域和所述多个区域块的重要性等级进行修正。13.根据权利要求12所述的系统,其特征在于,所述修正模块用于在:获取所述同簇网页中每个网页的多个特定区域和多个分类结果之后,计算所述同簇网页中每个网页的每个特定区域和每个分类结果中每个区域块在对应的网页中的分布信息以及每个分类结果中的区域块和对应的特定区域之间的关系信息,且计算所有的所述分布信息的统计信息,并根据所述分布信息的统计信息和所述关系信息对所述第一网页中对应的特定区域和每个分类结果中的区域块进行修正。14.根据权利要求13所述的系统,其特征在于,其中,所述同簇网页为与所述第一网页具有相似的DOM树结构的网页。15.根据权利要求13或14所述的方法,其特征在于,所述分部信息包括:所在坐标、所占面积以及词语分布信息。16.根据权利要求10所述的系统,其特征在于,所述多个特定区域包括:网页路径引导区域、网页内容的标题区域和网页版权声明区域。17.根据权利要求16所述的系统,其特征在于,所述网页版权声明区域的重要性等级低于所述网页路径引导区域,所述网页路径引导区域的重要性等级低于所述网页内容的标题区域。18.根据权利要求10所述的系统,其特征在于,还包括:评判模块,用于根据所述多个区域块的重要性等级对所述多个区域块中的内容进行评判。19.根据权利要求10所述的系统,其特征在于,还包括:监测模块,用于对重要性等级最高的区域块进行内容监测。【文档编号】G06F17/30GK103970749SQ201310029651【公开日】2014年8月6日申请日期:2013年1月25日优先权日:2013年1月25日【发明者】吴一璞,王浩,郭瑞,李乐丁,牛正雨申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1