一种互联网网页清洗方法、系统及设备的制作方法

文档序号:6460821阅读:145来源:国知局

专利名称::一种互联网网页清洗方法、系统及设备的制作方法
技术领域
:本发明属于互联网信息处理领域,尤其涉及一种互联网网页清洗方法、系统及设备。
背景技术
:随着互联网的快速发展,Web已经成为信息发布和信息共享的基础平台,其中以HTML格式的Web网页是主要的信息载体。目前,Web网页已经从最初的手工编辑的静态网页发展成为由数据库和模板生成的动态网页,Web网页中包含的内容也越来越复杂,除了正文内容外,还包含广告、标语、导航信息、版权信息等噪声信息。网页清洗类似于数据挖掘中的数据清洗,通过Web挖掘和机器学习技术将Web网页的数据进^f亍清洗、净化,提取有用的信息,去除噪声信息。网页清洗可以为搜索引擎、移动电话浏览、Web信息提取和信息收集等应用的提供基础。在互联网搜索中,在去除广告等噪声信息基础上建立的索引可以有效地提高搜索的准确率;通过仅将页面中的正文信息块或片段显示出来,而忽略广告、导航链接等其它的信息块,为移动用户移动电话浏览提供更好的用户体验;在Web信息提取中,只有去掉网页的噪声信息,才能更好的提取出所需要的结构化和纯文本信息,v^人而为自然语言处理、分类、聚类和文摘等系统提供文本资源。在面向主题的信息收集,通过判断哪些信息块与指定的主题相关,可以有选择地收集与特定主题相关的信息。现有的网页清洗方案基本上针对特定类型网页或者特定沖莫板网页,能够清洗的网页有限。同时,网页清洗准确率较低,不能正确去除各种噪声信息。
发明内容本发明实施例的目的在于提供一种互联网网页清洗方法,旨在解决现有的网页清洗方案能够清洗的网页有限,清洗准确率较低的问题。本发明实施例是这样实现的,一种互联网网页清洗方法,所述方法包括下述步骤分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。本发明实施例的另一目的在于提供一种互联网网页清洗系统,所述系统包括:网页分析单元,用于分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;结构块树生成单元,用于保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;网页分类单元,用于在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;以及网页清洗单元,用于根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。本发明实施例的另一目的在于提供一种包含上述互联网网页清洗系统的通信设备。本发明实施例基于网页分类策略,将网页分为语义内聚的合适粒度大小的块,对每个块进行分析识别,有效地提取出重要块及其信息,可以实现任意网页的清洗,清洗准确率高,可以应用于移动终端浏览、搜索引擎、面向主题的信息收集、自动信息提取和垂直搜索等方面。图1是本发明实施例提供的互联网网页清洗方法的实现流程图;图2是本发明实施例提供的语义块分割示意图;图3是本发明实施例提供的内容型网页文本内容提取的实现流程图;图4是本发明实施例提供的多块文本型网页文本提取的实现流程图;图5是本发明实施例提供的互联网网页清洗系统的结构图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例基于网页分类策略,将网页分为语义内聚的合适粒度大小的语义块,对每个语义块进行分析识别,有效地提取出重要块及其信息,可以实现对任意网页的清洗,包括内容型网页的正文提取、多块文本型网页的内容提取、索引型网页重要块自动提取,以及BBS/Blog型网页的内容提取等,清洗准确率高。图1示出了本发明实施例提供的互联网网页清洗方法的实现流程,详述如下在步骤101中,分析输入的网页,对网页标签内容自动纠错,建立DOM树;在本发明实施例中,网页分析的目的是利用HTML网页语义定义标准进4亍上下文句法约束,实现网页标签内容的自动纠错,建立一个正确的文档对象模型(DocumentObjectModel,DOM)树,以便于后续分析。DOM树是一个树结构,具有便于操作访问、以及重新恢复原始网页的优点。由于网页在手工编辑过程中的编辑错误以及使用不规范的格式,会导致网页标签内容的错误以及语义模糊,给机器自动处理带来很大困难。本发明实施例中,在DOM树的分析过程中,重点解决常见的HTML网页错误以及格式不规范等问题,具体可以包括1.元素省略或者结束标记的省略,例如<HTML><body>text</body></HTML>,该例中将HTML元素下的<head>省略。在分析过程中从HTML格式的完整性出发,需要发现省略元素,自动生成补全;<UL><Li>a<Li>b</UL>,该例是结束标记的省略,省略了</0>标记。通常标记TD,TH,LI,DD等将结束标记省略,但省略标记后,后面结点是儿子结点还是兄弟结点存在二义性,需要根据标签的上下文语义来决定。2.标签犬牙交错,例如〈b〉bold<i>bolditalic</b>bold</i>,斜体〈b〉和黑体O标注属于犬牙交错,相互包含。3.元素标记错误,例如〈Hl〉heacK/H2〉,结束标记为<氾1>,错标为</112>。4.内容模型错误,在HTML4.01语义规范中,规定每个标签下能够包含的标签和不能够包含的标签,例如HTML标签只能包含title、body,如果包含一个table标签,则是4普误的。针对上述的网页错误或者格式不规范等问题,一般可以采用基于HTML网页语义定义标准进行上下文句法约束的方式解决,利用有限状态机进行词法分析,将开始和结束标记作为状态转移的触发条件,对每个标签和内容进行分析,得到一系列标记(token),再利用语义约束方式进行自顶向下句法分析过程对整个文档进行分析,自动纠正网页错误,规范HTML格式,可以生成鲁棒的DOM树。在步骤S102中,保留DOM树中具有表示内容的HTML的块元素结点,生成与DOM树对应的结构块树;在语法上,HTML文档中的元素可以分为块元素(block-levelelements)和内联元素(Inlineelements)两种类型。块元素和内联元素的区别主要体现在两个方面,在内容模型方面,块元素可以包含其它块元素或者内联元素,而内联元素通常只能够包含内联元素或者数据。因此,块元素通常表示了比内联元素更大的结构;在展现格式方面,块元素通常在新的一行上开始显示,而内联元素并不是这样的。在HTML规范中,常见的块元素如下表所示Moc吸"o:rfi:|fo應||潔丄五||爿dz)腐s"〉〈豐777T%//W'肌IOZ/'〉<ABV777T%pr^brma"gd〃尸i五〃〉_在这些块元素中,如table,tr,td,th是用来绘制表格的,ol,ul是表示列表的。本发明实施例中,根据上述网页分析生成的DOM树,从网页结构的角度对信息块进行定义,DOM树包括叶子结点和根结点,叶子结点通常对应内联元素,而非叶子结点对应块元素。才艮据统计观察,在Web网页中,如果一个块元素类型的HTML元素是表示内容的块元素结点,例如〈tablexdivxulxtrxtd〉的结点,那么该元素及其包含的内容为一个结构块,而对于其它元素标记,通常包含于这几个元素之中。因此,在本发明实施例中,查找DOM树中表示内容的HTML的块元素结点,保留相应的表示内容的HTML的块元素结点,不展现其它结点。由于每个结构块可能是相互包含,结构块的父结点或者子结点还是一个块元素类型块,这样根据结构块的结点之间的关系,各个结构块组合就生成一个树型结构。在该结构块树中,可以根据相邻的块结构分析,确定相邻块是否是语义聚敛的,也可以根据父结点与子结点上下文文本增益来判断主要内容块。因此,在结构块树中,可以方便的进行接下来的语义块分析,即对各结点进行合并和组合形成新的内容收敛的语义块。在步骤S103中,根据网页内部特征,在结构块树的&出上按照定义的网页类型对网页进行分类;在本发明实施例中,网页类型定义是网页内部特征来定义的,而不是按照内容形式划分的,具体的网页类型可以根据实现需要进行相应划分。作为本发明的一个实施例,将网页分为内容型网页、多块文本型网页、索引型网页,以及非明显特征型网页。内容型网页中具有大段的文本,包含的链接文本相对少,文本一般处于网页的中间位置,链接等信息处于两边成独立的状态,例如导航块,广告块等。内容型网页包括新闻网页的内容页面,BBS的内容网页等。多块文本型网页中具有多段文本,且每段文本在DOM树上是分割开的,没有一个统一结点可以包含这些文本结点,文本块与文本块之间的大小差异不大,没有特别突出的块,在处理时需要将这些块内容提取^^并作为输出结果。索引型网页包含链接的文本比较多,很少具有不包含链接的大段文本,大多数都是链接文本,难以通过文本/链接比例的标准判断是否是噪声信息块。在该类网页中,又包括两种子类型,一类是BBS/Blog型网页,该类网页具有大段包含链接的索引文本,但由于该类网页具有的特征基本上与内容型网页没有太大差别,可以归结为内容型网页。另一类为导^^型网页,该类网页具有明显的块,且包含链接的文本多,而不包含链接的文本很少。对于系统无法识别具有有效特征的非明显特征型网页,既没有明显的块信息,也没有大段文本信息,可以不作处理,直接对其标签进行规范后输出结果。根据上述网页类型的定义,本发明实施例中,利用ID3决策树分类器(QuinlanJR.Inductionofdecisiontrees.MachineLearning)的方法对网页进4亍分类。决策树分类器的训练数据是通过手工标注一定数量具有代表性的网页,每个类别包含100个左右。然后,利用统计的方法从中选出具有代表性的特征,输入判别特征包括文本个数信息、链接文本个数信息、文本语义信息,以及标签信息等,输入特征的每个属性代表决策树分类器输入矢量的一个分量,利用该训练数据训练出ID3决策树分类器,统计的特征包括1)最大文本块的包含文本长度是否大于150;2)最大文本块和次最大文本块的比例是否小于1.3;3)次文本块包含的文本长度是否大于400;4)次最大文本块是不是版权信息;5)最大文本块和次最大文本块是否是父子结点关系;6)块文本是否包含标点符号信息"。";7)块文本包含标签符号的个数;8)最大文本块是否包含〈p、<^>结点,以及包含的个数;9)整个body结点块文本和链接文本比例是否大于2;10)最大文本和整个网页链接文本的比例是否小于0.08;11)最大文本和整个网页链接文本的比例是否大于0.05,且包含p的文本块大于75;12)网页无明显的块信息,而且最大文本块小于一定的阈值;13)网页中无块信息,也没有包含p的文本。经过上述训练出的决策树分类器,利用该决策树分类器对网页进行分类。输入是通过前面已经分析得到的结构块树,从中提取上述特征对应的属性值,然后组合成特征矢量,输入到决策树分类器,最后输出是定义内容型网页、多块文本型网页、索引型网页、非明显特征型网页等四个类别网页中的某一类别。在对网页分类时,需要统计各块包含的文本大小、最大文本块和次最大文本块大小。在本发明实施中,可以采用自底向上的后序遍历统计方法,在遍历过程中,通过在结构块子树中设定是否被包含的标志位,从而能够有效的统计出各块包含的文本大小,以及最大文本块和次最大文本块,具体算法的实现示例如下intTraversePostNode(Node*tnod,int&nNum,int&nLinkNum){〃返回>=1表示包含table和div,0为不包含初始化结点包含的文本数nNum为0,链接文本数nLinkNum为0;获到指针tnod的最左儿子结点tempnode;if(最左儿子结点为空){统计叶子结点包含的文本数如果该叶子结点是链接,设定链接文本氺tnLinkNum等于nNum;else{while(结点tempnode不等于空){递归调用TraversePostNode(tempnode,nTempNum,nTempLinkNum),并返回是否包含结构块标识nval;累力口nval,并寸呆存在nlnclude;累力口nTempNum并寸呆存在nNum;累力口nTempLinkNum并<呆存在nLinkNum;对下一个兄弟结点进4亍处理,tempnode=GetNext(tempnode);if(结点是包含20个字以上的有效结构块){if(标志nlnclude为0){if(结构块是文本块)统计最大文本块,同时统计次最大文本块}返回包含结构块信息标志1;if(标志nlnclude大于0)返回包含结构块信息标志1;;返回包含结构块信息标志0;在步骤S104中,4艮据输入的网页所属的网页类型,对其进4亍语义块分析,提取并输出重要块及其文本信息在本发明实施例中,语义块是在结构块基础上定义的。由于语义块二义性和主观性,很难定义。因此,需要从机器能够识别的角度去进行定义和分析。本发明实施例中,语义块定义为1)该元素中包含一个或者若干个结构块,即若干个相邻的结构块聚集在该元素中;2)语义块包含的文字达到一定的数值,且能够通过网页表示出来;3)除了有明显的区分点,例如子标题等视觉特征,否则尽量将相邻的块合并。在进行语义块分析时,可以采用在已经构建的结构块树中寻找一个合适基本覆盖所有叶子结点的切割方法,例如在图2中,结点l,2,…,8分别代表结构块,但由于6,7,8语义聚敛,合并为一个语义结点3,因此,最终块4,5,3即为所要求的语义块。由于结构块树是一个递归的结构,需要判断在哪个结点进行分割,如果在比较底层分割,可能导致分割粒度太小,如果在高层分割,可能导致分割的粒度太大。本发明实施例中根据结构块内部的微结构相似或者相同的原则进行块合并,并自动确定语义块的粒度大小。作为本发明的一个实施例,语义块分析所利用的特征主要有基于URL结构相似性、基于标签的结构相似性、基于视觉特征和基于上下文文本的信息增益四个方面l.基于URL结构相似性在具有块的网页中,网页是由块所组成,在每个块的内部,它的URL结构基本上是相同或者是相近的。因为在由网页模板块生成的网页分析中,通常变化的部分为内容,例如新闻块(news)、娱乐块(ent)等,为了能够机器自动处理,减少人的手工编辑工作量,通常URL都是按照一定规律生成,例如一般目录结构相同,只是最后的文件名(用一定规律数字表示)不同,而且URL表示都具有一定语义的含义,相对不变的部分可能是广告、导航等信息,而这些信息变化相对不太频繁,它们的URL也没有新闻块URL结构变化有规律。因此,本发明实施例中可以利用URL结构相似性作为特征进行语义分块,结构相似性包括语义块中URL结构是否规律性变化,以及URL结构中是否包含标志性语义特征。块的URL为http:〃news.qq.com/a/20080108細688.htmhttp:〃news.qq.com/a/20080108/001413.htmhttp:〃news.qq.com/a/20080108/000572.htm由此可见,这些URL前面的部分完全相同,而有-见律变化的是最后部分用数字表示的文件名。在本发明实施例中,基于URL结构相似性分析的算法如下1)在每个块中,提取块中包含的所有URL;2)将每个URL看作是一个字符串,去除http:〃头信息,然后利用分割标记"/."对其进行分割;3)在分割的字符串基础上,对每个块统计出频繁出现的URL的标志性token等语义特征,这些token组成该块的语义中心;4)对于每个块,计算相邻的两块的语义中心距离,如果大于一定阈值,则合并相邻的两块。设两个块的语义中心分别表示为fl^A^,6AA&,a,^是属于统计出的token,语义中心距离A,定义为A,-^^,其中,《=1"'=/。2.基于标签的结构相似性标签的结构相似性主要是指在某块的子树下,该子树标签组成后的序列具有重复的特征,例如对于标签〈p〉<br><br><br><br><br>〈p〉〈br〉序列,将会可能形成一个块,或者由多个p,tr,td,li等组成的单元也可能是一个连续的语义块。在对标签的结构相似性进行判断时,首先统计子树下出现最频繁的标签符号,然后以这些标签为中心前后扩展,并验证该序列是否结构相似。该方法比现有技术中直接利用通过后缀树的方法统计最大重复子串的效率高,且能够达到同样的效果。3.基于视觉的特征由于网页每个块之间具有很强的视觉差异,对于网页的首页,人凭肉眼可以很方便的将其分块,例如当一块中有标题存在、字体大小的变化、背景变化这些都会导致被认为是块与块之间的分割标记。本发明实施例中,利用^L觉特征来确定分割标记时1)确定勤出的块,该块一般是符合一定条件的结构块,块包含的文本大小大于一定的阈值;2)利用视觉特征对该结构块向前和向后扩展。向前扩展时,判断当前块的前段单元是否是该段的标题,是则加入该单元,并停止向前扩展,结束;否则判断是否有字体的变化,字号颜色的变化和背景颜色变化等,有则停止扩展,结束;向后扩展时,判断是否有字体的变化,字号颜色的变化和背景颜色变化等,有则停止向后扩展。4.基于上下文文本的信息增益本发明实施例中,上下文文本的信息增益Ow/w/C^f/J定义为C0"feCo"fe"^"("》,其中表示当前结点包含的文本长度,Co她"^"(^)表示在块结点树上该结点的父亲结点包含文本的长度。由于结构块树是一个相互嵌套的块,对于最底层的结构块,由于其包含的信息可能被上层的结点信息所包含,因此,如果上下文文本的信息增益小于一定阈值,则将结点向其父结点扩展,直到不能扩展为止,即将该节点的父节点设为当前节点,再进^f亍上下文文本的信息增益计算,如果所得值小于一定阈值,则继续,直到上下文文本的信息增益值不小于阈值。基于上下文文本的信息增益通常与视觉特征相结合使用,可以达到更为准确的效果。本发明实施例中,在对网页进行清洗时,当输入的网页为内容型网页时,提取其主要文本块;当输入的网页为多块文本型网页时,获取每个文本块的内容,输出合并后的多块文本;当输入的网页为索引型网页时,利用统一资源定位符(UniformResourceLocation,URL)结构相似性、DOM树标签的相似性和视觉特征来进行语义块分析,在分析的语义块上输出重要的语义块单元;当输入的网页为非明显特征型网页时,直接对网页的标签进行规范后输出。对不同类型的网页进行清洗后,将网页清洗的结果输出。对于内容型网页,由于网页中具有大段的文本,其中包含链接的文本相对少,因此,首先利用自底向上的方法寻找包含最大文本结点的结点,在寻找到的最大文本结点上,综合利用结构块内部进行分析,最后提取正文,实现流程如图3所示,详述如下在步骤S301中,统计有效的最大文本块,判断最大文本块是否是版权信息块,如果是,则用次最大文本块或者包含p结点的文本块代替作为最大文本块。在步骤S302中,扩展最大文本块的结点;由于统计的最大文本的结点未能包含全部文本内容,需要对其进行扩展,一直向其父结点进行扩展。扩展的规则主要是根据上下文文本的信息增益和文本增益和链接文本增益的比例特征来判断,如果文本的信息增益小于一定阔值(如0.65)且文本增益和链接文本增益的比例大于一定阈值(0.5),则在结构块树中向其父亲结点扩展。在步骤S303中,最大文本块内部分析,去除其中的噪声信息;在最大文本块的内部,自顶向下进行分析,寻找包含儿子节点最多的子树,即最大扇出子树结点,然后对每个扇出子树结点进行分析,分别判断每个子树块是否是链接块,每个子树是否具有连续的结构符号等,去除噪声信息。每个子树块是否是链接块的判断根据块文本和链接文本比例确定,如果块文本和链接文本的比例大于2则是链接块,删除该链接块。每个子树是否具有连续的结构符号根据标签结构相似性判断,如果有连续的结构符号表示文本是内聚的,是正文,予以保留。连续标签信息部分大多数都是语义内聚,不包含噪声信息。由于开始的部分和结尾续,包含噪音信息。根据标签符号连续性以及包含字数多少等一系列启发式规则判断开头和结尾部分的标签是否属于正文文本内容,如果不属于则删除,如果属于则^f呆留。在步骤S304中,去除最大文本块中的图像与图像标题信息;在文本块中,根据图像的标签信息IMG为触发条件,然后在DOM中寻找相应的文本结点,并判断是否是图像标题信息,是则去除图像和图像标题信息。在步骤S305中,获取标题与时间信息;在文本块中,标题信息主要是通过视觉信息来判断,例如该结点块是否比当前的字体大,字体是否是黑体,该结点块的背景颜色是否不同于当前的背景等。时间信息主要是通过时间模板的格式来获取。在步骤S306中,输出对应的文本内容。对于多块文本型网页,首先对该网页进行语义分析,获取大小粒度合适的相应语义块,对于每个语义块,根据文本/链接文本的比例,判断其是否是文本块,对于文本块,则按照上述内容型网页的分析方式,获取该文本块的文本内容,合并输出文本块内容,处理完所有文本块以后,合并输出所有文本块的文本内容,合并后的文本内容就是最终的输出文本,具体实现如图4所示在步骤S401中,网页进行语义分析,获取大小粒度合适的相应语义块;在步骤S402中,对于每个语义块,根据文本/链接文本的比例,判断是否是文本块,对于文本块进行内容型网页分析,获取该文本块的文本内容;在步骤S403中,合并输出文本块内容;在步骤S404中,判断是否所有的文本块已经分析完毕,是则执行步骤S405,否则执行步骤S402;在步骤S405中,合并输出所有文本块的文本内容。对于索引型网页,通过对索引型网页进行语义分析,获取粒度大小合适的语义块,然后再根据URL结构特征和语义特征获取重要的块信息。根据URL结构分析,可以判定哪些块中包含变化规律的URL结构。另外,对于每块中的URL,通过统计URL包含的符号,并提取包含类似news,ent等标志性的语义特征。如果URL变化规律,且包含所定义的标志性的语义特征,粒度大小合适,提取其为重要块。并按照预先定义语义特征权值按照重要程度大小输出,删除噪声等无关信息块。图5示出了本发明实施例提供的互联网网页清洗系统的结构,为了便于说明仅示出了与本发明实施例相关的部分。该系统可以用于对网页进行各种处理的通信设备,例如Web服务器、搜索引擎等,也可以用于具备网页处理能力的各种终端设备,例如计算机、笔记本电脑、个人数字助理(PersonalDigitalAssistant,PDA)等,可以是运行于这些设备内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些设备中或者运行于这些设备的应用系统中,其中网页分析单元51分析输入的网页,对网页标签内容自动纠错,建立DOM树。在本发明实施例中,网页分析单元51对输入的网页进行分析时,采用HTML网页语义定义标准进行上下文句法约束方式,实现网页标签内容的自动纠错。结构块树生成单元52保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与DOM树对应的结构块树。网页分类单元53在结构块树的基础上按照定义的网页类型对输入的网页进行分类。在本发明实施例中,网页类型根据网页的内部特征定义,而不是按照内容形式划分的,对网页进行分类时采用决策树分类器实现,决策树分类器的输入判别特征包括文本个数信息、链接文本个数信息、文本语义信息,以及标签信息等。作为本发明的一个实施例,将网页的类型分为内容型网页、多块文本型网页、索引型网页和非明显特征型网页,具体的网页定义和分类过程如上所述,不再赘述。网页清洗单元54根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。在本发明实施例中,当输入的网页为内容型网页时,网页清洗单元54^是取网页的主要文本块;输入的网页为多块文本型网页时,网页清洗单元54对输入的网页进行语义块分析,获取相应语义块,对于每个语义块分别获取文本块内容,合并后输出文本信息;当输入的网页为索引型网页时,网页清洗单元54对进行语义分析,获取粒度大小合适的语义块,根据URL结构特征和语义特征等语义块分析特征获取重要的块信息;当输入的网页为非明显特征型网页时,网页清洗单元54对网页的标签进4亍*见范后输出。在对不同类型的网页进行清洗时的具体实现方式如上所述,不再赘述。在本发明实施例中,语义块分析所利用的特征包括URL结构相似性,标签的结构相似性,视觉特征,或者上下文文本的信息增益,具体实现如上所述,不再赘述。本发明实施例基于网页分类策略,将网页分为语义内聚的合适粒度大小的块,对每个块进行分析识别,有效地提取出重要块及其信息,可以实现任意网页的清洗,不仅可以解决内容型网页的主要文本内容的提取,而且可以提供其它类型网页如索引型网页,BBS/Blog型网页的重要块提取以及噪声信息去除,清洗准确率高。对于移动电话和PDA等电子终端的用户来说,由于终端的显示屏幕有限,通过分块显示大大提高系统的可用性。在搜索引擎方面,经过通用网页的清洗,在此基础上建立索引可以消除噪声信息的影响,能够显著提高搜索的准确性和性能。同时,本发明实施例通过将网页分成语义内聚的块,提取重要块,去除噪声块,可以将以网页为检索单元转化成按照语义块为检索单元,从而能够更准确搜索和定位搜索信息块,这对于在移动设备上搜索和浏览显得尤为重要。同样对于面向主题的信息收集,系统通过判断哪些信息块与指定的主题相关,然后将这些主题块中包含的超链加入到下载队列中进行下载,可以大大提高信息收集效率。另外,本发明实施例为自动信息提取和垂直搜索奠定了基础,通过有效地进行网页清洗,提取出Web网页的主要内容,可以更好的将半结构化信息转化成所需要的结构化信息。在自然语言处理、分类、聚类和文摘等系统中,网页清洗也是利用Web网页作为语料的处理基础。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。权利要求1、一种互联网网页清洗方法,其特征在于,所述方法包括下述步骤分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。2、如权利要求l所述的方法,其特征在于,在对输入的网页进行分析时,采用HTML网页语义定义标准进行上下文句法约束方式,实现网页标签内容的自动纠错。3、如权利要求l所述的方法,其特征在于,对输入的网页进行分类时采用决策树分类器实现。4、如权利要求3所述的方法,其特征在于,所述决策树分类器的输入判别特征包括文本个数信息、链接文本个数信息、文本语义信息,以及标签信息。5、如权利要求l、3或4所述的方法,其特征在于,所述网页类型根据网页的内部特征定义。6、如权利要求5所述的方法,其特征在于,所述网页类型包括内容型网页、多块文本型网页、索引型网页或者非明显特征型网页。7、如权利要求6所述的方法,其特征在于,当所述输入的网页为内容型网页时,所述根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息的步骤具体为统计有效的最大文本块,判断最大文本块是否是版权信息块,是则用次最大文本块或者包含p结点的文本块代替作为最大文本块;扩展最大文本块,利用上下文文本信息增益和文本增益和链接文本增益的比例特征去扩展所述最大文本块的结点;块内部分析,对所述最大文本块进行内部分析,去除其中的噪声信息。8、如权利要求6所述的方法,其特征在于,当所述输入的网页为多块文本型网页时,所述根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息的步骤具体为对输入的网页进4亍语义块分析,获拟目应语义块;对于每个语义块分别获取文本块内容,合并后输出文本信息。9、如权利要求6所述的方法,其特征在于,当所述输入的网页为索引型网页时,所述根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息的步骤具体为对进行语义分析,获取粒度大小合适的语义块;根据语义块分析特征获取重要的块信息。10、如权利要求l、7、8或9所述的方法,其特征在于,所述语义块分析所利用的特征包括URL结构相似性,标签的结构相似性,视觉特征,或者上下文文本的信息增益。11、如权利要求IO所述的方法,其特征在于,所述的URL结构相似性包括语义块中URL结构是否规律性变化,以及URL结构中是否包含标志性语义特征。12、一种互联网网页清洗系统,其特征在于,所述系统包括网页分析单元,用于分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;结构块树生成单元,用于保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象才莫型树对应的结构块树;网页分类单元,用于在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;以及网页清洗单元,用于根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。13、如权利要求12所述的系统,其特征在于,所述网页分析单元对输入的网页进行分析时,采用t[TML网页语义定义标准进^f亍上下文句法约束方式,实现网页标签内容的自动纠错。14、如权利要求12所述的系统,其特征在于,所述网页分类单元对输入的网页进行分类时采用决策树分类器实现。15、如权利要求12或14所述的系统,其特征在于,所述网页类型根据网页的内部特4正定义。16、如权利要求15所述的系统,其特征在于,所述网页类型包括内容型网页、多块文本型网页、索引型网页或者非明显特征型网页。17、如权利要求12所述的系统,其特征在于,所述语义块分析所利用的特征包括URL结构相似性,标签的结构相似性,—见觉特征,或者上下文文本的信息增益。18、一种包含权利要求12的互联网网页清洗系统的通信设备。全文摘要本发明适用于互联网信息处理领域,提供了一种互联网网页清洗方法、系统及设备,所述方法包括下述步骤分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。本发明可以实现任意网页的清洗,清洗准确率高,可以应用于移动终端浏览、搜索引擎、面向主题的信息收集、自动信息提取和垂直搜索等方面。文档编号G06F17/30GK101251855SQ20081006643公开日2008年8月27日申请日期2008年3月27日优先权日2008年3月27日发明者方高林,郑全战申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1