网页正文提取比对方法及其系统的制作方法

文档序号:9810593阅读:316来源:国知局
网页正文提取比对方法及其系统的制作方法【专利说明】网页正文提取比对方法及其系统[0001]方法领域[0002]本发明涉及计算机网络技术方法及其系统,特别涉及一种网页正文提取比对方法及其系统。[0003]背景方法[0004]网页正文提取方法有很多,其中有专门针对评论网页或者新闻网页的方法,但是本发明所讨论的是针对大部分通用网页的正文提取方法。总的说来,目前主要的网页正文提取方法有以下几个方向:基于D0M的网页正文提取方法、基于统计的网页正文提取方法、基于分块的网页正文提取方法及其他网页正文提取方法。[0005]文档对象模型(DocumentObjectModel,D0M)是13(]所制定的标准接口规范。因为D0M节点是基于树的层次结构来组织的,因此在建立了树结构之后,就可以将原本对网页的操作转化为通过对树的操作。虽然按照W3C组织所制定的标准,网页结构均可以对应地转换成D0M树的形式,但实际上许多网页并没有遵循该标准。因此在D0M方法使用时通常都需要预处理模块,将网页最终抽象为一棵D0M树。[0006]一、基于D0M的网页正文提取方法[0007]基于D0M的网页正文提取方法是一种基于D0M的网页内容提取方法,其最初目的是完善PDA应用,移除广告内容。D0M方法先将网页内容抽象为对应的对象,转换为节点的形式;然后用父子关系将各节点组织起来,最终形成一棵树型结构。[0008]在互联网中来自同一网站的网页结构大部分都是相同的,例如Yahoo新闻网页〈body〉标签都是由〈iframe〉和<div>两个标签组成的,因此可以把这类网页模板聚为一类。聚类相似的D0M树需要计算相似度,计算两棵简单的D0M树相似度的步骤是:第一步判断两棵树的根节点是否相同,若不相同就返回〇;若相同,则继续比较两棵树的叶子节点。第二步比较两棵D0M树的叶子节点的名称和属性,返回两棵D0M树中相同节点的数目。[0009]二、基于统计的网页正文提取方法[0010]基于统计的方法主要用于提取新闻类网页的正文。该方法的原理是网页正文信息只能位于网页中的〈table〉标签节点。方法的基本步骤是:第一步去除页面的噪声,根据网页标签将网页对应表示成一棵树;第二步处理每个〈table〉节点,去除节点内的HTML标签,然后得到不含任何标签的字符串;第三步比较每个节点的字符数量,通常选取字符数量最大的节点为网页正文。该方法优点是利用了新闻网页的特性,通用性好,实现简单,也不需要针对不同的网页构建不同的模板,不需要样本学习,时间复杂度低。但是缺点是该算法只适用于网页中所有正文信息都被放在一个〈table〉节点中的情况,对于有多个〈table〉正文的网页,效果并不好。由于现在微博、轻博客等的兴起,越来越多的复杂格式和短文本网页被产生,这种方法的局限性更加明显。[0011]现有方法中网页正文提取比对效果表:[0012][0013]总的说来,目前在网页正文提取和网页相似性计算的相关算法都还停留在主要针对传统互联网网页阶段,无论是网页正文提取还是网页相似性研究,对移动互联网网页内容的新特点并没有认真考量,主要表现在以下几个缺点:[0014](1)移动互联网的网页结构越来越复杂,涉及的新兴方法也越来越多,传统的2.2节所介绍的网页正文提取算法的局限性越来越明显。[0015](2)由于短文本网页内容太多,部分文本相似性研究算法的理论基础不再存在,算法准确率降低,已经不能适应大规模数据使用的需求。【
发明内容】[0016]本发明所要解决的方法问题在于,提供了一种本基于主题相似分块的网页正文提取及比对方法,结果表明本发明方法在准确率上取得较大提升。[0017]为解决上述方法问题,本发明提供了一种网页正文提取对比方法,包括以下步骤:[0018]步骤A:基于对于网页特定标签,判断网页是否为正文页;[0019]步骤B:对平行网页的识别;[0020]所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤。[0021]所述步骤A可以进一步包括以下子步骤:[0022]步骤一:网页预处理,构造HTML树;[0023]步骤二:对HTML树剪枝;[0024]步骤三:获取网页主题;[0025]步骤四:提取分块内的字符串内容;[0026]步骤五:计算主题S和一个块内内容y的距离;[0027]步骤六:比较编辑距离L和max(p,q)。[0028]所述步骤二还可以进一步包括以下子步骤:按照〈table〉标签进行分块,将不包含文本和链接信息的叶子节点去掉。[0029]所述步骤五可以进一步包括:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:[0032]采用改进的编辑距离计算分类的HTML标签序列的相似度:[0033]编辑距离是指两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数,编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;根据标签的分类特性,所述改进的编辑距离定义为一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价;其中,删除操作和插入操作代价为1,类内替换操作代价为〇,类间替换操作代价为1.5,即为:[0034]插入操作:ct(t)=l;[0035]删除操作:Cd(t)=l;[0037]取¥1^标签序列1=[¥0,¥1,,1£1,"'\^]和2=[2(),21,,11),,18]采用动态规划计算两者改进的编辑距离矩阵M,矩阵元素算法M[a,b]:[0039]矩阵右下角元素M[A,B]即&和&改进的编辑距离,则标签结构信息Dt:[0040]Dt=M[A,B]/Max(A+l,B+l)。[0041]所述步骤B可以进一步包括:特征信息提取子步骤和支持向量机分类子步骤;[0042]所述特征信息提取子步骤进一步包括:[0043]建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;[0044]将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签二类标签:[0045]结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;[0046]格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;[0047]无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;计算结构对称性时删去。[0048]采用改进的编辑距离计算分类的HTML标签序列的相似度:[0049]编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数;[0050]编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;[0051]根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。[0052]为解决上述技术问题,本发明还提供了一种网页正文提取对比系统,包括以下模块:[0053]模块A:用于基于对于网页特定标签,判断网页是否为正文页;[0054]模块B:用于对平行网页的识别;[0055]所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤。[0056]所述模块A可以进一步包括以下子模块:[0057]预处理子模块:用于对网页预处理,构造HTML树;[0058]剪枝子模块:用于对HTML树剪枝;[0059]获取主题子模块:用于获取网页主题;[0060]提取分块子模块:用于提取分块内的字符串内容;[0061]计算距离子模块:用于计算主题S和一个块内内容y的距离;[0062]比较距离子模块:用于比较编辑距离L和max(p,q)。[0063]所述剪枝子模块可以进一步用于:按照〈table〉标签进行分块,将不包含文本和链接信息的叶子节点去掉。[0064]所述计算距离子模块可以进一步用于:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:[0067]采用改进的编辑距离计算分类的HTML标签序列的相似度:[0068]编辑距离是指两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作次数,编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;根据标签的分类特性,所述改进的编辑距离定义为一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价;其中,删除操作和插入操作代价为1,类内替换操作代价当前第1页1 2 3 4 5 
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1