网页正文提取比对方法及其系统的制作方法_2

文档序号:9810593阅读:来源:国知局
为〇,类间替换操作代价为1.5,即为:
[0069] 插入操作:ct(t) = l;
[0070] 删除操作:Cd(t) = l;
[0072] HTML 标签序列 W= [WQ,W1,'"Wa,…WA]和Z= [ZQ,Z1,'"Zb,'"ZB]采用动态规划计算两 者改进的编辑距离矩阵M,矩阵元素算法M[a,b]:
[0074]矩阵右下角元素 M[A,B]即&和&改进的编辑距离,则标签结构信息Dt:
[0075] Dt=M[A,B]/Max(A+l,B+l)。
[0076] 所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类 子模块;
[0077]所述特征信息提取子模块用于:
[0078]建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信 息、文本句数信息和数字序列信息;
[0079]将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无 关标签二类标签:
[0080]结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0081 ] 格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 small、span、strike、strong、style、sub、sup、tt、u;
[0082] 无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、me ta、samp、 script、var、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。
[0083] 采用改进的编辑距离计算分类的HTML标签序列的相似度:
[0084]编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑 操作次数;
[0085]编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
[0086]根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过 删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
[0087]本发明有益的方法效果在于:本发明网页正文提取比对方法对比传统的网页分块 算法和基于主题相似分块的网页正文提取方法,具有以下优点:
[0088] (1)能提取正文较短的网页,内容的长短并不会影响选择的正确性。因为无论正文 长短都会参与计算,都不会被忽略。
[0089] (2)对处理〈table〉嵌套的复杂的网页。因为构建了一棵HTML树,可以保证每一个〈 table〉标签都能得到一致的处理。
[0090] (3)降低了运算量。不需要进行簇的分析,聚类是非常耗费时间的,不需要计算块 的熵,只是针对本网页进行分析就能判断。
[0091] (4)增加了一定程度的语义信息。因为有效利用了标题标签与正文的语义信息,提 取正文的语义相关性更强。
【具体实施方式】
[0092] 以下将结合实施例来详细说明本发明的实施方式,借此对本发明如何应用方法手 段来解决方法问题,并达成方法效果的实现过程能充分理解并据以实施。
[0093] 本发明基于主题相似分块的网页正文提取对比方法中所说的主题,即网页的标题 和标签。本发明算法为了避免移动互联网短文本分块被忽略,不计算内容块的熵,主要利用 主题和内容块的相似度作为提取块的判断依据。具体而言,主要利用网页的以下几个特点:
[0094] -是网页格式具有树形结构。现在越来越多的网页格式是按照xml的标准构建,网 页标签通常是嵌套成对出现的,因此可以转换成一个HTML树形结构,实际上在基于D0M的网 页正文提取方法中也有利用这一特性。在本发明方法中构建HTML的树形结构,主要是为了 剪掉无用的分枝,减少运算量。
[0095]二是网页通常是分块布局的。移动互联网的网页格式虽然复杂,但是从内容上来 讲,每个网页基本都包括以下块:分类块、导航块、正文块、相关链接块和广告信息块等。利 用网页的这种特性,并且网页标签通常是嵌套成对出现的,利用网页标签对网页进行分块。 实际上目前由于DIV+CSS方法的广泛使用,加之标签<table>〈/table>标签具有很好的布局 特性,现在大部分网页在最终呈现给用户时都采用〈table〉标签进行网页格式的布局。基于 主题相似分块的网页正文提取方法正是以此为依据,利用〈table〉标签对网页进行解析。 [0096]三是主题和内容有关联性。网页通常都具有标题和若干标签,而且高度概括了网 页正文,因此主题实际上最能体现网页正文的特征,代表了网页的关键内容。这在以前的网 页正文提取方法中都未能考虑。本发明方法正是将主题与正文的关系作为正文提取的重要 指标。特别由于移动互联网网页的结构越来越多样化,网页内容的长短不一,广告的干扰信 息多,短文本的网页内容很容易淹没在广告信息中,因此在网页提取中将主题和网页内容 的相似度考虑进来是必不可少的。本发明度量相似度的指标是编辑距离(即Levenshtein距 离hLevenshtein距离即从原串(a)转换到目标串(b)所需要的最少的插入、删除和替换的 数目。Levenshtein公式如下式(1)所示:
[0098]说明:a、b为字符串,i为字符串a的长度,j为字符串b的长度。利用以上三点为基 础,本基于主题相似分块的网页正文提取方法基本思想如下:将网页转换为HTML树的结构; 提取网页的主题;利用网页标签提取内容块;计算主题和内容看的编辑距离Levenshtein距 离L,当距离L小于内容块的长度p时,则视为网页正文内容被提取出来,当距离L大于(包括 等于)某一内容块的长度时,则忽略该内容。
[0099]在一实施例中,本发明提供了一种网页正文提取对比方法,包括以下步骤:
[0100] 步骤A:基于对于网页特定标签,判断网页是否为正文页;
[0101] 步骤B:对平行网页的识别;
[0102] 所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤。
[0103] 所述步骤A可以进一步包括以下子步骤:
[0104] 步骤一:网页预处理,构造 HTML树;
[0105] 步骤二:对HTML树剪枝;
[0106] 步骤三:获取网页主题;
[0107] 步骤四:提取分块内的字符串内容;
[0108] 步骤五:计算主题S和一个块内内容y的距离;
[0109] 步骤六:比较编辑距离L和max(p,q)。
[0110] 所述步骤二还可以进一步包括以下子步骤:按照〈table〉标签进行分块,将不包含 文本和链接信息的叶子节点去掉。
[0111 ] 所述步骤五可以进一步包括:对中文进行分词,使用的Levenshtein距离如式(2) 和式(3)所示:
[0114] 采用改进的编辑距离计算分类的HTML标签序列的相似度:
[0115] 编辑距离是指两个字符串之间,由一个字符串转变成另一个字符串所需的最少编 辑操作次数,编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;根 据标签的分类特性,所述改进的编辑距离定义为一个字符串的不同类型标签通过删除、插 入和替换转换成另一个字符串不同类型标签最少操作代价;其中,删除操作和插入操作代 价为1,类内替换操作代价为0,类间替换操作代价为1.5,即为:
[0116] 插入操作:ct(t) = l;
[0117] 删除操作:Cd(t) = l;
[01 19] HTML 标签序列 W= [WQ,W1,'"Wa,…WA]和Z= [ZQ,Z1,'"Zb,'"ZB]采用动态规划计算两 者改进的编辑距离矩阵M,矩阵元素算法M[a,b]:
[0121 ]矩阵右下角元素 M[A,B]即&和&改进的编辑距离,则标签结构信息Dt:
[0122] Dt=M[A,B]/Max(A+l,B+l)。
[0123] 所述步骤B可以进一步包括:特征信息提取子步骤和支持向量机分类子步骤;
[0124] 所述特征信息提取子步骤进一步包括:
[0125] 建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信 息、文本句数信息和数字序列信息;
[0126] 将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无 关标签二类标签:
[0127] 结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0128] 格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 smal1、span、strike、strong、style、sub、sup、tt、u;
[0129] 无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、 script、var、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。
[0130] 采用改进的编辑距离计算分类的HTML标签序列的相似度:
[0131]编辑距离为两个字符串
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1