网页正文提取比对方法及其系统的制作方法_2

文档序号：9810593阅读：来源：国知局

为〇，类间替换操作代价为1.5，即为：
[0069] 插入操作:ct(t) = l;
[0070] 删除操作:Cd(t) = l;
[0072] HTML 标签序列 W= [WQ，W1，'"Wa，…WA]和Z= [ZQ，Z1，'"Zb，'"ZB]采用动态规划计算两者改进的编辑距离矩阵M，矩阵元素算法M[a，b]:
[0074]矩阵右下角元素 M[A，B]即&和&改进的编辑距离，则标签结构信息Dt:
[0075] Dt=M[A，B]/Max(A+l，B+l)。
[0076] 所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块；
[0077]所述特征信息提取子模块用于：
[0078]建立特征信息：特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息；
[0079]将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签二类标签：
[0080]结构标签：blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0081 ] 格式标签：abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 small、span、strike、strong、style、sub、sup、tt、u;
[0082] 无关标签：applet、base、basefont、bdo、br、button、del、kbd、link、me ta、samp、 script、var、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。
[0083] 采用改进的编辑距离计算分类的HTML标签序列的相似度：
[0084]编辑距离为两个字符串之间，由一个字符串转变成另一个字符串所需的最少编辑操作次数；
[0085]编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符；
[0086]根据标签的分类特性，改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
[0087]本发明有益的方法效果在于:本发明网页正文提取比对方法对比传统的网页分块算法和基于主题相似分块的网页正文提取方法，具有以下优点：
[0088] (1)能提取正文较短的网页，内容的长短并不会影响选择的正确性。因为无论正文长短都会参与计算，都不会被忽略。
[0089] (2)对处理〈table〉嵌套的复杂的网页。因为构建了一棵HTML树，可以保证每一个〈 table〉标签都能得到一致的处理。
[0090] (3)降低了运算量。不需要进行簇的分析，聚类是非常耗费时间的，不需要计算块的熵，只是针对本网页进行分析就能判断。
[0091] (4)增加了一定程度的语义信息。因为有效利用了标题标签与正文的语义信息，提取正文的语义相关性更强。
【具体实施方式】
[0092] 以下将结合实施例来详细说明本发明的实施方式，借此对本发明如何应用方法手段来解决方法问题，并达成方法效果的实现过程能充分理解并据以实施。
[0093] 本发明基于主题相似分块的网页正文提取对比方法中所说的主题，即网页的标题和标签。本发明算法为了避免移动互联网短文本分块被忽略，不计算内容块的熵，主要利用主题和内容块的相似度作为提取块的判断依据。具体而言，主要利用网页的以下几个特点：
[0094] -是网页格式具有树形结构。现在越来越多的网页格式是按照xml的标准构建，网页标签通常是嵌套成对出现的，因此可以转换成一个HTML树形结构，实际上在基于D0M的网页正文提取方法中也有利用这一特性。在本发明方法中构建HTML的树形结构，主要是为了剪掉无用的分枝，减少运算量。
[0095]二是网页通常是分块布局的。移动互联网的网页格式虽然复杂，但是从内容上来讲，每个网页基本都包括以下块:分类块、导航块、正文块、相关链接块和广告信息块等。利用网页的这种特性，并且网页标签通常是嵌套成对出现的，利用网页标签对网页进行分块。实际上目前由于DIV+CSS方法的广泛使用，加之标签<table>〈/table>标签具有很好的布局特性，现在大部分网页在最终呈现给用户时都采用〈table〉标签进行网页格式的布局。基于主题相似分块的网页正文提取方法正是以此为依据，利用〈table〉标签对网页进行解析。 [0096]三是主题和内容有关联性。网页通常都具有标题和若干标签，而且高度概括了网页正文，因此主题实际上最能体现网页正文的特征，代表了网页的关键内容。这在以前的网页正文提取方法中都未能考虑。本发明方法正是将主题与正文的关系作为正文提取的重要指标。特别由于移动互联网网页的结构越来越多样化，网页内容的长短不一，广告的干扰信息多，短文本的网页内容很容易淹没在广告信息中，因此在网页提取中将主题和网页内容的相似度考虑进来是必不可少的。本发明度量相似度的指标是编辑距离（即Levenshtein距离hLevenshtein距离即从原串（a)转换到目标串（b)所需要的最少的插入、删除和替换的数目。Levenshtein公式如下式（1)所示：
[0098]说明：a、b为字符串，i为字符串a的长度，j为字符串b的长度。利用以上三点为基础，本基于主题相似分块的网页正文提取方法基本思想如下:将网页转换为HTML树的结构；提取网页的主题;利用网页标签提取内容块;计算主题和内容看的编辑距离Levenshtein距离L，当距离L小于内容块的长度p时，则视为网页正文内容被提取出来，当距离L大于(包括等于)某一内容块的长度时，则忽略该内容。
[0099]在一实施例中，本发明提供了一种网页正文提取对比方法，包括以下步骤：
[0100] 步骤A:基于对于网页特定标签，判断网页是否为正文页；
[0101] 步骤B:对平行网页的识别；
[0102] 所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤。
[0103] 所述步骤A可以进一步包括以下子步骤：
[0104] 步骤一：网页预处理，构造 HTML树；
[0105] 步骤二:对HTML树剪枝；
[0106] 步骤三:获取网页主题；
[0107] 步骤四：提取分块内的字符串内容；
[0108] 步骤五:计算主题S和一个块内内容y的距离；
[0109] 步骤六:比较编辑距离L和max(p，q)。
[0110] 所述步骤二还可以进一步包括以下子步骤:按照〈table〉标签进行分块，将不包含文本和链接信息的叶子节点去掉。
[0111 ] 所述步骤五可以进一步包括:对中文进行分词，使用的Levenshtein距离如式（2) 和式(3)所示：
[0114] 采用改进的编辑距离计算分类的HTML标签序列的相似度：
[0115] 编辑距离是指两个字符串之间，由一个字符串转变成另一个字符串所需的最少编辑操作次数，编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;根据标签的分类特性，所述改进的编辑距离定义为一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价;其中，删除操作和插入操作代价为1，类内替换操作代价为0，类间替换操作代价为1.5，即为：
[0116] 插入操作:ct(t) = l;
[0117] 删除操作:Cd(t) = l;
[01 19] HTML 标签序列 W= [WQ，W1，'"Wa，…WA]和Z= [ZQ，Z1，'"Zb，'"ZB]采用动态规划计算两者改进的编辑距离矩阵M，矩阵元素算法M[a，b]:
[0121 ]矩阵右下角元素 M[A，B]即&和&改进的编辑距离，则标签结构信息Dt:
[0122] Dt=M[A，B]/Max(A+l，B+l)。
[0123] 所述步骤B可以进一步包括:特征信息提取子步骤和支持向量机分类子步骤；
[0124] 所述特征信息提取子步骤进一步包括：
[0125] 建立特征信息：特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息；
[0126] 将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签二类标签：
[0127] 结构标签：blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0128] 格式标签：abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 smal1、span、strike、strong、style、sub、sup、tt、u;
[0129] 无关标签：applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、 script、var、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。
[0130] 采用改进的编辑距离计算分类的HTML标签序列的相似度：
[0131]编辑距离为两个字符串

完整全部详细技术资料下载

当前第2页1 2 3 4 5