网页正文提取比对方法及其系统的制作方法_3

文档序号：9810593阅读：来源：国知局

之间，由一个字符串转变成另一个字符串所需的最少编辑操作次数；
[0132] 编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符；
[0133] 根据标签的分类特性，改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
[0134] 在另一实施例中，本发明还提供了一种网页正文提取对比系统，包括以下模块：
[0135] 模块A:用于基于对于网页特定标签，判断网页是否为正文页；
[0136] 模块B:用于对平行网页的识别；
[0137] 所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤。
[0138] 所述模块A可以进一步包括以下子模块：
[0139] 预处理子模块:用于对网页预处理，构造 HTML树；
[0140] 剪枝子模块:用于对HTML树剪枝；
[0141 ]获取主题子模块:用于获取网页主题；
[0142] 提取分块子模块:用于提取分块内的字符串内容；
[0143] 计算距离子模块:用于计算主题S和一个块内内容y的距离；
[0144] 比较距离子模块:用于比较编辑距离L和max(p，q)。
[0145] 所述剪枝子模块可以进一步用于:按照〈table〉标签进行分块，将不包含文本和链接信息的叶子节点去掉。
[0146] 所述计算距离子模块可以进一步用于:对中文进行分词，使用的Levenshtein距离如式(2)和式(3)所示：
[0149] 采用改进的编辑距离计算分类的HTML标签序列的相似度：
[0150] 编辑距离是指两个字符串之间，由一个字符串转变成另一个字符串所需的最少编辑操作次数，编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;根据标签的分类特性，所述改进的编辑距离定义为一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价;其中，删除操作和插入操作代价为1，类内替换操作代价为〇，类间替换操作代价为1.5，即为：
[0151] 插入操作:ct(t) = l;
[0152] 删除操作:Cd(t) = l;
[0154] HTML标签序列W= [w0，wi，·ι3，…wa]和Z= [ZQ，zi，'"Zb，…zb]采用动态规划计算两者改进的编辑距离矩阵M，矩阵元素算法M[a，b]:
[0156] 矩阵右下角元素 M[A，B]即&和&改进的编辑距离，则标签结构信息Dt:
[0157] Dt=M[A，B]/Max(A+l，B+l)。
[0158] 所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块；
[0159] 所述特征信息提取子模块用于：
[0160]建立特征信息：特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息；
[0161 ]将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签二类标签：
[0162] 结构标签：blockquote、body、dir、div、dt、h、head、hr、li 、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0163] 格式标签：abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 small、span、strike、strong、style、sub、sup、tt、u;
[0164] 无关标签：applet、base、basefont、bdo、br、button、del、kbd、link、me ta、samp、 script、var、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。
[0165] 采用改进的编辑距离计算分类的HTML标签序列的相似度：
[0166] 编辑距离为两个字符串之间，由一个字符串转变成另一个字符串所需的最少编辑操作次数；
[0167] 编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符；
[0168] 根据标签的分类特性，改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
[0169] 在另一实施例中，本发明提供了一种网页正文提取对比方法，包括以下步骤：
[0170] 步骤A:基于对于网页特定标签，判断网页是否为正文页；
[0171] 步骤B:对平行网页的识别。
[0172] 所述步骤A可以进一步包括以下子步骤：
[0173] 步骤一：网页预处理，构造 HTML树；
[0174] 步骤二:对HTML树剪枝；
[0175] 步骤三:获取网页主题；
[0176] 步骤四：提取分块内的字符串内容；
[0177]步骤五:计算主题S和一个块内内容y的距离；
[0178] 步骤六:比较编辑距离L和max(p，q)。
[0179] 所述步骤二还可以进一步包括以下子步骤:按照〈table〉标签进行分块，将不包含文本和链接信息的叶子节点去掉。
[0180] 所述步骤五可以进一步包括:对中文进行分词，使用的Levenshtein距离如式（2) 和式(3)所示：
[0183] 所述步骤B可以进一步包括:特征信息提取子步骤和支持向量机分类子步骤；
[0184] 所述特征信息提取子步骤进一步包括：
[0185] 建立特征信息：特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息；
[0186] 将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签二类标签：
[0187] 结构标签：blockquote、body、dir、div、dt、h、head、hr、li 、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0188] 格式标签：abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 small、span、strike、strong、style、sub、sup、tt、u;
[0189] 无关标签：applet、base、basefont、bdo、br、button、del、kbd、link、me ta、samp、 script、var、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。
[0190] 采用改进的编辑距离计算分类的HTML标签序列的相似度：
[0191] 编辑距离为两个字符串之间，由一个字符串转变成另一个字符串所需的最少编辑操作次数；
[0192] 编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符；
[0193] 根据标签的分类特性，改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
[0194] 在另一实施例中，本发明还提供了一种网页正文提取对比系统，包括以下模块：
[0195] 模块A:用于基于对于网页特定标签，判断网页是否为正文页；
[0196] 模块B:用于对平行网页的识别。
[0197] 所述模块A可以进一步包括以下子模块：
[0198] 预处理子模块:用于对网页预处理，构造 HTML树；
[0199] 剪枝子模块:用于对HTML树剪枝；
[0200] 获取主题子模块:用于获取网页主题；
[0201] 提取分块子模块:用于提取分块内的字符串内容；
[0202] 计算距离子模块:用于计算主题S和一个块内内容y的距离；
[0203]比较距离子模块:用于比较编辑距离L和maX(p，q)。
[0204]所述剪枝子模块可以进一步用于:按照〈table〉标签进行分块，将不包含文本和链接信息的叶子节点去掉。
[0205] 所述计算距离子模块可以进一步用于:对中文进行分词，使用的Levenshtein距离如式(2)和式(3)所示：
[0208] 所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块；
[0209] 所述特征信息提取子模块用于：
[0210] 建立特征信息：特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息；
[0211] 将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签二类标签：
[0212] 结构标签：blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0213] 格式标签：abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 smal1、span、strike、strong、style、sub、sup、tt、u;
[0214] 无关标签：applet、base、basefont、bdo、br、button、del、kbd、link、me

完整全部详细技术资料下载

当前第3页1 2 3 4 5