网页正文提取比对方法及其系统的制作方法_3

文档序号:9810593阅读:来源:国知局
之间,由一个字符串转变成另一个字符串所需的最少编辑 操作次数;
[0132] 编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
[0133] 根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过 删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
[0134] 在另一实施例中,本发明还提供了一种网页正文提取对比系统,包括以下模块:
[0135] 模块A:用于基于对于网页特定标签,判断网页是否为正文页;
[0136] 模块B:用于对平行网页的识别;
[0137] 所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤。
[0138] 所述模块A可以进一步包括以下子模块:
[0139] 预处理子模块:用于对网页预处理,构造 HTML树;
[0140] 剪枝子模块:用于对HTML树剪枝;
[0141 ]获取主题子模块:用于获取网页主题;
[0142] 提取分块子模块:用于提取分块内的字符串内容;
[0143] 计算距离子模块:用于计算主题S和一个块内内容y的距离;
[0144] 比较距离子模块:用于比较编辑距离L和max(p,q)。
[0145] 所述剪枝子模块可以进一步用于:按照〈table〉标签进行分块,将不包含文本和链 接信息的叶子节点去掉。
[0146] 所述计算距离子模块可以进一步用于:对中文进行分词,使用的Levenshtein距离 如式(2)和式(3)所示:
[0149] 采用改进的编辑距离计算分类的HTML标签序列的相似度:
[0150] 编辑距离是指两个字符串之间,由一个字符串转变成另一个字符串所需的最少编 辑操作次数,编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;根 据标签的分类特性,所述改进的编辑距离定义为一个字符串的不同类型标签通过删除、插 入和替换转换成另一个字符串不同类型标签最少操作代价;其中,删除操作和插入操作代 价为1,类内替换操作代价为〇,类间替换操作代价为1.5,即为:
[0151] 插入操作:ct(t) = l;
[0152] 删除操作:Cd(t) = l;
[0154] HTML标签序列W= [w0,wi,·ι3,…wa]和Z= [ZQ,zi,'"Zb,…zb]采用动态规划计算两 者改进的编辑距离矩阵M,矩阵元素算法M[a,b]:
[0156] 矩阵右下角元素 M[A,B]即&和&改进的编辑距离,则标签结构信息Dt:
[0157] Dt=M[A,B]/Max(A+l,B+l)。
[0158] 所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类 子模块;
[0159] 所述特征信息提取子模块用于:
[0160]建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信 息、文本句数信息和数字序列信息;
[0161 ]将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无 关标签二类标签:
[0162] 结构标签:blockquote、body、dir、div、dt、h、head、hr、li 、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0163] 格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 small、span、strike、strong、style、sub、sup、tt、u;
[0164] 无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、me ta、samp、 script、var、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。
[0165] 采用改进的编辑距离计算分类的HTML标签序列的相似度:
[0166] 编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑 操作次数;
[0167] 编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
[0168] 根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过 删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
[0169] 在另一实施例中,本发明提供了一种网页正文提取对比方法,包括以下步骤:
[0170] 步骤A:基于对于网页特定标签,判断网页是否为正文页;
[0171] 步骤B:对平行网页的识别。
[0172] 所述步骤A可以进一步包括以下子步骤:
[0173] 步骤一:网页预处理,构造 HTML树;
[0174] 步骤二:对HTML树剪枝;
[0175] 步骤三:获取网页主题;
[0176] 步骤四:提取分块内的字符串内容;
[0177]步骤五:计算主题S和一个块内内容y的距离;
[0178] 步骤六:比较编辑距离L和max(p,q)。
[0179] 所述步骤二还可以进一步包括以下子步骤:按照〈table〉标签进行分块,将不包含 文本和链接信息的叶子节点去掉。
[0180] 所述步骤五可以进一步包括:对中文进行分词,使用的Levenshtein距离如式(2) 和式(3)所示:
[0183] 所述步骤B可以进一步包括:特征信息提取子步骤和支持向量机分类子步骤;
[0184] 所述特征信息提取子步骤进一步包括:
[0185] 建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信 息、文本句数信息和数字序列信息;
[0186] 将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无 关标签二类标签:
[0187] 结构标签:blockquote、body、dir、div、dt、h、head、hr、li 、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0188] 格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 small、span、strike、strong、style、sub、sup、tt、u;
[0189] 无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、me ta、samp、 script、var、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。
[0190] 采用改进的编辑距离计算分类的HTML标签序列的相似度:
[0191] 编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑 操作次数;
[0192] 编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;
[0193] 根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过 删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
[0194] 在另一实施例中,本发明还提供了一种网页正文提取对比系统,包括以下模块:
[0195] 模块A:用于基于对于网页特定标签,判断网页是否为正文页;
[0196] 模块B:用于对平行网页的识别。
[0197] 所述模块A可以进一步包括以下子模块:
[0198] 预处理子模块:用于对网页预处理,构造 HTML树;
[0199] 剪枝子模块:用于对HTML树剪枝;
[0200] 获取主题子模块:用于获取网页主题;
[0201] 提取分块子模块:用于提取分块内的字符串内容;
[0202] 计算距离子模块:用于计算主题S和一个块内内容y的距离;
[0203]比较距离子模块:用于比较编辑距离L和maX(p,q)。
[0204]所述剪枝子模块可以进一步用于:按照〈table〉标签进行分块,将不包含文本和链 接信息的叶子节点去掉。
[0205] 所述计算距离子模块可以进一步用于:对中文进行分词,使用的Levenshtein距离 如式(2)和式(3)所示:
[0208] 所述模块B可以进一步包括以下子模块:特征信息提取子模块和支持向量机分类 子模块;
[0209] 所述特征信息提取子模块用于:
[0210] 建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信 息、文本句数信息和数字序列信息;
[0211] 将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无 关标签二类标签:
[0212] 结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul;
[0213] 格式标签:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 smal1、span、strike、strong、style、sub、sup、tt、u;
[0214] 无关标签:applet、base、basefont、bdo、br、button、del、kbd、link、me
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1