网页正文提取比对方法及其系统的制作方法_5

文档序号:9810593阅读:来源:国知局
过的网页中提取;Di、Ds和Dn反映网页内容信息,从网页正文中提 取。
[0281] 通过在由已知的平行网页对和非平行网页对构成的训练集上训练SVM,判定未知 分类的网页是否为平行网页。支持向量机的判断结果yi = l表示网页对为平行网页对,yi =-1表示网页对为非平行网页对。
[0282] 本发明网页正文提取比对方法对比传统的网页分块算法和基于主题相似分块的 网页正文提取方法,后者具有以下优点:
[0283] (1)能提取正文较短的网页,内容的长短并不会影响选择的正确性。因为无论正文 长短都会参与计算,都不会被忽略。
[0284] (2)对处理〈table〉嵌套的复杂的网页。因为构建了一棵HTML树,可以保证每一个〈 table〉标签都能得到一致的处理。
[0285] (3)降低了运算量。不需要进行簇的分析,聚类是非常耗费时间的,不需要计算块 的熵,只是针对本网页进行分析就能判断。
[0286] (4)增加了一定程度的语义信息。因为有效利用了标题标签与正文的语义信息,提 取正文的语义相关性更强。
[0287] 所有上述的首要实施这一知识产权,并没有设定限制其他形式的实施这种新产品 和/或新方法。本领域方法人员将利用这一重要信息,上述内容修改,以实现类似的执行情 况。但是,所有修改或改造基于本发明新产品属于保留的权利。
【主权项】
1. 一种网页正文提取对比方法,其特征在于,包括W下步骤: 步骤A:基于对于网页特定标签,判断网页是否为正文页; 步骤B:对平行网页的识别; 所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤。2. 根据权利要求1所述网页正文提取对比方法,其特征在于,所述步骤A进一步包括W 下子步骤: 步骤一:网页预处理,构造 HTML树; 步骤二:对HTML树剪枝; 步骤Ξ:获取网页主题; 步骤四:提取分块内的字符串内容; 步骤五:计算主题S和一个块内内容y的距离; 步骤六:比较编辑距离L和max(p,q)。3. 根据权利要求1或2所述网页正文提取对比方法,其特征在于,所述步骤二进一步包 括W下子步骤:按照<*曰616〉标签进行分块,将不包含文本和链接信息的叶子节点去掉。4. 根据权利要求1~3中任一项所述网页正文提取对比方法,其特征在于,所述步骤五 进一步包括:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:采用改进的编辑距离计算分类的HTML标签序列的相似度: 编辑距离是指两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操 作次数,编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;根据标 签的分类特性,所述改进的编辑距离定义为一个字符串的不同类型标签通过删除、插入和 替换转换成另一个字符串不同类型标签最少操作代价;其中,删除操作和插入操作代价为 1,类内替换操作代价为0,类间替换操作代价为1.5,即为: 插入操作:Ct(t) = l; 删除操作:Cd(t) = l; 替换操作HTML标签序列W= [w〇,wi,…心…WA巧口Z= [ζ〇,ζι,···Ζ6, ···ZB]采用动态规划计算两者改 进的编辑距离矩阵M,矩阵元素算法M[a,b]:矩阵右下角元素 M[A,B]即Si和S2改进的编辑距离,则标签结构信息Dt: Dt=M[A,B]/M ax(A+l,B+l)。5. 根据权利要求1~4中任一项所述网页正文提取对比方法,其特征在于, 所述特征信息提取子步骤进一步包括: 建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文 本句数信息和数字序列信息; 将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标 签Ξ类标签: 结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、 tfoot、th、thead、tr、ul; 格式标签:曰 bbr、曰 cronym、b、bi邑、center、cite、code、dfh、em、font、i、pre、s、small、 span、strike、strong、style、sub、sup、tt、u; 无关标签:曰Pplet、b曰se、b曰sefont、bdo、br、button、del、kbd、link、met曰、s曰mp、 script、va;r、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。 采用改进的编辑距离计算分类的HTML标签序列的相似度: 编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作 次数; 编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符; 根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、 插入和替换转换成另一个字符串不同类型标签最少操作代价。6. -种网页正文提取对比系统,其特征在于,包括W下模块: 模块A:用于基于对于网页特定标签,判断网页是否为正文页; 模块B:用于对平行网页的识别; 所述步骤B进一步包括:特征信息提取子步骤和支持向量机分类子步骤。7. 根据权利要求6所述网页正文提取对比系统,其特征在于,所述模块A进一步包括W 下子模块: 预处理子模块:用于对网页预处理,构造 HTML树; 剪枝子模块:用于对HTML树剪枝; 获取主题子模块:用于获取网页主题; 提取分块子模块:用于提取分块内的字符串内容; 计算距离子模块:用于计算主题S和一个块内内容y的距离; 比较距离子模块:用于比较编辑距离L和max(p,q)。8. 根据权利要求6或7所述网页正文提取对比系统,其特征在于,所述剪枝子模块进一 步用于:按照〈table〉标签进行分块,将不包含文本和链接信息的叶子节点去掉。9. 根据权利要求6~8中任一项所述网页正文提取对比系统,其特征在于,所述计算距 离子模块进一步用于:对中文进行分词,使用的Levenshtein距离如式(2)和式(3)所示:采用改进的编辑距离计算分类的HTML标签序列的相似度: 编辑距离是指两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操 作次数,编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符;根据标 签的分类特性,所述改进的编辑距离定义为一个字符串的不同类型标签通过删除、插入和 替换转换成另一个字符串不同类型标签最少操作代价;其中,删除操作和插入操作代价为 1,类内替换操作代价为0,类间替换操作代价为1.5,即为: 插入操作:Ct(t) = l; 删除操作:Cd(t) = l; 替换操作HTML标签序列W= [w〇,wi,…心…WA巧口Z= [ζ〇,ζι,···Ζ6, ···ZB]采用动态规划计算两者改 进的编辑距离矩阵M,矩阵元素算法M[a,b]:矩阵右下角元素 M[A,B]即Si和S2改进的编辑距离,则标签结构信息Dt: Dt=M[A,B]/M ax(A+l,B+l)。10. 根据权利要求6~9中任一项所述网页正文提取对比系统,其特征在于,所述模块B 进一步包括W下子模块:特征信息提取子模块和支持向量机分类子模块; 所述特征信息提取子模块用于: 建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文 本句数信息和数字序列信息; 将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标 签Ξ类标签: 结构标签:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、 tfoot、th、thead、tr、ul; 格式标签:曰 bbr、曰 cronym、b、bi邑、center、cite、code、dfh、em、font、i、pre、s、small、 span、strike、strong、style、sub、sup、tt、u; 无关标签:曰Pplet、b曰se、b曰sefont、bdo、br、button、del、kbd、link、met曰、s曰mp、 script、va;r、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。 采用改进的编辑距离计算分类的HTML标签序列的相似度: 编辑距离为两个字符串之间,由一个字符串转变成另一个字符串所需的最少编辑操作 次数; 编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符; 根据标签的分类特性,改进的编辑距离定义为:一个字符串的不同类型标签通过删除、 插入和替换转换成另一个字符串不同类型标签最少操作代价。
【专利摘要】本发明公开了一种网页正文提取对比方法及其系统。方法包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别。所述步骤A进一步包括以下子步骤:步骤一:网页预处理,构造HTML树;步骤二:对HTML树剪枝;步骤三:获取网页主题;步骤四:提取分块内的字符串内容;步骤五:计算主题S和一个块内内容y的距离;步骤六:比较编辑距离L和max(p,q)。本发明网页正文提取比对方法具有以下优点:能提取正文较短的网页,内容的长短并不会影响选择的正确性。因为无论正文长短都会参与计算,都不会被忽略。对处理&lt;table&gt;嵌套的复杂的网页可以保证每一个&lt;table&gt;标签都能得到一致的处理。
【IPC分类】G06F17/30
【公开号】CN105574066
【申请号】CN201510695688
【发明人】不公告发明人
【申请人】青岛恒波仪器有限公司
【公开日】2016年5月11日
【申请日】2015年10月23日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1