网页正文提取比对方法及其系统的制作方法_4

文档序号：9810593阅读：来源：国知局

ta、samp、 script、var、a、fieldset、form、input、is index、label、legend;计算结构对称性时删去。
[0215] 采用改进的编辑距离计算分类的HTML标签序列的相似度：
[0216] 编辑距离为两个字符串之间，由一个字符串转变成另一个字符串所需的最少编辑操作次数；
[0217] 编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符；
[0218] 根据标签的分类特性，改进的编辑距离定义为:一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。
[0219] 在又一实施例中，结合本发明基于主题相似分块的网页正文提取方法的基本思想，本发明算法显然要包括构造 HTM树、提取网页主题、计算主题和分块相似度三个主要步骤；另外由于网页是半结构化的，需要进行预处理；同时为了降低运算量，需要对构造的树进行剪枝。具体而言，算法的基本步如下：
[0220] 步骤一：网页预处理，构造 html树。对网页进行规范化，最终映射成树形结构，包括以下子步骤：
[0221] (1)在除了网页〈table〉相关标签外的地方若出现的"〈"和"〉"均用&lt和>替换，补全网页由于不规范所缺的<li>、〈hr>等表示结束的标志。
[0222] (2)网页中全部标签的属性值都被放在引号中，如
[0223] 〈a href=〃www.hust.edu.cn〃>〇
[0224] (3)标签都是成对匹配的，即每个开始标签都对应一个结束标签，如〈body〉对应〈/ body >，〈head〉对应〈/head〉。
[0225] (4)标签嵌套正确，如<a>，，〈b>，，〈/b>，，〈/a>。只有嵌套正确了，才能被正确的迭代处理。
[0226] (5)去除一些无用的标记，如f〇rm、img等。利用规范后的标签信息，利用递归的方法，构造网页对应的html树。
[0227] 步骤二:对HTML树剪枝。由于按照〈table〉标签进行分块，部分叶子节点不包含文本和链接信息，因此将这些无用枝去掉，降低运算量。
[0228] 步骤三:获取网页主题。获取网页Title及其各级标题<hl>~<hg>和标签<meta>的内容。若是中文，可以利用中国科学院提出的ICTCLAS分词系统对以上内容进行分词处理，然后去掉虚词、停用词等，最后得到只含有实词的序列Stitle。
[0229] 步骤四：提取分块内的字符串内容。首先对HTML树的叶子节点，即最内层的〈table >标签对应的子树合并成一个块，去掉块内的HTML标记，得到块内的字符串内容Y。
[0230] 步骤五:计算主题S和一个块内内容y的距离。对于中文，需要对中文进行分词，也是利用步骤(三）中的中科院分词系统。在本发明中具体使用的Levenshtein距离如式(2)和式(3)所示：
[0233] 步骤六：比较编辑距离L和max(p，q)。若L〈max(p，q)，则该块内是正文信息，提取出来;否则识别为干扰信息，忽略。最终得到网页的正文信息。
[0234] 另外，本发明网页正文提取对比方法还包括对平行网页的识别。
[0235] 本发明平行网页识别主要包括特征信息提取和支持向量机分类两部分组成。
[0236] 1、特征信息提取
[0237] 特征信息主要有网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息。
[0238] (1)标签结构特征
[0239] 双语平行网页的主体内容互译，但网页的呈现形式往往差异性较大。为避免因形式的差异而误排除了平行网页，增强平行网页间结构标签对齐的相似性程度，，将HTML标签按其在网页布局、显示、链接等不同功能特征划分为结构标签、格式标签和无关标签三类标签：
[0240] 结构标签：blockquote、body、dir、div、dt、h、head、hr、li 、menu、p、q、to We、 tbody、td、tfoot、th、thead、tr、ul 等；
[0241 ] 格式标签：abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、 small、span、strike、strong、style、sub、sup、tt、u等；
[0242] 无关标签：applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、 script、var、a、fieldset、form、input、is index、label、legend等，计算结构对称性时删去。
[0243] 采用改进的编辑距离计算分类的HTML标签序列的相似度。
[0244] 编辑距离是指两个字符串之间，由一个字符串转变成另一个字符串所需的最少编辑操作次数，编辑操作包括一个字符替换成另一个字符、插入一个字符和删除一个字符。根据标签的分类特性，改进的编辑距离定义为一个字符串的不同类型标签通过删除、插入和替换转换成另一个字符串不同类型标签最少操作代价。其中，删除操作和插入操作代价为 1，类内替换操作代价为〇，类间替换操作代价为1.5，即为：
[0245] 插入操作:ct(t) = l;
[0246] 删除操作：Cd(t) = l;
[0248] HTML标签序列W= [wo，wi，."Wa，…wa]和Z= [zo，zi，."zb，."zb]采用动态规划计算两者改进的编辑距离矩阵M，矩阵元素算法M[a，b]:
[0250]矩阵右下角元素 M[A，B]即&和&改进的编辑距离，则标签结构信息Dt:
[0251] Dt=M[A，B]/Max(A+l，B+l)
[0252] 如HTML 标签序列[div、style、style、div、style、style、p、p、div、div]和Z= [div、 table、tr、td、span、span、td、tr、table、div]，改进的编辑距离矩阵如表1所示，改进的编辑距离为3，标签结构信息Dt = 0.3。
[0253] 表1:W与Z改进的编辑距离矩阵Μ
[0255] (2)内容表面特征
[0256] 为降低对双语词典的依赖程度，内容表面特征特指与内容直接相关但非词汇互译的信息，主要包含文本对的文本句数信息、文本长度信息和数字序列信息，各特征如下计算：
[0257] 1)文本句数信息Ds:
[0258] Ds=Min(Ss，ST)/Max(Ss，ST)
[0259] 2)文木长度信息Dt:
[0260] Dt = I Ls~Lt I /Max (Ls, Lt )
[0261] 3)数字序列信息Dn:
[0262] Dn= 1-Z/Max(m,n)
[0263] 其中m和n分别为源语言文本和目标语言文本出现数字的个数，Z为最大匹配长度，详细计算步骤如下：
[0264] 假设从源语言和目标语言文木对巾提取的数字序列分别为Χ=[Χ1，Χ2，···，Χι，…， xm]和Y=[yi，y2，···，yj，…，yn]，由此构建m*n维匹配关系矩阵C，矩阵元素 c[i，j]为：
[0266] 利用矩阵C建立字符串最大匹配长度矩阵D，元素 D[i，j]计算原则：
[0267] a、循环从右向左、从下而上的。
[0268] b、元素 D[i，j]为：
[0269] D[ i，j] =Max(C[ i，j]+C[ i+1，j+1 ]，C[ i，j+1 ]，C[ i+1，j])
[0270] 其中，矩阵D中最终生成的元素 D[0,0]即为最大匹配长度Z。
[0271] 为充分展示共现数字序列信息的计算方法，列举数字序列分别为X=[4,5,34,5， 2,45,8，12]和￥=[4,7,34,8,78,9,5,2，12]。计算所得匹配关系矩阵(：如表2，最大匹配矩阵 D如表3,因此得到最大匹配长度Z为5,数字序列信息Dn的大小为1-5/9 = 0.44。
[0272] 表2:X与Y匹配关系矩阵C
[0276]本发明网页正文提取比对方法采用了支持向量机分类的SVM算法。SVM算法是统计学理论的一种实现方法。3￥1建立在统计学习\^维(\%口]1丨1<-〇161^0116111<18〇；[1116118；[011)理论和结构风险最小原理基础上，通过引入核函数，将样本向量映射到高维特征空间，然后在高维空间中构造最优分类面，获得线性最优决策函数。SVM的优势是可以通过采用核函数巧妙解决维数问题，避免了学习算法计算复杂度与样本维数的直接相关。
[0277]令{(Xi，yi)，i = 1，…，S}由S个数据点构成了 SVM的训练数据集，其中，Xi eRn，yi e {-1，1}，最优决策函数为：
[0279]其中，Sgn[.]为符号函数，非负变量Qi为Lagrange函数，b为超平面的偏置值。
[0280]从预处理过的源语言和目标语言文档中分别选择镜像至本地路径相差两级以内的网页构成候选平行网页对。针对网页对分别计算HTML标签序列信息Dt、文本长度信息Di、文本句数信息Ds和数字序列信息Dn构成SVM分类器的特征信息xieRn(n = 4)。其中，Dt反映网页结构信息，从预处理

完整全部详细技术资料下载

当前第4页1 2 3 4 5