基于标签路径和文本标点比特征融合的网页正文提取方法与流程

文档序号:14129805阅读:516来源:国知局

本发明涉及数据挖掘、网页分析的技术领域,尤其是指一种基于标签路径和文本标点比特征融合的网页正文提取方法。



背景技术:

随着互联网的飞速发展,网络成为了人们获取信息的重要渠道,人们也习惯于在网络中发布各种信息。随之而来的是互联网中的网页和信息量以极高的速度增长。在网页中除了正文信息外,还包含了广告、导航拦等与正文无关的内容。为使用户可以迅速获取有用信息,正文提取方法也应运而生。

网页中包含了大量内容,但仅有有限部分的内容是用户真正需要的,这部分内容称为正文。正文提取的结果可以提高用户的阅读速度和体验,加快用户获取信息的速度,并且提取结果将无关部分剔除后,对后续处理如:新闻推荐、搜索等领域都会产生的积极的影响。典型的正文提取方法存在一些问题:1、需要为不同的网页建立不同的模版;2、当网页结构发生变化后,模板就不再适用;3、采用机器学习方法构造模板需要适用大量的训练网页;4、计算的复杂度未必适用在线系统;5、目前基于特征的提取方法的特征数量、内容较为复杂,或具有较强的针对性;6、当前的提取方法不能同时适用于网页中包含单个正文块和多个正文块的情况;即当前的方法中,未能较大地适应大部分的网页结构。



技术实现要素:

本发明的目的在于克服现有技术的不足,提出了一种基于标签路径和文本标点比特征融合的网页正文提取方法,该方法定义了文本标点比特征对衡量标签路径的平均句子长度,同时结合了标签路径的位置及其内部复杂度,给出了一个较全面的特征值去判断正文内容,使用本发明可以不需要构造提取模版较精确地提取网页正文,适用范围广。

为实现上述目的,本发明所提供的技术方案为:基于标签路径和文本标点比特征融合的网页正文提取方法,包括以下步骤:

1)根据html文档建立dom树,进行预处理;

2)根据步骤1)中建立的dom树,计算各个标签路径的文本标点比、标签路径深度和标签路径访问次数;

3)通过证据理论将步骤2)中所求得三个标签路径特征,先构造特征tplr和tpar,然后融合特征构成一个新的特征值tpds;

4)根据标签路径访问次数,向tpds特征添加奖励项,构造特征tpds+;

5)将步骤4)得出新的标签路径特征值与阈值进行比较,筛选得出正文。

在步骤1)中,将html文档转化为dom树,然后将一些与排版、网页展示无关的标签删除,如果这些标签中包含文字,则将该节点打开,将里面的文字放到该标签的父标签的对应位置中,script标签除外。

在步骤2)中,标签路径的定义为:设t是一颗dom树,v是dom树上的一个节点,从树t的根节点到v必存在一条简单路径,由这条简单路径上经过的节点的名称组成的序列为标签路径;

文本标点比计算公式如下:

其中tl为非标点文本长度(textlength)、pl为标点文本长度(punctuationlength,pl),tprp表示对应标签路径p的文本标点比;

该公式表示标签路径的平均句子长度越长,它是正文内容的可能性就越大;

标签路径访问次数access(p)等于标签路径p下的子节点数量;

标签路径深度deep(p)等于组成标签路径p的节点数。

所述步骤3)包括以下步骤:

3.1)建立文本标点比、标签路径深度和标签路径访问次数三个特征的关系,构造两个新的特征值tplr、tpar;

文本标点深度比(tplr),计算公式:

该公式反映了标签路径深度的作用,反映了正文部分一般情况下不会出现在标签路径过深的标签下。在深度过大时,降低标签被标记为正文的可能性。

文本标点访问比(tpar),计算公式:

该公式反映了标签路径内部复杂度的作用,反映了正文部分应该以文本为主,不包含过度的标签。

3.2)使用证据理论将标签路径的tplr、tpar两个特征混合起来。

3.2.1)在特征融合之前需要将特征值转换到一个置信度函数上,设mfaeture(p)为标签路径p的feature特征的置信度函数,w为标签路径的全集,转换公式为:

其中,feature取tplr和tpar。

3.2.1)使用证据理论将这两个特征融合,令融合后的特征为tpds,公式如下:

标签路径的tpds特征越大,它就越有可能是正文内容。

在步骤4)中,向tpds特征中添加奖励项,计算方法如下:

λ为奖励系数,tpds+特征适当奖励了子节点比较少的标签路径。

在步骤5)中,令正文集按照一定次序遍历dom树的各个节点,将节点tpds+特征值与事先设置好的阈值进行比较,若大于或等于阈值,则将节点加入到content中,最终,content中的元素即为正文内容。

本发明与现有技术相比,具有如下优点与有益效果:

1、本发明是一种基于统计和特征的方法,对比基于模版的提取方法,它不需要额外数据训练和更能适应于大量网页的正文提取,计算方式简单,适用于在线系统。

2、本发明定义文本标点比,文本标点比实际上是度量标签路径的句子的平均长度,在正文中包含了大量长文本,这一指标在含有大量长文本的标签路径下,值会更加突出,更有利于正文的发现。

3、本发明同时将标签所处的深度、融合到文本标点比这一特征中,有利于避免提取提取范围过大或过小的情况,也能缓和被定义为正文的标签路径的特征过大而忽略了不同标签路径且特值较小的内容,使提取正文内容更加全面。

4、本发明使用了证据理论方法,将两个特征融合起来,可以将两个特征之间的优点相互结合,有利于提高提取的准确度。

5、本发明以标签路径访问次数为依据,为正文特征添加了奖励项,通过调整参数解决无法提取深度浅且访问次数少的正文节点的问题。

附图说明

图1为本发明方法的处理步骤流程图。

图2为html文本与dom树的对应关系图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示,本实施例所提供的基于标签路径和文本标点比特征融合的网页正文提取方法,包括以下步骤:

1)根据html文档建立dom树,进行预处理;

该步骤中网页的html文档的语法格式可能不规范,需要先试用htmltidy工具将文档语法规范化,然后使用现有的工具如jsoup等可以直接将输入的html文档转化为dom树,dom树与html的对应关系如图2所示。转化为dom树后,将已知不可能为正文内容的标签删除,在浏览网页过程中不可见的标签可以直接删除,如script标签和css中的style标签。其中script标签中包含了大量代码,若不在预处理中删除会严重影响提取算法的最终效果。

2)根据步骤1)中建立的dom树,计算各个标签路径的文本标点比、标签路径深度和标签路径访问次数;

2.1)先序遍历dom树,使用字典存储标签路径的非标点文本长度和标点文本长度

根据步骤1构建的dom树t,在该步骤中采用先序遍历方法,遍历t中的各个节点,在这里使用字典记录各个标签路径的非标点文本长度(textlength,tl)和标点文本长度(punctuationlength,pl),并以标签路径(pathname,p)作为键,记字典为d,结构表示如下:

d={<p:{tl,pl}>}

访问节点过程中,若p不存在于字典中,则为该p创建键并将键值对<p:{tl,pl}>添加到字典中,若p存在于字典中,则当前节点获得tl、pl值累加到原来的值上。

关于tl值的计算,对于中文网页采用的方法是逐字计算,对于英文网页则采用按照单词来计算,若按照字母计算,会导致tl值过大,最终结果可能会出现忽略次重要内容的可能性。

标签路径访问次数通过计算当前节点的子孙节点数即能获得。它用于衡量标签路径内部结构的复杂程度,对于正文标签而言,它的内部结构应该是简单的。

标签路径深度等于组成标签路径的标签数。它用于衡量标签路径所处的位置深度,在一个网页中,正文标签的深度,应处于一个适中的位置,不会过浅或过深。

2.2)计算标签文本标点比,从步骤2.1中已经使用字典存储了各个标签路径的非标点文本长度和标点文本长度,现在访问该字典构建标签文本标点比tpr。

tpr特征值越大,标签路径就越有可能是正文内容,这是因为正文中应该包含大量长文本。若pl等于0,则令tpr=tl,若tl等于0,则令tpl=0。对于这正文中包含表格的情况下,这种方法也能有较强的适应能力,因为表格中的数据通常不包含标点,同表格的html标签组织比较简单时,对应的标签路径会产生一个较大tpr特征值。

3)通过证据理论将步骤2)中所求得三个标签路径特征,先构造特征tplr和tpar,然后融合特征构成一个新的特征值tpds;

这一步骤主要是将步骤2)中求得三个标签路径特征使用证据理论的方法,将它们融合起来,构建一个同时考虑标签路径的深度(deep)、访问次数(access)、文本标点比。

3.1)建立文本标点比与深度、包含子节点数的关系,构造tplr和tpar

特征文本标点深度比(tplr):正文内容的标签路径的深度通常不会太大,当标签路径深度越大时,tplr值越小,计算公式:

文本标点访问比(tpar):通常地正文部分存在大量文字,里面存在很小量的html标签,当标签路径访问次数越小,tpar值越大,计算公式:

3.2)特征融合

在特征融合前,需要先将tplr和tpar转化为相应的置信度函数,公式如下:

feature取tplr和tpar。它们代表分别在tplr和tpar特征下,标签路径p是正文内容的置信度。

之后下面公式计算最终的标签路径特征tpds

4)根据标签路径访问次数,向tpds特征添加奖励项,构造特征tpds+;

根据步骤3)中的得到的标签路径访问次数,向tpds特征添加奖励项。

λ需要根据实际网页进行调整,一般令λ=10-5

5)将步骤4)得出新的标签路径特征值与阈值进行比较,筛选得出正文;

根据步骤4)得到各个标签路径的tpds+特征,设置阈值τ为tpds+特征值的标准差,使用先序遍历dom树。

若当前访问节点所属的标签路径的tpds+特征值大于τ,则将其放入正文集中,否则跳过该节点。

最后根据节点的访问顺序和在dom树中的位置,将它们重新组合为新的dom树或森林,以保证正文内容已有的顺序。

以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1