一种在线Web新闻内容的抽取方法及系统的制作方法

文档序号:6402988阅读:154来源:国知局
专利名称:一种在线Web新闻内容的抽取方法及系统的制作方法
技术领域
本发明属于网络信息处理领域,尤其涉及一种在线Web新闻内容抽取方法及系统。
背景技术
随着Internet的飞速发展,Web新闻网页已经继传统的报纸、广播、电视之后,成为人们发布和获取信息的主要平台。目前,Web新闻网页除了包含主要内容外,还掺杂着大量的与主题内容无关的信息,如导航条、广告、推荐链接、版权声明等。这些占整个Web页面数据越40%_50%的噪音数据严重影响着许多Web应用的服务质量。如何获取“干净”的网页日益成为一个重要的研究课题。目前,Web新闻内容抽取技术根据抽取工具的自动化程度,分为手工构建规则的抽取系统、有监督的抽取系统、半监督的抽取系统、无监督的抽取系统和在线抽取系统。手工构建规则的抽取系统是最简单和最直接的抽取方法。使用Java、Perl这样通用的程序设计语言或用户自行设计的特定语言,用户面向特定的网站构建包装器。这类的系统需要用户有一定计算机和编程方面的知识、熟悉数据源和输出结果的格式、理解抽取规则的内涵。所以这种系统的自动化程度不高,构造代价高,对于大量网站和网页的抽取,这种花费往往是无法容忍的。特别地,当网页结构发生变化时,抽取系统需手工修改,维护代价高,难以扩展和推广。有监督的抽取系统需要手工或使用工具标记训练网页,通过归`纳得到抽取规则。该类系统虽然无需用户编程,有良好的扩展性,但是训练集标记任务具有一定的专业要求且工作量较大,一般用户难以胜任。半监督的抽取系统相对于有监督的抽取系统,通常不需要用户对网页做出准确的标注就可以生成抽取规则。虽然这类系统能减轻用户的标记工作,但往往也需要用户的参与,如选择目标模式或粗略标记等。此外,该类系统通常需要嵌入一些启发性背景知识,扩展性不高。在无监督的抽取系统中,不需要用户标记任何训练集,在生成包装器的过程中不需要与用户交互的界面。这类系统通常假定Web页面是根据请求从后台数据库中选取数据并嵌入到通用的模板中生成的,研究如何从模板生成的网页中检测出原始的模板,从而进一步抽取嵌入其中的数据。但是这类系统的假设条件强,难以扩展。全自动的抽取方式往往会抽取出许多用户不需要的信息,用户需要的一些信息却可能没有抽取出来。在线抽取系统无需对网页进行预处理或预知它们的结构,能适应任何结构的新闻网页。目前比较流行的在线抽取方法基于新闻网页的HTML文本中字符的分布规律,设定抽取规则,识别抽取对象。但是这些在线方法主要基于网网页中的字符或行,以至于网页忽略网页的结构信息,抽取的精度低。总之,目前的Web新闻内容抽取技术主要存在如下问题:第一,目前很多的网页抽取技术假定被抽取的网页对象由同一个网页模板生成,已有的包装器难以有效抽取未知模板生成的网页的内容,通用性较差。如果需要抽取未知模板的网页的内容,需要针对该模板构建新的包装器,且任何模板的变化将导致包装器失效,在线维护这些模板的代价极高。即使网页由同一个模板生成,这些网页中依然存在着很多非模板节点,不同网页的非模板节点之间存在着一定的差异性,只有部分训练网页生成的包装器就无法涵盖这些差异性,无法胜任部分网页的抽取任务。第二,目前很多的网页抽取技术难以胜任在线抽取任务。为达到较高的抽取精度,较好的匹配被抽取的网页,往往需要较多的训练网页和人工干预,用户负担重,实时性能低,无法满足在线抽取的要求。第三,现有的在线抽取方法虽然能满足在线抽取,但是很多都是基于HTML文本,以行或整个文本为单位,分析字符和标签的分布特点,识别抽取对象。这类方法设计简单,考虑角度单一,完全忽略了 HTML文本中字符的层次性,且该层次性与网页内容的分布有着密切的关系,难以用于海量异构的Web新闻网页的抽取。

发明内容
为了解决上述的技术问题,本发明提供一种通用性强、用户负担轻、能在线抽取海量异构Web新闻网页的在线Web新闻内容的抽取方法及系统。本发明通过以下技术方案实现。本发明在线Web新闻内容抽取方法的特点是按如下步骤进行:步骤I,使用HTML解析器解析被抽取的Web新闻网页,得到被抽取的Web新闻网页的DOM树;步骤2,遍历所述DOM树,依次访问所述DOM树中的每个节点,构建文本节点信息序列和文本节点的标签路径信息序列;所述文本节点信息序列中的每个元素有两个属性,分别为文本节点和文本节点的标签路径;所述标签路径信息序列中的每个元素有三个属性,分别是文本节点的标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;所述标签路径为所述DOM树的根节点到节点的节点序列;步骤3,根据所述标签路径信息序列和标签路径特征系中每个标签路径特征的定义,通过计算构建标签路径特征值序列;所述标签路径特征系是由六个不同的标签路径特征组成的,分别是文本标签路径长度特征、文本标签路径比特征、扩展文本标签路径长度特征、扩展文本标签路径比特征、文本标签路径层次比特征和扩展文本标签路径层次比特征;所述标签路径特征值序列中的每个元素有七个属性,分别是:标签路径、文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值;所述文本标签路径长度特征为标签路径到达的文本内容中字符的个数;所述文本标签路径比特征为标签路径到达的文本内容中字符的个数与标签路径到达的文本节点的个数的比值;所述扩展文本标 签路径长度特征为标签路径到达的文本内容中标点符号的个数;
所述扩展文本标签路径比特征为标签路径到达的文本内容中标点符号的个数与标签路径到达的文本节点的个数的比值;所述文本标签路径层次比特征为标签路径到达的文本内容中字符个数与标签路径的层次数的比值;所述扩展文本标签路径层次比特征为标签路径到达的文本内容中标点符号的个数与标签路径的层次数的比值;所述标签路径的层次数为标签路径中标签的个数;步骤4,使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;所述标签路径综合特征值序列中的每个元素有两个属性,分别是标签路径和标签路径的综合特征值;所述标签路径的综合特征值是利用加权DS证据理论融合标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到的结果;步骤5,根据所述标签路径综合特征值序列和文本节点信息序列的映射关系,构建文本节点综合特征值序列;所述文本节点综合特征值序列中的每个元素有两个属性,分别是文本节点和文本节点的综合特征值;步骤6,根据文本节点综合特征值序列抽取Web新闻网页正文内容。本发明在线Web新闻内容抽取方法的特点也在于:所述步骤5中构建文本节点综合特征值序列的方法是:根据所述标签路径综合特征值序列中的每个元素的标签路径属性与所述文本节点信息序列中的每个元素的标签路径属性的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点综·合特征值序列。所述步骤6根据文本节点综合特征值序列抽取Web新闻网页正文内容的方法是:设置抽取阈值τ,依次访问所述文本节点综合特征值序列中的每个元素,若元素的文本节点的综合特征值大于阈值τ,则抽取元素中的文本节点的文本内容并存储,直至文本节点综合特征值序列中的所有元素都被访问;最终存储的内容为被抽取的Web新闻网页的正文内容。本发明在线Web新闻内容抽取系统的特点是由解析模块、计算模块、融合模块和抽取模块构成;所述解析模块根据被抽取的Web新闻网页的URL地址获取HTML文本,利用HTML解析器解析HTML文本得到被抽取的Web新闻网页的DOM树;所述计算模块是由查找单元、文本节点信息获取单元、标签路径信息获取单元和标签路径特征生成单元构成;所述查找单元用于遍历所述DOM树,访问DOM树中的每个节点,查找出文本节点和文本节点的标签路径;所述文本节点信息获取单元用于构建文本节点信息序列,存储查找单元查找出的文本节点和文本节点的标签路径;所述标签路径信息获取单元用于构建标签路径信息序列,存储标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;所述标签路径特征生成单元,根据标签路径信息序列中存储的信息计算每个标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值,得到文本标签路径特征值序列;所述融合模块由加权单元和融合单元构成;所述加权单元用于设置标签路径特征系中每个元素的权重;所述融合单元根据加权单元设置的权重,利用加权DS证据理论融合每个标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到每个标签路径的综合特征值,最终得到标签路径综合特征值序列;所述抽取模块由分配单元、选择单元和抽取单元构成;所述分配单元根据所述文本节点信息序列中每个元素的标签路径属性和所述标签路径综合特征值序列中每个元素的标签路径属性之间的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点的综合特征值序列;所述选择单元用于设置抽取阈值,依次访问文本节点序列中的每个元素,若元素的文本节点的综合特征值属性的值大于抽取阈值,则标记元素中的文本节点为内容节点;所述抽取单元,依次抽取选择单元标注为内容节点的文本节点的内容并存储,最终存储的内容为被抽取的Web新闻网页的正文内容。与已有技术相比,本发明的有益效果体现在:1、本发明中由于标签路径特征系的每个标签路径特征仅涉及标签路径到达的文本内容的特征和标签路径的特征,不基于网页的模板,提高了方法的通用性;2、本发明中由于无需对网页训练和标记,无需用户的参与,降低了用户的负担;3、本发明中标签路径特征系中每个标签路径特征的值的计算都是简单的个数统计或比值计算,速度快,实时性能强,可以实现在线抽取;4、本发明中由于标签路径特征系中的标签路径特征的多样性,提高了对海量异构的Web新闻网页的适应能力。


图1是本发明在线Web新闻内容抽取方法流程说明图;图2是本发明获取文本节点信息序列和标签路径信息序列的方法流程图;图3是本发明加权DS证据理论融合标签路径特征值序列的流程说明图;图4是本发明在线Web新闻内容抽取系统的系统结构示意图。
具体实施例方式参见图1,本实施例中在线Web新闻内容抽取方法是按如下步骤进行:步骤I,使用HTML解析器解析被抽取的Web新闻网页,得到被抽取的Web新闻网页的DOM树;根据被抽取的Web新闻网页的URL地址获取被抽取的新闻网页的HTML文本,使用Jtidy修正HTML文本中包括标签匹配错误、标签书写错误以及HTML编码错误在内的错误信息;利用HTML解析器HTMLParser逐个扫描HTML文本中的字符,解析HTML文本的结构层次关系,得到被抽取的Web新闻网页的DOM树;步骤2,遍 历DOM树,依次访问DOM树中的每个节点,构建文本节点信息序列和文本节点的标签路径信息序列;文本节点信息序列中的每个元素有两个属性,分别为文本节点和文本节点的标签路径;标签路径信息序列中的每个元素有三个属性,分别是文本节点的标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;标签路径为DOM树的根节点到节点的节点序列;步骤3,根据标签路径信息序列和标签路径特征系中每个标签路径特征的定义,通过计算构建标签路径特征值序列;标签路径特征系是由六个不同的标签路径特征组成的,分别是文本标签路径长度特征、文本标签路径比特征、扩展文本标签路径长度特征、扩展文本标签路径比特征、文本标签路径层次比特征和扩展文本标签路径层次比特征;标签路径特征值序列中的每个元素有七个属性,分别是:标签路径、文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值;文本标签路径长度特征为标签路径到达的文本内容中字符的个数;文本标签路径比特征为标签路径到达的文本内容中字符的个数与标签路径到达的文本节点的个数的比值;扩展文本标签路径长度特征为标签路径到达的文本内容中标点符号的个数;扩展文本标签路径比特征为标签路径到达的文本内容中标点符号的个数与标签路径到达的文本节点的个数的比值;文本标签路径层次比特征为标签路径到达的文本内容中字符个数与标签路径的层次数的比值;扩展文本标签路径层次比特征为标签路径到达的文本内容中标点符号的个数与标签路径的层次数的比值;标签路径的层次数为标签路径中标签的个数;步骤4,使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;标签路径综合特征值序列中的每个元素有两个属性,分别是标签路径和标签路径的综合特征值;标签路径的综合特征值是利用加权DS证据理论融合标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到的结果;步骤5,根据标签路径综合特征值序列和文本节点信息序列的映射关系,构建文本节点综合特征值序列;文本节点综合特征值序列中的每个元素有两个属性,分别是文本节点和文本节点的综合特征值;其中,构建文本节点综合特征值序列的方法是:根据标签路径综合特征值序列中的每个元素的标签路径属性与文本节点信息序列中的每个元素的标签路径属性的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点综合特征值序列。步骤6,根据文本节点综合特征值序列抽取Web新闻网页正文内容;设置抽取阈值τ,依次访问文本节点综合特征值序列中的每个元素,若元素的文本节点的综合特征值大于阈值τ,则抽取元素 中的文本节点的文本内容并存储,直至文本节点综合特征值序列中的所有元素都被访问;最终存储的内容为被抽取的Web新闻网页的正文内容;抽取阈值τ设置为文本节点综合特征值序列中所有元素的文本节点的综合特征值的标准差。本实施例中文本节点信息序列和标签路径信息序列的构建过程是一个典型的树的遍历过程,如图2所示,具体按如下步骤进行:构建文本节点信息序列nSet和标签路径信息序列pSet,并都初始化为空,文本节点信息序列PSet中的每个元素包含两个属性,分别是文本节点node和文本节点的标签路径path ;标签路径信息序列pSet中的每个元素包含三个属性,分别是标签路径path,标签路径到达的文本内容content和标签路径到达的文本节点的个数num ;依次遍历DOM树的每个节点;若节点为文本节点,则更新文本节点信息序列和标签路径信息序列;否则遍历节点的孩子子树;节点的孩子子树是以节点的孩子节点为根节点的树。更新文本节点信息序列nSet的过程为:根据被访问节点V和被访问节点V的标签路径P,构建元素〈V,P〉,存放入文本节点信息序列中;更新标签路径信息序列pSet的过程为:在标签路径信息序列pSet中查找是否存在一个元素的标签路径属性path与被访问节点V的标签路径P相同,若存在,则将被访问节点V的文本内容text添加到该元素的content属性中,且num属性的值加I ;若不存在,则创建元素〈P,text, 1>,并存放入标签路径信息序列pSet中。 参见图3,本实施例中步骤4使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列是按如下步骤进行的:步骤4-1,归一化标签路径特征值序列中的元素,具体按以下过程进行:Hl1为标签路径长度特征,m2为标签路径比特征,m3为扩展标签路径长度特征,m4为扩展标签路径比特征,Hl5为标签路径层次比特征,Hl6为扩展标签路径层次比特征,标签路径特征值序列中的元素为〈Pi,m/ I(Pi), m/ 2(Pi), m’ 3(Pi), m’ 4(ρ) , m’ Jpi), m' 6(Pi)>, Pi 为第i条标签路径,I ^ i ^n, η为标签路径的个数,m' ! (Pi)为标签路径Pi的标签路径长度特征的值,Hi12(Pi)为标签路径Pi的标签路径比特征的值,Hi13(Pi)为标签路径Pi的扩展标签路径长度特征的值,m’4(Pi)为标签路径?1的扩展标签路径比特征的值,m’5(Pi)为标签路径Pi的标签路径层次比特征的值,Hi16(Pi)为标签路径Pi的扩展标签路径层次比特征的值。为避免使用DS证据理论融合出现悖论现象,令m’ k (pn+1) = min (m' k (Pi)),min (m,k (Pi))表示 m,k(p)、m’ k(p2)、m’ k(p3)、…、m’ k(pn)中的最小值,I 彡 k 彡 6,代表标签路径特征系中的六个特征,Pi为第i条标签路径,I ^ i ^η,η为标签路径的个数;按照式(I)归一化标签路径特征值序列中的元素:
权利要求
1.一种在线Web新闻内容抽取方法,其特征是按如下步骤进行: 步骤I,使用HTML解析器解析被抽取的Web新闻网页,得到被抽取的Web新闻网页的DOM 树; 步骤2,遍历所述DOM树,依次访问所述DOM树中的每个节点,构建文本节点信息序列和文本节点的标签路径信息序列;所述文本节点信息序列中的每个元素有两个属性,分别为文本节点和文本节点的标签路径;所述标签路径信息序列中的每个元素有三个属性,分别是文本节点的标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;所述标签路径为所述DOM树的根节点到节点的节点序列; 步骤3,根据所述标签路径信息序列和标签路径特征系中每个标签路径特征的定义,通过计算构建标签路径特征值序列; 所述标签路径特征系是由六个不同的标签路径特征组成的,分别是文本标签路径长度特征、文本标签路径比特征、扩展文本标签路径长度特征、扩展文本标签路径比特征、文本标签路径层次比特征和扩展文本标签路径层次比特征; 所述标签路径特征值序列中的每个元素有七个属性,分别是:标签路径、文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值;所述文本标签路径长度特征为标签路径到达的文本内容中字符的个数; 所述文本标签路径比特征为标签路径到达的文本内容中字符的个数与标签路径到达的文本节点的个数的比值; 所述扩展文本标签路径长度特征为标签路径到达的文本内容中标点符号的个数; 所述扩展文本标签路径比特征为 标签路径到达的文本内容中标点符号的个数与标签路径到达的文本节点的个数的比值; 所述文本标签路径层次比特征为标签路径到达的文本内容中字符个数与标签路径的层次数的比值; 所述扩展文本标签路径层次比特征为标签路径到达的文本内容中标点符号的个数与标签路径的层次数的比值; 所述标签路径的层次数为标签路径中标签的个数; 步骤4,使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;所述标签路径综合特征值序列中的每个元素有两个属性,分别是标签路径和标签路径的综合特征值;所述标签路径的综合特征值是利用加权DS证据理论融合标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到的结果; 步骤5,根据所述标签路径综合特征值序列和文本节点信息序列的映射关系,构建文本节点综合特征值序列;所述文本节点综合特征值序列中的每个元素有两个属性,分别是文本节点和文本节点的综合特征值; 步骤6,根据文本节点综合特征值序列抽取Web新闻网页正文内容。
2.根据权利要求1所述的在线Web新闻内容抽取方法,其特征是:所述步骤5中构建文本节点综合特征值序列的方法是:根据所述标签路径综合特征值序列中的每个元素的标签路径属性与所述文本节点信息序列中的每个元素的标签路径属性的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点综合特征值序列。
3.根据权利要求1所述的在线Web新闻内容抽取方法,其特征是:所述步骤6根据文本节点综合特征值序列抽取Web新闻网页正文内容的方法是:设置抽取阈值τ,依次访问所述文本节点综合特征值序列中的每个元素,若元素的文本节点的综合特征值大于阈值τ,则抽取元素中的文本节点的文本内容并存储,直至文本节点综合特征值序列中的所有元素都被访问;最终存储的内容为被抽取的Web新闻网页的正文内容。
4.一种在线Web新闻内容抽取系统,其特征是由解析模块、计算模块、融合模块和抽取模块构成; 所述解析模块根据被抽取的Web新闻网页的URL地址获取HTML文本,利用HTML解析器解析HTML文本得到被抽取的Web新闻网页的DOM树; 所述计算模块是由查找单元、文本节点信息获取单元、标签路径信息获取单元和标签路径特征生成单元构成;所述查找单元用于遍历所述DOM树,访问DOM树中的每个节点,查找出文本节点和文本节点的标签路径;所述文本节点信息获取单元用于构建文本节点信息序列,存储查找单元查找出的文本节点和文本节点的标签路径;所述标签路径信息获取单元用于构建标签路径信息序列,存储标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;所述标签路径特征生成单元,根据标签路径信息序列中存储的信息计算每个标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值,得到文本标签路径特征值序列; 所述融合模块由加权单元和融合单元构成;所述加权单元用于设置标签路径特征系中每个元素的权重;所述融合单元根据加权单元设置的权重,利用加权DS证据理论融合每个标签路径的文本标签路径 长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到每个标签路径的综合特征值,最终得到标签路径综合特征值序列; 所述抽取模块由分配单元、选择单元和抽取单元构成;所述分配单元根据所述文本节点信息序列中每个元素的标签路径属性和所述标签路径综合特征值序列中每个元素的标签路径属性之间的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点的综合特征值序列;所述选择单元用于设置抽取阈值,依次访问文本节点序列中的每个元素,若元素的文本节点的综合特征值属性的值大于抽取阈值,则标记元素中的文本节点为内容节点;所述抽取单元,依次抽取选择单元标注为内容节点的文本节点的内容并存储,最终存储的内容为被抽取的Web新闻网页的正文内容。
全文摘要
本发明涉及一种在线Web新闻内容抽取方法,其步骤为获取被抽取的Web新闻网页的DOM树;遍历DOM树构建文本节点信息序列和标签路径信息序列;计算标签路径特征值序列;使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;构建文本节点综合特征值序列;根据文本节点综合特征值序列抽取Web新闻网页正文内容。本发明还公开了一种在线Web新闻内容抽取系统,由解析模块、计算模块、融合模块和抽取模块构成。本发明中的标签路径特征不基于网页的模板且具有多样性,整个抽取过程都是简单的数学元素,能有效地在线抽取海量异构的Web新闻网页。
文档编号G06F17/30GK103246732SQ201310173280
公开日2013年8月14日 申请日期2013年5月10日 优先权日2013年5月10日
发明者吴共庆, 李莉, 徐喆昊, 胡学钢, 吴信东 申请人:合肥工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1