一种全程化Web信息抽取集成方法

文档序号:6634839阅读:207来源:国知局
一种全程化Web信息抽取集成方法
【专利摘要】本发明涉及一种Web信息抽取集成方法,属于计算机【技术领域】。该方法包括网页浏览导航、网页数据抽取、数据集成处理步骤,能够应用于各种不同的Web信息采集和挖掘分析应用,具有网页自动浏览导航能力和抽取数据的集成处理能力,因此采用本发明后,可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。
【专利说明】一种全程化Web信息抽取集成方法

【技术领域】
[0001] 本发明涉及一种信息抽取集成方法,尤其是一种Web信息抽取集成方法,属于计 算机【技术领域】。

【背景技术】
[0002] Web是目前最大的信息发布和共享平台,其中包含了大量有价值的数据信息。越 来越多的应用希望能从Web上获得这些有价值的数据信息,进一步完成深度的数据信息分 析,提供各种数据分析增值服务。
[0003] 然而,如何能从Web网页上精确地获取所感兴趣的数据信息是一个较大的技术难 题。Web信息抽取(Web Inform全程化Web信息抽取集成方法tion Extr全程化Web信息 抽取集成方法ction)是研究解决相关技术和工具的新兴研究领域。所谓Web信息抽取是 指从结构化或半结构化的网页上抽取出用户或应用所感兴趣的数据,将其以结构化的格式 导入数据库中供进一步分析处理的过程。
[0004] 据 申请人:了解,在过去的十多年中,Web信息抽取技术已出现了一些系统,例如 DEPT全程化WEB信息抽取集成方法、ViDE、MDR,ST全程化WEB信息抽取集成方法LKER, Lixto,DEByE等。但现有的Web信息抽取研究和系统基本上都仅仅集中对已获取网页的数 据抽取处理,而忽略了实际的Web信息抽取处理过程首先需要考虑的网页自动浏览导航和 访问问题,而且对抽取出的原始网页数据的转换和集成处理也缺少充分的考虑。这些仅仅 关注了中间的网页数据抽取处理阶段的现有技术离实际的Web信息抽取应用需求还有很 大的距离。


【发明内容】

[0005] 本发明的目的在于:针对上述现有技术(研究和系统)存在的不足,提出一种包含 Web网页自动浏览、网页数据抽取、以及数据集成全程化Web信息抽取集成方法,进而基于 相应的模型研究设计网页自动浏览导航、网页数据抽取与集成、以及Web信息抽取流程控 制技术和相应的规则语言。
[0006] 研究表明,完整的Web信息抽取处理过程包含三个阶段:1)网页浏览导航,即系 统需要能在Web信息抽取处理过程中模拟用户浏览网页的行为自动导航和访问到所感兴 趣的网页;2)网页数据抽取,对于所访问获取的网页,定制一定的抽取规则完成网页数据 元素的抽取处理;3)数据集成,即对于抽取出的原始网页数据元素进行转换、过滤和集成 后处理。在实际的Web信息抽取处理过程中,一个重要问题是如何能让系统模仿人的浏览 导航行为,自动浏览并访问到所感兴趣的网页。获得所需网页后,主要技术问题则是如何有 效地在网页上指定和描述所要抽取的具体数据元素或数据记录。为此,需要引入网页数据 抽取规则。另外,网页上所抽取出来的原始数据元素和记录通常是没有结构语义的,至多反 应的是一种网页展现结构语义,这种网页展现结构语义与Web抽取应用所需要的目标结构 语义之间存在一个差异和鸿沟;为了消除这种差异和鸿沟,Web信息抽取处理必须提供数 据转换、过滤、映射和集成处理的能力。更为复杂的情形是,一个复杂数据记录可能会显示 在多个关联网页上。因此,进行Web信息抽取时需要自动完成这些关联网页的链接跳转,并 且能依据这些数据网页的链接关系保持正确的数据关系,以便最终完成完整数据记录的抽 取和集成处理。
[0007] 为了达到以上目的,本发明的全程化Web信息抽取集成方法包括以下基本步骤:
[0008] 第一步、网页浏览导航--构建自动记录用户访问网页导航链接一系列交互操作 的导航链接模型,同时编制实现回放该一系列交互操作的规则语言,从而实现自动重复对 用户访问网页的导航链接,为数据抽取奠定基础;
[0009] 第二步、网页数据抽取--重复对用户访问网页的导航链接后,根据预定的抽取 规则,抽取展示在Web页面上的数据源对象;
[0010] 第三步、数据集成处理一将抽取出的数据源对象中的数据元素或数据按预定的 目标数据结构进行转换、过滤和集成,形成目标数据对象。
[0011] 本发明技术方案的进一步限定为,第二步中,网页数据抽取时,抽取的数据源对 象为非规整数据和/或规整数据。
[0012] 进一步地,第二步中,执行网页数据抽取包括如下步骤:首先,抽取展示在Web页 面上的数据源对象;然后,将包含在数据源对象中的数据集成到预先定义好的目标数据结 构中从而形成目标数据对象。
[0013] 进一步地,抽取展示在Web页面上的数据源对象时,建立数据源对象模型,包含三 种类型的数据源对象:数据区对象、数据记录对象和数据项对象,每个数据区对象包含一个 或多个数据记录对象,每个数据记录对象包含一个或多个数据项对象。
[0014] 进一步地,第二步中,抽取展示在Web页面上的数据源对象时,记录对应页面上用 以抽取数据记录的Web数据区和数据源对象、以及用于数据抽取、浏览导航、以及流程控制 的HTML控件和各种外部数据源控件;数据源对象采用XML语言进行定义和描述。该数据 源对象实际上封装了用以抽取出指定的数据区域中的数据记录的规则,包括各种抽取属性 (Attributes)和模式(Patterns)。
[0015] 进一步地,第三步中,数据集成处理中包含对页面数据源对象中抽取出的原始数 据进行转换集成的逻辑和规则,数据集成规则将采用某种脚本语言来描述
[0016] 本发明设计完成的全过程化Web信息抽取集成方法能够应用于各种不同的Web信 息采集和挖掘分析应用,具有网页自动浏览导航能力和抽取数据的集成处理能力,因此采 用本发明后,可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。

【专利附图】

【附图说明】
[0017] 下面结合附图对本发明作进一步的说明。
[0018] 图1为本发明一个实施例的全程化Web信息抽取集成方法的流程图;
[0019] 图2为实施例1中的Web数据记录模型;
[0020] 图3为实施例1中的Web信息抽取集成ETI模型;
[0021] 图4为实施例1中的页面模型与Web信息抽取集成规则体系模型;
[0022] 图5为实施例1中包含基于网格的数据记录的Web页面;
[0023] 图6为实施例1中基于跨页面链接关系的数据记录网页示例;
[0024] 图7为实施例1中浏览导航规则模型;
[0025] 图8为实施例1中跨页面嵌套记录的集成规则和集成后的目标数据记录的XML结 构;
[0026] 图9为实施例1中数据抽取和"一对多"集成转换规则示例。

【具体实施方式】
[0027] 实施例一
[0028] 本实施例的全程化Web信息抽取集成方法,包括以下基本步骤:
[0029] 第一步、网页浏览导航--构建自动记录用户访问网页导航链接一系列交互操作 的导航链接模型,同时编制实现回放该一系列交互操作的规则语言,从而实现自动重复对 用户访问网页的导航链接,为数据抽取奠定基础;
[0030] 第二步、网页数据抽取--重复对用户访问网页的导航链接后,根据预定的抽取 规则,抽取展示在Web页面上的数据源对象;
[0031] 第三步、数据集成处理--将抽取出的数据源对象中的数据元素或数据按预定的 目标数据结构进行转换、过滤和集成,形成目标数据对象。
[0032] 下面对三个基本步骤做详细的介绍。
[0033] 1、全过程Web信息抽取模型
[0034] 三阶段Web信息抽取集成模型
[0035] 从信息处理的抽象层面看,如图1所示,一个完整的Web信息抽取过程应当包括网 页获取(即自动浏览导航)、网页数据抽取处理(包括自动或半自动分析方法以及手工交互 生成抽取规则)、以及集成后处理三个主要阶段。
[0036] (1)网页浏览导航阶段:一个完整的Web信息抽取系统首先需要提供这种网页自 动浏览导航能力,即在Web信息抽取过程中能模仿用户在浏览器中人工的网页交互和浏览 导航动作,以便系统自动访问和获取所需要的网页。为此,需要抽象并提供一种用户网页交 互和浏览导航模型,并最终提供一种网页交互动作和浏览导航规则语言以描述和刻画出这 种网页交互和浏览导航动作,然后在Web信息抽取处理过程中,执行该规则语言,以便回放 所描述的网页交互和浏览导航动作,完成网页的自动访问和获取。
[0037] (2)网页数据抽取阶段:获得数据网页后,需要为每个数据网页定制数据抽取规 贝U,以便从网页上抽取出特定区域中所包含的特定数据元素或数据记录;对包含规整数据 记录的页面可采用自动结构分析方法生成抽取规则,对非规整页面可采用基于交互的半自 动化规则生成方法完成。
[0038] (3)数据集成处理阶段:抽取出来的网页数据元素或数据记录需要按照所定义的 目标信息实体结构进行转换、过滤和集成处理,生成一组目标数据记录。为此需要提供有效 的数据集成模型和数据转换规则语言以便用户刻画出各种数据转换和集成逻辑。
[0039] 因此,一个完整的Web信息抽取系统必须基于以上的三阶段完整模型来设计整个 系统,提供从网页自动获取、到网页数据抽取和集成处理的综合规则体系和规则语言,并最 终得到完整和一体化的执行和处理。
[0040] 网页交互和浏览导航模型
[0041] Web页面的复杂性、交互性和数据动态性通常使得难以通过简单的URL链接来获 取Web页面。因此,为了刻画Web信息抽取过程中的网页自动浏览导航逻辑,我们首先需要 对用户在浏览器中以人工方式进行网页交互和浏览导航的行为动作进行抽象,然后建立一 个网页自动交互和浏览导航的抽象模型,并进一步定义和提供一种浏览导航规则语言,以 描述和刻画出准确的浏览导航逻辑。
[0042] 为了刻画一个网页间的链接跳转,首先定义一个"导航链接模型",该模型主要刻 画完成一个导航链接所包含的一系列交互操作,我们将执行Web浏览导航的每个交互动作 称为浏览导航动作。
[0043] -个导航链接L包含一组浏览导航动作序列(Action Sequence, AS),我们用 L(AS)来表示这个导航链接。从抽象层面看,一个完整的Web数据抽取任务将由一系列导航 链接组合而成。
[0044] 每个浏览导航动作实际上就是对一个网页控件进行的某种交互操作,通常包含一 个或多个具体的控件设置动作,如设置文本框文本值,选中一个或多个复选按钮等。每个浏 览导航动作包括控件描述和定位信息、浏览导航和交互动作描述、以及控件操作参数。一个 导航链接可包含一至多个上述的浏览导航动作。除此以外,一个导航链接还指定当跳转到 目标页面后所对应的目标页面模型是什么。
[0045] Web数据记录与数据源对象模型
[0046] Web页面上的数据记录有多种可能的组织形式。根据Web数据记录结构的规整性, 我们将Web数据记录分为两类:规整数据记录和非规整数据记录(见图2)。
[0047] (1)非规整数据记录
[0048] 包含在非规整数据记录中的数据项经常随机地分布在web页面上。因此我们通常 不能从Web页面上规整的区域抽取出这种记录的数据项。对于此类数据记录,我们需要直 接基于用户交互来生成抽取规则。
[0049] (2)规整数据记录
[0050] 规整数据记录通常以规整的形式展示在web页面上。这类数据记录可能有多钟变 体。根据不同的展示格式,规整数据记录可以被划分为三类:基于行的数据记录,基于列的 数据记录和基于网格的数据记录。
[0051] 对于基于行的数据记录,其抽象数据结构与其背后的DOM树结构是一致的。这种 数据记录的结构最为简单。现有的大多数自动web数据抽取系统能够自动分析并抽取这 种数据记录。基于列的数据记录在其DOM树上将垂直显示。由于每个这样的数据记录由一 组位于同一 DOM树层次上的非兄弟节点构成,因此增加了自动Web数据抽取系统分析和抽 取这种数据记录的难度。基于网格的数据记录是最难被自动分析和抽取的数据记录。一组 基于网格的数据记录通常可以被划分为多个子组,每个子组中的数据记录类似于基于列的 数据记录。
[0052] 数据记录形式的多样性为数据抽取规则的统一定义带来了困难。为了提供充足的 信息来指导系统正确地识别和抽取规整和非规整数据记录,本发明将引入各种属性和模式 来定义抽取规则。
[0053] 为了执行Web数据抽取,首先,我们将抽取展示在Web页面上的数据源对象;然后, 我们将包含在数据源对象中的数据集成到预先定义好的目标数据结构中从而形成目标数 据对象。对于第一步,我们引入一个层次化的数据源对象模型。该模型包含三种类型的数 据源对象:数据区对象,数据记录对象和数据项对象。每个数据区对象包含一个或多个数据 记录对象。每个数据记录对象包含一个或多个数据项对象。根据这一模型,我们将按照自 顶向下的方式定义每个层次上的数据对象的抽取规则。
[0054] 数据集成模型
[0055] 为了阐述对页面上抽取出的原始数据进行集成处理的思想,本发明借鉴数据仓库 中ETL (Extraction, Transformation and Loading)的设计思想来完成Web数据抽取过程 中的数据集成处理,将ETL改变为ETI模型,即抽取(Extraction),转换(Transformation) 和集成(Integration)处理过程和模型(如图3)。抽取(Extraction)处理主要负责从Web 页面中抽取出原始的展示结构意义上的数据记录和元素;然后由于展示结构意义上的数据 记录与最终应用所需要的目标结构数据记录间会存在差异,因此,转换(Transformation) 处理将负责对这些原始数据记录和元素进行过滤和转换处理;最终,转换出的数据将按照 用户预定义的目标数据记录结构,通过集成(Integration)处理合并集成并输出为目标数 据记录。为了提供复杂结构目标数据记录对象的描述能力,目标数据记录对象采用基于XML 的层次式模型表不。
[0056] 1.页面模型与Web信息抽取集成规则体系
[0057] 为了描述Web信息抽取过程中的浏览导航、数据抽取和数据集成三个部分的逻 辑,我们引入一个页面模型(page model)的概念。一个页面模型实际上是与一个特定网页 对应的规则容器,包含为该网页所创建的有关浏览导航、数据抽取和数据集成各部分规则 描述。每个页面都需要有一个页面模型(如图4),同一类型、但包含不同数据记录的Web页 面可用同一个页面模型来描述其所需的导航动作、抽取和集成规则。页面模型主要包括三 个部分:
[0058] (1)数据源对象及其抽取规则:记录对应页面上用以抽取数据记录的Web数据区 和数据源对象、以及用于数据抽取、浏览导航、以及流程控制的HTML控件和各种外部数据 源控件;为了保证规则语言的通用性,数据源对象采用XML语言进行定义和描述。该数据源 对象实际上封装了一系列用以抽取出指定的数据区域中的数据记录的规则,包括各种抽取 属性(Attributes)和模式(Patterns)。
[0059] (2)数据集成规则:包含对页面数据源对象中抽取出的原始数据进行转换集成的 逻辑和规则;为了提供灵活而强大的数据转换和集成逻辑表示能力,数据集成规则将采用 某种脚本语言来描述;
[0060] (3)浏览导航规则:如果当前的目标数据对象抽取还涉及到对后续被链接页面上 数据的抽取,则当前的页面模型中还需要定义这些后续的浏览导航链接对象和规则;为了 保证规则语言的通用性,浏览导航链接对象和规则将基于XML语言进行定义和描述。
[0061] 2.数据源对象及其抽取规则的设计
[0062] 数据区对象
[0063] 为了抽取页面上的数据记录,我们首先定义数据区对象的抽取规则来指定页 面上包含一组数据记录的区域。下面的规则示例给出了数据源对象抽取规则的框架描 述。该抽取语言采用XML描述。总体上该抽取语言包含三个层次。第一层(对应于标签 〈DataRegion〉)用于定义数据区对象。第二层(对应于标签〈Record〉)用于定义数据记录 对象。第三层(对应于标签〈Item〉)用于定义数据项对象。
[0064]

【权利要求】
1. 一种全程化Web信息抽取集成方法,其特征在于包括以下基本步骤: 第一步、网页浏览导航--构建自动记录用户访问网页导航链接一系列交互操作的导 航链接模型,同时编制实现回放该一系列交互操作的规则语言,从而实现自动重复对用户 访问网页的导航链接,为数据抽取奠定基础; 第二步、网页数据抽取--重复对用户访问网页的导航链接后,根据预定的抽取规则, 抽取展示在Web页面上的数据源对象; 第三步、数据集成处理--将抽取出的数据源对象中的数据元素或数据按预定的目标 数据结构进行转换、过滤和集成,形成目标数据对象。
2. 根据权利要求1所述的全程化Web信息抽取集成方法,其特征在于:第二步中,网页 数据抽取时,抽取的数据源对象为非规整数据和/或规整数据。
3. 根据权利要求1所述的全程化Web信息抽取集成方法,其特征在于:第二步中,执行 网页数据抽取包括如下步骤:首先,抽取展示在Web页面上的数据源对象;然后,将包含在 数据源对象中的数据集成到预先定义好的目标数据结构中从而形成目标数据对象。
4. 根据权利要求3所述的全程化Web信息抽取集成方法,其特征在于:抽取展示在Web 页面上的数据源对象时,建立数据源对象模型,包含三种类型的数据源对象:数据区对象、 数据记录对象和数据项对象,每个数据区对象包含一个或多个数据记录对象,每个数据记 录对象包含一个或多个数据项对象。
5. 根据权利要求1所述的全程化Web信息抽取集成方法,其特征在于:第二步中,抽取 展示在Web页面上的数据源对象时,记录对应页面上用以抽取数据记录的Web数据区和数 据源对象、以及用于数据抽取、浏览导航、以及流程控制的HTML控件和各种外部数据源控 件;数据源对象采用XML语言进行定义和描述; 该数据源对象实际上封装了用以抽取出指定的数据区域中的数据记录的规则,包括 各种抽取属性(Attributes)和模式(Patterns)。
6. 根据权利要求1所述的全程化Web信息抽取集成方法,其特征在于:第三步中,数据 集成处理中包含对页面数据源对象中抽取出的原始数据进行转换集成的逻辑和规则,数据 集成规则将采用某种脚本语言来描述。
【文档编号】G06F17/30GK104408101SQ201410663862
【公开日】2015年3月11日 申请日期:2014年11月19日 优先权日:2014年11月19日
【发明者】黄宜华, 施生生, 王海涛, 魏武, 罗雷, 袁春风 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1