一种基于实体的自底向上Web数据抽取方法

文档序号:6560442阅读:142来源:国知局
专利名称:一种基于实体的自底向上Web数据抽取方法
技术领域
本发明属于网络数据管理领域,特别涉及一种针对Web数据页面的自底向上抽取方法。
背景技术
随着网络信息量的日益扩大,结构单一的Web页面已经不能够满足数据的承载, 主题多样、结构复杂的Web页面数量在当今的互联网络中不断增长。这在拓展人们视线的同时也给Web数据的应用带来很多问题。Web页面复杂度和噪声信息量与日俱增,甚至同主题、同数据源的页面都存在很大的偏差,使得网页中高质量的结构化数据越来越难以被有效的分析和整合,信息的利用率明显下降。所以,从复杂、多样的Web页面中提取信息并将其转换为结构化数据变得日益重要。然而,如何准确而高效的从无结构化或者半结构化的HTML页面中抽取结构化数据成为人们研究的课题,同时也是巨大的挑战。近年来,研究出的有代表性的方法有RoadRunner、ViPER、MDR0除此之外,随着技术的发展,一些在实体领域提出的技术也被应用到Web数据抽取上面。RoadRunner方法需要事先选择一些Web页面作为它的训练集,然后通过比较这些HTML文档内容上的异同来发现样本的结构特征,进而由此推导出包装器的抽取规则。 RoadRunner方法较比人工标注的方式明显提高了扩展性,并且可以处理一些嵌套的结构。 但是,对于训练集未涉及的页面该方法依然不能很好的适用。ViPER是基于页面可视化特征的抽取方法,它主要通过模拟人眼对页面的识别过程来完成抽取。然而,ViPER需要实现建立可视化模型,这将耗费大量的时间,而且当页面有用信息和噪声混杂分散存在的时候,ViPER的抽取效果也不尽如人意。MDR方法通过分析包含多记录的单个HTML页面来进行包装器抽取规则的推导,主要基于页面的DOM树特征,分析出DOM树中节点的重复模式,识别并划分页面中包含的记录,并以节点路径标识记录中的属性。后来,改进的MDR II方法采用树的结构信息来定位节点,但无论是MDR还是MDR II均无法摆脱对于页面DOM树的过分依赖,当某一标识下的属性发生改变时,它们无法保证抽取的准确性。所以,该类方法比较适用于结构简单的页面抽取,对于复杂的页面并不适合。近年来,一些研究在这些典型技术的基础上提出了新的方法,但大多是直接或者间接基于页面结构来推导抽取规则的,所以,这些方法在处理结构复杂、数据分散的Web页面的时候,查全率会明显的下降。实体抽取技术的发展,给解决这一问题带来了转机,但是目前的方法更多只关注实体抽取而忽略了它们之间的联系,若要取得高质量的结构化数据还需要很多工作,但无疑它为我们提供了良好的契机。

发明内容
针对已有Web数据抽取方法的不足,本发明提供了一种基于实体的自底向上的 Web数据抽取方法。
本发明采用的技术方案的具体步骤如下步骤1.选择Web数据页面对于DeepWfeb响应页面,需要输入查询词来获得;Web 页面可以看作是由HTML语言描述的文本字符串,使用DOM解析工具(HtmlAgilityl^ack)将其解析成为标签和文本;然后,在DOM树中删除所有script节点和comment节点,对HTML 文档进行最基本的去噪并做规范化处理,得到符合XML标准的文档D ;D可以表示为(T,M, S),其中T是DOM树中所有标签节点的集合,M是DOM树文本节点中的分隔符的集合,S是 DOM树文本节点中除了 T和M之外所有的文本字符串。步骤2.划分文本对于给定的文档D,按照下面两个条件将S划分为有序的字符串序列(1)对于每一个t e T,m e M,都以此为分隔在S上做一次划分;(2)对于相邻的子字符串且对应的文本节点在DOM树中深度相差一级的划分,予以合并操作;文本S经过以上划分后得到有序序列&ist = <Sl,s2, ... , \>,其中$^8,且
;每一个Si都对应文档D中的一段文本字符串,这里Si被称为实体;步骤3.标注实体属性即赋予中的每个实体一个实体类型的名称;每类Web 主题都包含特定的实体类型集,那么给定一个主题,也就确定下来该领域的实体类型集A ; 对于每个实体类型a e A,采用一个二级抽取模型,第一级L1定义查全规则e R1,第二级 L2定义查准规则ra2 e &,其中R1是该主题所有实体类型的查全属性集合,&是该主题所有实体类型的查准属性集合;这样做能够很好的将查全率与查准率的相互依赖性拆开,保证
信息的最小丢失和最大收益;给定U^4 ’ B代表能够匹配该实体的规则集,A代表匹配B中
B
某条规则后得到的属性标签;具体标注过程如下(1)将队中的每一条规则!^在上进行匹配,规则rxl会将所有匹配它的实体添加X属性,若某一实体Sx匹配rxl,则将属性X添加到Sx的属性列表中,X e A ;经过规则集R1匹配后的实体属性序列可以表示为
权利要求
1. 一种基于实体的自底向上Web数据抽取方法,其特征在于具体步骤如下 步骤1.选择Web数据页面对于DeepWeb响应页面,需要输入查询词来获得;Web页面可以看作是由HTML语言描述的文本字符串,使用DOM解析工具(HtmlAgilityPack)将其解析成为标签和文本;然后,在DOM树中删除所有script节点和comment节点,对HTML文档进行最基本的去噪并做规范化处理,得到符合XML标准的文档D ;D可以表示为(Τ,Μ, S), 其中T是DOM树中所有标签节点的集合,M是DOM树文本节点中的分隔符的集合,S是DOM 树文本节点中除了 T和M之外所有的文本字符串;步骤2.划分文本对于给定的文档D,按照下面两个条件将S划分为有序的字符串序列(1)对于每一个te T,m e M,都以此为分隔在S上做一次划分;(2)对于相邻的子字符串且对应的文本节点在DOM树中深度相差一级的划分,予以合并操作;文本S经过以上划分后得到有序序列= Cs1, s2, ... , sn>,其中$cS,且;每一个Si都对应文档D中的一段文本字符串,这里Si被称为实体; 步骤3.标注实体属性即赋予中的每个实体一个实体类型的名称;每类Web主题都包含特定的实体类型集,那么给定一个主题,也就确定下来该领域的实体类型集A ;对于每个实体类型a e A,采用一个二级抽取模型,第一级L1定义查全规则e R1,第二级L2 定义查准规则ra2 e &,其中R1是该主题所有实体类型的查全属性集合,&是该主题所有实体类型的查准属性集合;这样做能够很好的将查全率与查准率的相互依赖性拆开,保证信息的最小丢失和最大收益;给定U^4 ’ B代表能够匹配该实体的规则集,A代表匹配B中某B条规则后得到的属性标签;具体标注过程如下(1)将札中的每一条规则!^在上进行匹配,规则rxl会将所有匹配它的实体添加 χ属性,若某一实体sx匹配rxl,则将属性χ添加到Sx的属性列表中,χ e A ;经过规则集R1 匹配后的实体属性序列可以表示为(2)将&中的每一条规则!^在上进行匹配,规则rx2会将所有匹配它的实体唯一标识χ属性,若某一实体sx匹配rx2,则Sx的属性唯一确定为X,删除Sx的其它属性,χ e A ; 假设S1的属性被确定为X1, Sn的属性被确定为^,那么经过规则集&匹配后的实体属性序列可以表示为用Alist表示上面的序列,它是一个拥有部分确定属性的实体属性序列; 步骤4.抽取属性序列重复模式设集合I为所有实体在文本中的索引的集合即Ind = {Index (Si,D) | i e Ζ+},Z+ 是正整数集合;定义集合 AI = {(a, ind) | a e Alist,ind e 1},具体过程如下(1)选择起始关键属性,即找到(ak,indk)满足
全文摘要
本发明提供了一种基于实体的自底向上Web数据抽取方法,属于网络数据管理领域,具体步骤包括选择Web数据页面、划分文本、标注实体属性、抽取属性序列重复模式抽取、化简结果模式;本发明的Web数据抽取方法,可以更广泛的抽取复杂Web页面的结构化数据,有效避免先前抽取技术对页面结构的过度依赖,适应性好,准确度高。
文档编号G06F17/30GK102262658SQ201110196449
公开日2011年11月30日 申请日期2011年7月13日 优先权日2011年7月13日
发明者于戈, 刘桐, 寇月, 申德荣, 聂铁铮 申请人:东北大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1