一种基于实体的自底向上Web数据抽取方法

文档序号：6560442阅读：142来源：国知局

专利名称：一种基于实体的自底向上Web数据抽取方法
技术领域：
本发明属于网络数据管理领域，特别涉及一种针对Web数据页面的自底向上抽取方法。
背景技术：
随着网络信息量的日益扩大，结构单一的Web页面已经不能够满足数据的承载，主题多样、结构复杂的Web页面数量在当今的互联网络中不断增长。这在拓展人们视线的同时也给Web数据的应用带来很多问题。Web页面复杂度和噪声信息量与日俱增，甚至同主题、同数据源的页面都存在很大的偏差，使得网页中高质量的结构化数据越来越难以被有效的分析和整合，信息的利用率明显下降。所以，从复杂、多样的Web页面中提取信息并将其转换为结构化数据变得日益重要。然而，如何准确而高效的从无结构化或者半结构化的HTML页面中抽取结构化数据成为人们研究的课题，同时也是巨大的挑战。近年来，研究出的有代表性的方法有RoadRunner、ViPER、MDR0除此之外，随着技术的发展，一些在实体领域提出的技术也被应用到Web数据抽取上面。RoadRunner方法需要事先选择一些Web页面作为它的训练集，然后通过比较这些HTML文档内容上的异同来发现样本的结构特征，进而由此推导出包装器的抽取规则。 RoadRunner方法较比人工标注的方式明显提高了扩展性，并且可以处理一些嵌套的结构。但是，对于训练集未涉及的页面该方法依然不能很好的适用。ViPER是基于页面可视化特征的抽取方法，它主要通过模拟人眼对页面的识别过程来完成抽取。然而，ViPER需要实现建立可视化模型，这将耗费大量的时间，而且当页面有用信息和噪声混杂分散存在的时候，ViPER的抽取效果也不尽如人意。MDR方法通过分析包含多记录的单个HTML页面来进行包装器抽取规则的推导，主要基于页面的DOM树特征，分析出DOM树中节点的重复模式，识别并划分页面中包含的记录，并以节点路径标识记录中的属性。后来，改进的MDR II方法采用树的结构信息来定位节点，但无论是MDR还是MDR II均无法摆脱对于页面DOM树的过分依赖，当某一标识下的属性发生改变时，它们无法保证抽取的准确性。所以，该类方法比较适用于结构简单的页面抽取，对于复杂的页面并不适合。近年来，一些研究在这些典型技术的基础上提出了新的方法，但大多是直接或者间接基于页面结构来推导抽取规则的，所以，这些方法在处理结构复杂、数据分散的Web页面的时候，查全率会明显的下降。实体抽取技术的发展，给解决这一问题带来了转机，但是目前的方法更多只关注实体抽取而忽略了它们之间的联系，若要取得高质量的结构化数据还需要很多工作，但无疑它为我们提供了良好的契机。

发明内容
针对已有Web数据抽取方法的不足，本发明提供了一种基于实体的自底向上的 Web数据抽取方法。
本发明采用的技术方案的具体步骤如下步骤1.选择Web数据页面对于DeepWfeb响应页面，需要输入查询词来获得；Web 页面可以看作是由HTML语言描述的文本字符串，使用DOM解析工具(HtmlAgilityl^ack)将其解析成为标签和文本；然后，在DOM树中删除所有script节点和comment节点，对HTML 文档进行最基本的去噪并做规范化处理，得到符合XML标准的文档D ;D可以表示为(T，M， S)，其中T是DOM树中所有标签节点的集合，M是DOM树文本节点中的分隔符的集合，S是 DOM树文本节点中除了 T和M之外所有的文本字符串。步骤2.划分文本对于给定的文档D，按照下面两个条件将S划分为有序的字符串序列(1)对于每一个t e T，m e M，都以此为分隔在S上做一次划分；(2)对于相邻的子字符串且对应的文本节点在DOM树中深度相差一级的划分，予以合并操作；文本S经过以上划分后得到有序序列&ist = <Sl，s2, ... , \>，其中$^8，且
；每一个Si都对应文档D中的一段文本字符串，这里Si被称为实体；步骤3.标注实体属性即赋予中的每个实体一个实体类型的名称；每类Web 主题都包含特定的实体类型集，那么给定一个主题，也就确定下来该领域的实体类型集A ；对于每个实体类型a e A，采用一个二级抽取模型，第一级L1定义查全规则e R1,第二级 L2定义查准规则ra2 e &，其中R1是该主题所有实体类型的查全属性集合，&是该主题所有实体类型的查准属性集合；这样做能够很好的将查全率与查准率的相互依赖性拆开，保证
信息的最小丢失和最大收益；给定U^4 ’ B代表能够匹配该实体的规则集，A代表匹配B中
B
某条规则后得到的属性标签；具体标注过程如下(1)将队中的每一条规则！^在上进行匹配，规则rxl会将所有匹配它的实体添加X属性，若某一实体Sx匹配rxl，则将属性X添加到Sx的属性列表中，X e A ；经过规则集R1匹配后的实体属性序列可以表示为
权利要求
1. 一种基于实体的自底向上Web数据抽取方法，其特征在于具体步骤如下步骤1.选择Web数据页面对于DeepWeb响应页面，需要输入查询词来获得；Web页面可以看作是由HTML语言描述的文本字符串，使用DOM解析工具(HtmlAgilityPack)将其解析成为标签和文本；然后，在DOM树中删除所有script节点和comment节点，对HTML文档进行最基本的去噪并做规范化处理，得到符合XML标准的文档D ;D可以表示为(Τ，Μ, S), 其中T是DOM树中所有标签节点的集合，M是DOM树文本节点中的分隔符的集合，S是DOM 树文本节点中除了 T和M之外所有的文本字符串；步骤2.划分文本对于给定的文档D，按照下面两个条件将S划分为有序的字符串序列(1)对于每一个te T，m e M，都以此为分隔在S上做一次划分；(2)对于相邻的子字符串且对应的文本节点在DOM树中深度相差一级的划分，予以合并操作；文本S经过以上划分后得到有序序列= Cs1, s2, ... , sn>，其中$cS，且；每一个Si都对应文档D中的一段文本字符串，这里Si被称为实体；步骤3.标注实体属性即赋予中的每个实体一个实体类型的名称；每类Web主题都包含特定的实体类型集，那么给定一个主题，也就确定下来该领域的实体类型集A ；对于每个实体类型a e A，采用一个二级抽取模型，第一级L1定义查全规则e R1,第二级L2 定义查准规则ra2 e &，其中R1是该主题所有实体类型的查全属性集合，&是该主题所有实体类型的查准属性集合；这样做能够很好的将查全率与查准率的相互依赖性拆开，保证信息的最小丢失和最大收益；给定U^4 ’ B代表能够匹配该实体的规则集，A代表匹配B中某B条规则后得到的属性标签；具体标注过程如下(1)将札中的每一条规则！^在上进行匹配，规则rxl会将所有匹配它的实体添加 χ属性，若某一实体sx匹配rxl，则将属性χ添加到Sx的属性列表中，χ e A ；经过规则集R1 匹配后的实体属性序列可以表示为(2)将&中的每一条规则!^在上进行匹配，规则rx2会将所有匹配它的实体唯一标识χ属性，若某一实体sx匹配rx2，则Sx的属性唯一确定为X，删除Sx的其它属性，χ e A ；假设S1的属性被确定为X1, Sn的属性被确定为^，那么经过规则集&匹配后的实体属性序列可以表示为用Alist表示上面的序列，它是一个拥有部分确定属性的实体属性序列；步骤4.抽取属性序列重复模式设集合I为所有实体在文本中的索引的集合即Ind = {Index (Si,D) | i e Ζ+}，Z+ 是正整数集合；定义集合 AI = {(a, ind) | a e Alist，ind e 1}，具体过程如下(1)选择起始关键属性，即找到(ak，indk)满足
全文摘要
本发明提供了一种基于实体的自底向上Web数据抽取方法，属于网络数据管理领域，具体步骤包括选择Web数据页面、划分文本、标注实体属性、抽取属性序列重复模式抽取、化简结果模式；本发明的Web数据抽取方法，可以更广泛的抽取复杂Web页面的结构化数据，有效避免先前抽取技术对页面结构的过度依赖，适应性好，准确度高。
文档编号G06F17/30GK102262658SQ201110196449
公开日2011年11月30日申请日期2011年7月13日优先权日2011年7月13日
发明者于戈, 刘桐, 寇月, 申德荣, 聂铁铮申请人:东北大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：申德荣;刘桐;寇月;聂铁铮;于戈
技术所有人：东北大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。