基于动态学习框架的全自动网页结构化数据抽取方法

文档序号:6610461阅读:369来源:国知局
专利名称:基于动态学习框架的全自动网页结构化数据抽取方法
技术领域
本发明涉及一种基于动态学习框架的全自动网页结构化数据抽取方法,属于计算机应用技术领域。
背景技术
近年来,随着互联网规模呈现爆炸性的增长,网络上的信息量也以指数级的速度在增长。在这数量惊人的网页中有一类网页是用来向用户呈现ー个实体,一个网页中包括该实体的属性和属性值,这些属性和属性值也被称为结构化的数据。该类网页在互联网中是非常常见,尤其近十年来,电子商务飞速发展,已经深刻影响了世界的商业模式以及人们的消费模式。网络上出现了成千上万的在线商店,这些在线商店以网页的形式呈现出各种各样的商品供消费者选择,消费者不再需要花费大量的时间和精力去实体商店选择自己需 要的商品,只需要坐在家里点击鼠标、浏览网页就可以方便地选择和购买自己所需要的商品。这些商品网页中呈现的正是ー个实体,该实体往往会包含若干属性和属性值,例如,对于ー个销售图书的网站的网页,该网页中往往就会包含一本书的标题、作者、出版商以及ISBN号码等属性以及其对应的属性值等信息。网页结构化数据是指数据存储在网站后台结构化数据库中,体现在网页中具有结构化特征的数据,如商品网页中描述商品的各种属性及属性值。虽然网络大大方便了人们进行商品购买,但是,面对网络上如此巨大的网页数量,要人工对这些信息进行检索、分析和比较仍然是ー个不可能完成的任务。当然,目前的捜索引擎可以满足人们一定程度的需求。例如,利用搜索引擎,人们可以根据关键字来查找某ー种商品,并可以得到若干个满意的結果。但是,搜索引擎呈现出的结果也仍然是网页,它还需要人工地对返回的结果进行分析和比较,计算机则不能利用网页中包含的商品属性信息;另外,更重要的是,搜索引擎返回的结果是以关键字为基础的,关键字以外的与该商品相关的信息则在查找时候就会被忽略,因此,以关键字为基础的普通搜索引擎的搜索灵活性就大为降低。为了能够让计算机自动地对网页中的结构化数据能够进行有效的检索和比较,首先就要能够从网页中自动地抽取出结构化数据。近些年来,关于网页中结构化数据的抽取已经有了大量的相关研究,也取得了相当有意义的进展。如早期人工为ー个网站中的网页编写包装器的方法、将机器学习中监瞀学习算法用于包装器学习的方法、基于概率的产生模型分析和标注网页中信息的方法等。但这些方法都需要大量的人工标注工作。在2011 年的 SIGIR 会议上,Qiang Hao 等人在文献《From One Tree to aForest: a Unified Solution for Structured Web Data ExtractionKHao Q, Cai R, PangY, et al. From One Tree to a Forest: a Unified Solution for Structured Web DataExtraction Categories and Subject Descriptors [J] · SIGIR, 2011:775-784.)提出一个统ー的网页结构化数据抽取方法。该方法主要有两个目标1、能够足够灵活的处理任何ー个垂直域(vertical)的网页(如图书为ー个典型的垂直域),而不需要人工进行调整;2、对于ー个垂直域的网页,只需要人工标注ー个网站的若干网页就可以适应属于该类别的所有网站的网页信息抽取。该方法通过两种约束不强但普遍适应的特性来描述垂直域知识(vertical knowledge),包括属性语义(attribute-specific semantics)和属性间布局关系(inter-attribute layout relationships)。这些特性可以适用于任何垂直域的网页,并且因为较弱的约束而不会产生过度拟合的情況。另外,该方法同时借鉴了之前网页信息抽取的两种思路1、网页中有效信息本身的内容和网页的布局信息;2、相似网页之间共享相同的模板。因此称该方法为ー个统ー的(unified)方法。但该方法存在以下缺点I.面对实际的网络中众多的垂直域,若要使这些方法对之全部适用,就需要人工标注数量同样多的网站。2.对于ー个垂直域,只能抽取人工标注过的属性及其属性值,不能有效抽取在标注网页中未出现的属性。
3.该方法训练得到的模型是固定的,不能随着网页数量的増加和动态变化而改变,不适用于目前网页快速更新换代的现状。

发明内容
本发明的目的是为了解决已有结构化数据抽取技术存在的不足,提出ー种基于动态学习框架的全自动网页结构化数据抽取方法。本发明的目的是通过下述技术方案实现的。一种基于动态学习框架的全自动网页结构化数据抽取方法,包括(A)可信属性集学习过程和(B)属性単元的发现和抽取过程。所述(A)可信属性集学习过程包括步骤一至步骤三,具体为步骤一、提取潜在属性単元。网页中包含的结构化数据用于描述当前网页所呈现事物的属性和属性值,将ー个属性及其对应的属性值称为ー个属性単元。提取潜在属性単元的具体过程为第I. I步解析待处理的HTML网页,生成DOM (Document Object Model,文档对象模型)树。第I. 2步构造DOM树结构模型,其类型有三种第①种一个节点的子节点数大于或等于2,并且该节点有且仅有2个子节点包含文本节点(Text Node)。该模型用来找出DOM树中对应于ー个属性单元的节点,并且该属性単元中只有ー个属性和属性值。第②种一个节点中包含2个或2个以上子节点,但有且仅有2个子节点包含文本节点。2个包含文本节点的子节点中,有且仅有I个子节点只包含ー个文本节点,而另ー个子节点是包含2个或2个以上文本节点。该模型用来找出DOM树中对应于ー个属性单元的节点,并且该属性単元中包含2个或2个以上属性值。第③种一个节点包含2个或2个以上子节点,但有且仅有偶数个子节点中包含且仅包含ー个文本节点,且该偶数个子节点连续排列。此外,该偶数个子节点中,按照其前后顺序将每两个子节点分为ー组,每组子节点对应于ー个属性単元,每组中的第一个子节点对应属性,第二个子节点对应属性值。因此,该模型用来找出DOM树中对应于I个或I个以上属性単元的节点,并且每个属性単元中只可以包含ー个属性值。第I. 3步根据第I. 2步构造的3种DOM树结构模型,从第I. I步得到的DOM树中抽取出符合3种DOM树结构模型之ー的节点。第I. 4步根据第I. 3步得到的节点的DOM树结构模型类型,找出该节点对应的属性単元(该节点的属性及其对应的属性值),放入到潜在属性単元集合中。经过上述步骤的操作,即可得到潜在属性単元集合,潜在属性単元集合的元素为潜在属性単元。步骤ニ、获得候选属性集合。从步骤一得到的潜在属性単元集合中,挑选出候选属性,并将其加入候选属性集合。候选属性是指出现频率大于某一阈值的潜在属性。所述某ー潜在属性的出现频率可通过公式(I)计算得到。
权利要求
1.一种基于动态学习框架的全自动网页结构化数据抽取方法,其特征在于包括(A)可信属性集学习过程和(B)属性单元的发现和抽取过程; 所述(A)可信属性集学习过程包括步骤一至步骤三,具体为 步骤一、提取潜在属性单元; 网页中包含的结构化数据用于描述当前网页所呈现事物的属性和属性值,将一个属性及其对应的属性值称为一个属性单元;提取潜在属性单元的具体过程为 第I. I步解析待处理的HTML网页,生成DOM树; 第I. 2步构造DOM树结构模型,其类型有三种 第①种一个节点的子节点数大于或等于2,并且该节点有且仅有2个子节点包含文本节点;该模型用来找出DOM树中对应于一个属性单元的节点,并且该属性单元中只有一个属性和属性值; 第②种一个节点中包含2个或2个以上子节点,但有且仅有2个子节点包含文本节点;2个包含文本节点的子节点中,有且仅有I个子节点只包含一个文本节点,而另一个子节点是包含2个或2个以上文本节点;该模型用来找出DOM树中对应于一个属性单元的节点,并且该属性单元中包含2个或2个以上属性值; 第③种一个节点包含2个或2个以上子节点,但有且仅有偶数个子节点中包含且仅包含一个文本节点,且该偶数个子节点连续排列;此外,该偶数个子节点中,按照其前后顺序将每两个子节点分为一组,每组子节点对应于一个属性单元,每组中的第一个子节点对应属性,第二个子节点对应属性值;因此,该模型用来找出DOM树中对应于I个或I个以上属性单元的节点,并且每个属性单元中只可以包含一个属性值; 第I. 3步根据第I. 2步构造的3种DOM树结构模型,从第I. I步得到的DOM树中抽取出符合3种DOM树结构模型之一的节点; 第I. 4步根据第I. 3步得到的节点的DOM树结构模型类型,找出该节点对应的属性单元,放入到潜在属性单元集合中; 经过上述步骤的操作,即可得到潜在属性单元集合,潜在属性单元集合的元素为潜在属性单元; 步骤二、获得候选属性集合; 从步骤一得到的潜在属性单元集合中,挑选出候选属性,并将其加入候选属性集合;候选属性是指出现频率大于某一阈值的潜在属性; 所述某一潜在属性的出现频率可通过公式(I)计算得到;P(c)=jB⑴ 其中,P(C)表示某一潜在属性c的出现频率;S。表示提取出该潜在属性的待处理HTML网页所在的网站;N(c)表示某一潜在属性c在网站S。中出现的次数;某一潜在属性c在一个网页中出现一次以上,都只记为出现一次;I ScJ表示网站S。中当前已处理的网页个数;步骤三、产生可信属性集合; 在步骤二的基础上,产生可信属性集合;具体为 第3. I步使用公式(2)依次计算步骤二得到的候选属性集合中候选属性的属性熵;
全文摘要
本发明涉及一种基于动态学习框架的全自动网页结构化数据抽取方法,包括(A)可信属性集学习过程和(B)属性单元的发现和抽取过程。所述(A)可信属性集学习过程包括①提取潜在属性单元;②获得候选属性集合;③产生可信属性集合。所述(B)属性单元的发现和抽取过程包括④获取属性单元发现域;⑤获取网页结构化数据。本发明提出的方法与已有方法相比较,具有以下优点①无需人工干预,可以大规模地用于现实网络中各种类别的网页属性信息的抽取。②能够适应多种不同的垂直域。③基于动态学习的框架,能够适应目标网页的变化,具有较高的灵活性。④抽取出的信息还可以为其它方面的研究提供数据,如知识库建立、本体研究、趋势预测等。
文档编号G06F17/30GK102831251SQ20121035261
公开日2012年12月19日 申请日期2012年9月20日 优先权日2012年9月20日
发明者宋丹丹, 吴云鹏, 廖乐健, 李龙, 孙飞 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1