一种用于Web对象信息抽取的增强约束条件随机场模型的制作方法

文档序号:6542430阅读:262来源:国知局
一种用于Web对象信息抽取的增强约束条件随机场模型的制作方法
【专利摘要】本发明揭示了一种用于Web对象信息抽取的增强约束条件随机场模型。所述模型包括将约束条件引入模型推理过程,利用最大间隔理论增强训练约束模型,并将模型应用于Web对象信息抽取领域。本发明通过将约束条件引入模型的推理过程,改进线性链条件随机场模型的维特比(Viterbi)算法,然后运用最大间隔理论的思想训练条件随机场模型,可以很好的完成混合网站的属性标注,并且能够很容易的添加训练样本,从而拥有能够实现多个混合网站的属性标注的能力,而且可在提高标注正确率的基础上有效地解决Web对象信息抽取问题。
【专利说明】一种用于Web对象信息抽取的增强约束条件随机场模型
【【技术领域】】
[0001]本发明涉及网页信息抽取领域,特别涉及一种用于Web对象信息抽取的增强约束条件随机场模型。
【【背景技术】】
[0002]互联网是全球规模最大、门类最全的信息共享平台,它涵盖了各个领域的大量有价值的信息。信息抽取技术的本质是从网页的半结构或无结构的信息中抽取出用户感兴趣的信息,并将其转化为结构更加合理、语义更加清晰的格式。比如可以从美食餐饮网页中抽取饭店的名字、地址、电话、平均消费等信息,并将这些信息以结构化的方式存储到数据库中,进而满足人们对美食领域相关信息的搜索需求。
[0003]近年来,统计学习(又称统计机器学习)方法成为信息抽取领域中常用的方法,主要的统计模型有隐马尔可夫模型(Hidden Markov Models, HMM)、最大熵模型MaximumEntropy, ME)、条件随机场模型(Conditional Random Fields, CRFs)等。
[0004]不幸的是,隐马尔可夫模型可用来描述一个隐含未知参数的马尔可夫过程,但它具有产生式模型的局限性,不能反映训练数据本身的特性。最大熵模型(中每个状态都有一个指数模型作为下一个状态的条件概率,但存在标签偏置问题。条件随机场模型在处理序列数据分割与标注问题上显示出了良好的性能。与CRFs相比,层次条件随机场模型(Hierarchical Con ditional Random Fields,HCRFs)能更好的适应网页数据的层次结构。但是,该模型对Web对象元素之间的条件依赖关系没有良好的适应。约束条件随机场模型(Constrained Conditional Random Fields,CCRFs),将某些类型的约束条件引入条件随机场中,但是这些约束仅限于强制标注某些特定的数据元素是否为某些特定标签,不能充分的利用Web数据元素和标注属性之间强烈的特征关系。

【发明内容】

[0005]为了克服上述现有的统计模型存在的不足,本发明一种用于Web信息抽取的增强约束条件随机场模型,能够改进一般现有的统计模型的不足,使其能有效地解决Web对象/[目息抽取问题。
[0006]本发明的目的在于提供一种用于Web信息抽取的增强约束条件随机场模型,准确地求出标注序列的概率分布,并利用概率分布的计算结果得到输出序列,提高Web信息属性标注的正确率。
[0007]为了达到本发明的目的,根据本发明的一个方面,本发明提供一种增强约束条件随机场模型,该模型将可信约束条件c引入条件随机场形成约束条件随机场,并利用增强因子b对约束条件随机场进行增强,计算出标注序列Y的概率分布P (Y I X,c)。
[0008]在给定观测序列X=(X1;X2,...,Xn)和约束c的条件下,标注序列为Y=(Y1;Y2,...,Yn)的正确率测度Α(y,乙)表示状态标注序列Y中标注正确的元素个数,可通过计算每个元素正确率Ai (Y)之和而得到,Ai(Y)表示为:
【权利要求】
1.一种用于Web对象信息抽取的增强约束条件随机场模型,其特征在于,所述方法包括: 给定一个线性链条件随机场G= (X,Y),X是观测序列随机变量,Y是状态标注序列随机变量,将可信约束条件c引入条件随机场形成约束条件随机场,使用最大似然参数估计方法来对模型进行训练,通过对状态标注序列与正确序列比较后的正确率测度A (Y,Yr)以及增强因子b对约束条件随机场进行增强,计算出标注序列Y的概率分布P (Y IX,c); 计算出标注序列Y的概率分布后,将可信约束条件c引入条件随机场的Viterbi推理过程,根据约束条件c约束一些特定的数据元素取某些指定的属性标签,以提高Web数据属性标注的性能。
2.根据权利要求1所述的计算标注序列Y的概率分布,在下列公式我们引入线性链条件随机场的概率分布:

3.根据权利要求2所述的概率分布的计算,对所述的归一化因子Z(Xpc)的计算,其特征在于,所述方法中,Z(Xpc)可以在所有可能的输出序列Y上求和的基础上,引入约束条件、增强因子和正确率测度得到,即
【文档编号】G06F17/30GK103870596SQ201410126652
【公开日】2014年6月18日 申请日期:2014年3月31日 优先权日:2014年3月31日
【发明者】梁久祯, 黄彦姣 申请人:江南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1