一种提高Web数据语义标注的准确性的方法

文档序号：8258686阅读：387来源：国知局

一种提高Web数据语义标注的准确性的方法
【技术领域】
[0001] 本发明属于网页技术领域，涉及一种提高Web数据语义标注的准确性的方法。
【背景技术】
[0002] 随着WWW的不断发展，Web网页中已经存放了涵盖各个领域的大量有价值的信息。 Web数据对象正是这样一类由多个数据元素及可选的语义标签按照特定模式组织在一起的半结构化数据对象。对从HTML网页中抽取出的Web数据对象准确地进行语义标注，即为抽取到的每个数据元素分配一个有意义的标签来表示该数据元素的语义，这将为Web数据集成提供必要的数据基础。
[0003] 调查研究表明，不同网站上的同类Web数据对象呈现出很强的序列性，例如，主流在线营销的售书网站上，图书的名称通常位于图书的描述信息之前。条件随机场 (Conditional Random Fields,简称CRF)模型是目前处理序列数据分割与标注问题的最好的统计机器学习模型。但是，现有的CRF模型在Web数据语义标注中仍存在一些问题，导致语义标注准确度较低。
[0004] 首先，现有的CRF模型没有利用已有的Web数据库信息辅助进行标注。例如，主流在线营销的售书网站上，利用已有的Web数据库信息可以得到著书人的名字标注"作者"标签的可信度应该远远高于其它标签，借助可信度处理可以确保Web数据元素由可信度高的标签集进行标注。其次，现有的CRF模型采用Viterbi推理方法，无法利用Web数据元素之间存在的逻辑关系，例如，在线售书网站上，同一图书的所有数据元素标签总是不重复的，并且同一图书的原价总是大于等于现价，借助Web数据元素之间的逻辑关系可以避免语义标注的逻辑错误。根据上述分析可知，已有的Web数据库信息和Web数据元素之间的逻辑关系对于Web数据语义标注准确性的提高具有十分重要的作用。
[0005] Web数据语义标注是Web信息抽取中的关键步骤，条件随机场是利用序列特征处理序列标注问题的经典方法，然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系，导致Web数据语义标注准确率不高。
[0006] 目前，在Web数据语义标注研究方面有不少工作。Embley等利用本体加上一些启发式规则的方法在包含多条Web数据记录的文档中自动地抽取数据，并进行语义标注。 Arlotta等提出一种完全自动地对搜索结果中的数据项标注有意义标签的方法，利用结果页面中距离数据项最近的标签进行标注。但是，这个方法具有一定的局限性，因为很多网站没有将相关标签在结果页面中显示出来。马安香等针对Deep Web页面提出了基于结果模式的Deep Web数据抽取机制，有效地解决了重复语义标注问题。但是，这个方法仅针对Deep Web页面，并没有考虑普通的Surface页面。以上方法均没有考虑对已有Web数据库信息和 Web数据元素之间逻辑关系的利用。
[0007] 条件随机场是利用序列特征处理序列数据分割与标注问题的经典机器学习方法，在自然语言理解、信息提取等多个领域得到了广泛的应用。聂再清等提出的ECRF模型利用了已有的Web数据库信息辅助Web对象抽取。但是，该模型无法处理Web数据元素之间的逻辑约束。另外一些研究人员也考虑在条件随机场的Viterbi推理算法中引入约束条件，但只支持一些简单约束。Kristjannson等提出了约束Viterbi方法引入某些类型的约束条件，但是这些约束仅限于"强制标注某些数据元素是否为指定标签"，不能满足更加复杂的约束，而且也没有利用已有的数据库信息进行语义标注。
[0008] 基于整数线性规划进行推理的想法已经被一些方法提出。Dan Roth等在自然语言理解的语义角色标注中，利用句法约束标注句子中谓词论元及附属成分标上其担任的语义角色。该方法没有考虑已有数据库信息对语义角色标注的影响。同时，在逻辑约束方面， Web数据语义标注中会出现自然语言理解中考虑不到的约束情况，例如，"同一图书的原价大于现价"的约束等，因此，还需要重新研究Web数据语义标注的逻辑约束问题。
[0009] 综上所述，已有方法都没有给出一个Web数据语义标注中综合利用已有Web数据库信息和Web数据元素之间逻辑关系的方法。

【发明内容】

[0010] 本发明的目的是提供一种提高Web数据语义标注的准确性的方法，解决了现有技术中存在的问题。
[0011] 本发明所采用的技术方案是，一种提高Web数据语义标注的准确性的方法，具体按照以下步骤进行：
[0012] 步骤 1，
[0013] 扩展传统的CRF模型；将该模型引入可信约束和逻辑约束；
[0014] 步骤 2，
[0015] 采用整数线性规划推理方法，将可信约束和逻辑约束同时引入推理过程，显著提高Web数据语义标注的性能；
[0016] 其中，可信约束指的是Web数据对象中每个数据元素取不同标签的可信度，它通过利用已有的Web数据库信息构建标签分类器进行获取；逻辑约束指的是Web数据对象中数据元素之间的逻辑关系，通过布尔表达式进行描述。
[0017]本发明的有益效果是，提出一种约束条件随机场模型（CCRF)，该模型通过引入可信约束和逻辑约束，有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系。为了克服现有条件随机场模型Viterbi推理方法无法综合利用这两类约束的不足，该模型扩展了传统的CRF模型，采用整数线性规划推理方法，将两类约束同时引入推理过程。通过在多个领域的真实数据集上的试验结果表明，所提出的模型能够显著提高Web数据语义标注的性能，并且为Web信息抽取奠定了良好的基础。
【附图说明】
[0018] 图1是CRF推理问题转化为最短路径问题的构造图。
[0019] 图2CRF，CRF+CC，CRF+LC和CCRF模型在不同数据集上的实例标注准确率。
[0020] 图3Book上F1平均值随可信度阈值的变化。
[0021] 图4Paper上F1平均值随可信度阈值的变化。
[0022] 图5Book上F1平均值随逻辑约束逐渐递增的变化。
[0023] 图6Book上F1平均值随训练样本数量的变化。
[0024] 图7Paper上F1平均值随训练样本数量的变化。
[0025] 图SPaper数据集上F1平均值随数据库大小的变化。
[0026] 图9Paper数据集上实例标注准确率随数据库大小的变化。
【具体实施方式】
[0027] 下面结合附图和【具体实施方式】对本发明进行详细说明。
[0028] 本发明一种提高Web数据语义标注的准确性的方法，具体按照以下步骤进行： [0029]步骤 1，
[0030] 扩展传统的CRF模型；将该模型引入可信约束和逻辑约束；
[0031] 步骤 2，
[0032] 采用整数线性规划推理方法，将可信约束和逻辑约束同时引入推理过程，显著提高Web数据语义标注的性能。
[0033] 其中可信约束指的是Web数据对象中每个数据元素取不同标签的可信度，它通过利用已有的Web数据库信息

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董永权;
技术所有人：董永权;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。