一种面向开放网页的实体属性抽取方法和系统的制作方法

文档序号：8319278阅读：342来源：国知局

一种面向开放网页的实体属性抽取方法和系统的制作方法
【技术领域】
[0001] 本发明涉及数据挖掘技术领域，特别地，涉及一种面向开放网页的实体属性抽取方法和系统。
【背景技术】
[0002] 开放网页是指数据源不固定、包含多种网络数据的非结构化互联网网页，如博客、论坛、新闻、聊天记录、电子邮件等，其信息的性质和量值出现的位置不固定，所有内容都是不可预知的。随着网络技术的发展，特别是Internet和Intranet技术的飞快发展，开放网页以其结构灵活的自身特点，在数量快速增大的同时，也为其文本理解带来困难：
[0003] 1、文本结构不固定，没有特定的上下文语法；
[0004] 2、关键词范围不固定，涉及的学科领域多样；
[0005] 3、文本长度不固定，上下文信息量差距较大；
[0006] 4、数据源不固定，语言现象复杂。
[0007] 实体是指客观存在并可相互区别的事物，可以是具体的客观对象，也可以是抽象的事件。实体属性是指实体本身的性质，实体属性抽取通过将不同信息源对于某一实体的属性集中起来，从不同的角度反映这个实体的相关情况，完善对该实体的认识，在信息抽取、事件跟踪、人名消歧等研宄中有着重要作用，并且已成为文本理解的关键技术。
[0008] 针对开放网页的特点，传统的实体属性抽取方法在以下方面存在限制：
[0009] 第一、开放网页的文本结构不固定，实体及其描述没有固定规律可循，且多数在自由文本中，不易抽取分析；
[0010] 第二、传统的面向规则的属性抽取方法，规则定义死板，过于依赖上下文语法，且匹配效率低下；
[0011] 第三、开放网页的数据源不固定，语言现象复杂，普通规则难以涵盖，传统的基于规则的属性抽取不支持规则的嵌套匹配；
[0012] 第四、传统的基于统计的实体属性抽取方法，训练数据的准备过于依赖人工，效率不高，且准确率和召回率较低；
[0013] 第五、传统的属性抽取多局限在某个领域或学科里面进行，不能将系统直接移植到其他领域或学科进行使用，缺乏具有通用性的关联特征，不易移植和扩展。

【发明内容】

[0014] 为解决上述问题，根据本发明的一个实施例，提供一种面向开放网页的实体属性抽取方法，包括：
[0015] 步骤1)、提取开放网页的文本，从中获得目标实体的候选文本集合；
[0016] 步骤2)、根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。
[0017] 上述方法中，步骤1)包括：
[0018] 步骤11)、从开放网页中提取出非结构化文本，对该非结构化文本进行分词，得到词与所述非结构化文本之间的相关度；
[0019] 步骤12)、获得目标实体的上下文中距离该目标实体最近的一个或多个初始查询扩展词，将与目标实体及所述一个或多个初始查询扩展词相关度最高的一个或多个非结构化文本作为第一文本集合；
[0020] 步骤13)、从所述第一文本集合中选择词频最高的一个或多个二次查询扩展词，将与目标实体及所述一个或多个二次查询扩展词相关度最高的一个或多个非结构化文本作为第二文本集合；
[0021] 步骤14)、将所述第一文本集合和所述第二文本集合的并集作为目标实体的候选文本集合。
[0022] 上述方法中，多个词与非结构化文本的相关度为所述多个词中的每个词与该非结构化文本的相关度之和。
[0023] 上述方法中，步骤2)包括：计算目标实体属性在训练文本集合中出现的频率，如果该频率超过预定的阈值，则根据构造的统计模型来抽取目标实体属性的值，否则根据构造的层叠有穷状态自动机来抽取目标实体属性的值；其中，所述训练文本集合用于训练所述统计模型。
[0024] 上述方法中，根据以下步骤构造层叠有穷状态自动机：
[0025] 步骤a)、在所述候选文本集合中进行实体识别并生成概念文件；其中，所述概念文件包括指示实体类型和属于该类型的、从所述候选文本集合中识别出的实体的基本概念；指示待抽取变量的正则表达式；以及，指示实体与属性之间的关系的标志词；
[0026] 步骤b)、生成包括所述概念文件和关联规则的规则文件；其中，关联规则包括单个规则或者嵌套了多个子规则的规则，用于指示所述概念文件中基本概念、正则表达式以及标志词之间的关系；
[0027] 步骤c)、根据所述规则文件中的关联规则，构造层叠有穷状态自动机；其中，所述层置有穷状态自动机的初始状态为基本概念、正则表达式或者标志词；其他状态包括关联规则以及关联规则中的子规则。
[0028] 上述方法中，根据构造的层叠有穷状态自动机来抽取目标实体属性的值包括：
[0029] 将所述候选文本集合与所述层叠有穷状态自动机从初始状态开始匹配，对每个状态在所述候选文本集合中匹配到的内容建立倒排索引；
[0030] 匹配完成后，从建立的倒排索引中得到目标实体属性的值。
[0031] 上述方法中，根据以下步骤构造统计模型：
[0032] 步骤A)、从在线百科中获得训练实体和相应的训练属性；
[0033] 步骤B)、从训练开放网页中获得所述训练实体的训练文本集合；
[0034] 步骤C)、在所述训练文本集合中提取特征，将所述训练属性的特征进行回标得到各属性的训练数据；
[0035] 步骤D)、根据所述训练数据，生成与每个属性相对应的统计模型。
[0036] 上述方法中，步骤B)包括：
[0037] 步骤BI)、从训练开放网页中提取出非结构化文本，对该非结构化文本进行分词，得到词与非结构化文本之间的相关度；
[0038] 步骤B2)、根据训练实体在训练开放网页中的上下文信息获得距离该训练实体最近的η个初始查询扩展词，将与训练实体及初始查询扩展词相关度最高的K个非结构化文本作为第三文本集合；其中，η和K为正整数；
[0039] 步骤Β3)、从所述第三文本集合中选择词频最高的m个二次查询扩展词，将与训练实体及二次查询扩展词相关度最高的L个非结构化文本作为第四文本集合；其中，m和L为正整数；
[0040] 步骤M)、取所述第三文本集合和所述第四文本集合的并集，作为训练文本集合。 [0041] 上述方法中，步骤C)还包括：去除所述训练数据中的杂质，以及控制所述训练数据中的正例与反例的比例。
[0042] 上述方法中，所述特征包括词语、词语之间的依存关系、词语的词频及词性。
[0043] 上述方法中，根据构造的统计模型来抽取目标实体属性的值包括：
[0044] 按照在构造所述统计模型时提取特征的方式来提取所述候选文本集合的特征；
[0045] 将提取出的特征输入目标实体属性对应的统计模型，得到目标实体属性的值。
[0046] 上述方法中，还包括：
[0047] 步骤3)、根据目标实体属性的类型、词性或者取值范围，校正抽取出的目标实体属性的值。
[0048] 根据本发明的一个实施例，还提供一种面向开放网页的实体属性抽取系统，包括：
[0049] 网页预处理模块，用于提取开放网页的文本；
[0050] 查询扩展模块，用于从提取出的文本中获得目标实体的候选文本集合；
[0051] 属性抽取模块，用于根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。
[0052] 本发明具有如下的有益效果：
[0053] 1、提出一种基于层叠有穷状态自动机的实体属性抽取方法，实现了复杂嵌套规则的抽取；
[0054] 2、在基于层叠有穷状态自动机的抽取过程中

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程学旗;贾岩涛;赵泽亚;王元卓;熊锦华;李曼玲;林海伦;许洪波;
技术所有人：中国科学院计算技术研究所;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。