知识库数据处理方法及系统的制作方法

文档序号：9200436阅读：586来源：国知局

知识库数据处理方法及系统的制作方法
【技术领域】
[0001]本发明涉及数据处理领域，更为具体而言，涉及一种知识库数据处理方法和系统。
【背景技术】
[0002]当今各类信息的数字化应用已经越来越普及，人们在工作生活的方方面面都在应用各类知识库信息。然而，在知识库不断完善的过程中，需要对数据中不完整的数据进行补充。
[0003]特别是知识库的SPO三元组(Subject Predicate Object Triples)数据的补充，在工业界和学术界一直是一个待解决的问题。在大众应用知识库中，大概有94%的人物没有父母信息，大概有99%的人物没有种族信息。在中文知识库中这种情况尤为明显。尽管当前具有两种知识库三元组的数据补充方法。一种是从文本中提取，如从维基百科，一般的网页提取三元组数据。另一种是构造查询，从搜索引擎返回的结果中提取三元组信息。但是第一种从文本中提取三元组数据存在的问题是需要对海量的网页进行解析，提取出三元组结果，这种召回比较高，但是抽取的三元组的准确度较低，受噪音的影响比较大。第二种从搜索引擎的结果中提取三元组的准确度比较高，但当前也只能利用搜索引擎对页面的评分进行了线性融合，导致得到的三元组数据的评分的可信度仍然有待提高。
[0004]为解决现有技术中知识库中三元组数据补充准确度低、受噪音影响大，亟需一种全新的知识库数据补充方式。

【发明内容】

[0005]为了解决现有技术中知识库中三元组数据补充准确度低、受噪音影响大的问题，本发明的实施方式提供了一种知识库数据补充方法和系统。
[0006]一方面，本发明实施方式提供了一种知识库数据处理方法，所述方法包括:
[0007]从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息；
[0008]将提取的所述关系信息加入所述知识库中，通过搜索引擎查询请求数据，并对查询到的数据进行模板匹配，再由所述机器学习模型进行预测处理。
[0009]相应的，本发明实施方式还提供了一种知识库数据处理系统，所述系统包括:
[0010]训练模块，用于从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息;
[0011]处理模块，用于将提取的所述关系信息加入所述知识库中，通过搜索引擎查询请求数据，并对查询到的数据进行模板匹配，再由所述机器学习模型进行预测处理。
[0012]实施本发明的各种实施方式具有以下有益效果:可更加准确高效地对知识库数据进行补充。
【附图说明】
[0013]图1是根据本发明实施方式的知识库数据处理方法的流程图；
[0014]图2示出了图1所示方法的步骤SI的具体流程图；
[0015]图3是根据本发明实施方式的知识库数据处理系统的架构图；
[0016]图4示出了图4所示的训练模块100的框图。
【具体实施方式】
[0017]以下结合附图和【具体实施方式】对本发明的各个方面进行详细阐述。其中，众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且，所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解，下述的各种实施方式只用于举例说明，而非用于限制本发明的保护范围。还可以容易理解，本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
[0018]图1是根据本发明实施方式的知识库数据处理方法的流程图；参见图1，所述方法包括如下步骤:
[0019]SI，从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息；
[0020]S2，将提取的所述关系信息加入所述知识库中，在对所述机器学习模型评估达标后提取所述关系信息作为抽取器；将提取的抽取器加入所述的知识库数据处理流程中，在所述的知识库数据处理流程中，通过搜索引擎查询请求数据，并对查询到的数据进行模板匹配，再由所述机器学习模型进行预测处理。
[0021]在本发明的实施方式中，知识库数据处理方法可包括:执行步骤SI，从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息。其中，所述三元组数据包括:主体信息、客体信息和所述主体信息与所述客体信息之间的关系信息，其形式可表示为〈主体，谓词，客体〉。
[0022]接下来，执行步骤S2，其中，所述对查询到的数据进行模板匹配包括:对所述查询到的数据进行分词处理得到若干文本片段(例如，一个以上文本片段)，将各个所述文本片段进行预处理后(包括名词或语法的检测)与所述模板进行匹配。例如，给定“卫夫子”和“儿子”分别作为主体信息和客体信息，我们的目标是抽取对应的“刘据”。首先针对〈卫夫子，儿子〉，构造相应的查询向搜索引擎查询；将搜索结果进行数据预处理，包括对其进行分句或分词处理，从而得到若干的文本片段，每个文本片段和训练好的模板进行匹配，输出潜在包含“刘据”的文本片段。然后对潜在包含“刘据”的文本片段进行过滤(包括但不限于:通过人名分词过滤的关系过滤方式，以及时间过滤和字典过滤等过来方式)。过滤完成后得到“刘据”这个候选列表。将“刘据”命中的模板集合训练机器学习模型，作为特征输入到机器学习模型中，输出“刘据”是“卫夫子儿子”成立的评分。最终根据评分由高至低进行排列，优选并输出待补充的知识库数据。过滤完成后得到“刘据”这个候选命中模板集合，将“刘据”命中的模板集合，作为特征输入到机器学习模型中，输出“刘据”是“卫夫子儿子”成立的评分。
[0023]通过采用本发明的实施方式，可更加准确高效地对知识库数据进行补充。
[0024]图2示出了图1所示方法的步骤SI的具体流程图。参见图2，所述步骤SI包括:
[0025]S11，从知识库中提取所述标记的三元组数据，挑选出所述三元组数据的主体信息和客体信息的文本片段，保留关系信息作为所述模板。主体替换成统一的“主体”标签(subject),客体替换成统一的“客体”标签(object),并保留描述主体和客体之间的词语，一起作为统一的模板。模板示例:“主体，儿子，客体”;“主体，儿子，是，客体”等，例如:从知识库中提取出已有的标记数据三元组〈卫夫子，儿子，刘据 >，构造查询向搜索引擎请求数据，将搜索结果中同时包含“卫夫子”和“刘据”的文本片段挑选出来，并将“卫夫子”替换成相应的标签，得到了相应的模板〈主体，儿子，客体>。
[0026]S12，标记所述关系信息的标记样本作为正例，其他关系的标记样本作为负例，将所述正例和所述负例命中所述模板的集合作为输入特征，训练得到所述机器学习模型。
[0027]另外，SI步骤中所述在对所述机器学习模型评估达标后提取所述关系包括:对所述机器学习模型进行准确率和召回率的评估，当所述三元组数据达到预设标注值时，提取所述三元组数据中的关系信息(提取所述关系信息作为抽取器)。例如:在训练一种关系信息为“儿子”的时候，选择该关系“儿子”的标记样本作为正例(如〈卫夫子，儿子，刘据>)，其他关系的标记样本作为负例(〈刘德华，女儿，刘向蕙 >)。候选“刘据”在模板匹配的过程中会记录命中的模板集合(“主体，儿子，客体”;“主体，儿子，是，客体”等)，作为正例特征；候选“刘向蕙”在模板匹配的过程中会记录命中的模板集合(“主体，女儿，客体”；“主体，女儿，是，客体”等)，作为负例特征。我们将正例负例命中的模板集合作为特征输入，训练模型，并对训练好的模型进行准确率和召回率的评估，例如，可设置三元组达到一定的准确率(80% )后供后续抽取使用。
[0028]图3是根据本发明实施方式的知识库数据处理系统的架构图。参见图3，所述系统I包括:
[0029]训练模块100，用于从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息，根据选取的所述关系信息，训练得到与所述关系信息对应的模板，以所述模板作为输入特征，训练得到机器学习模型，在对所述机器学习模型评估达标后提取所述关系信息；
[0030]处理模块200，用于将提取的所述关系信息加入所述知识库中，在对所述机器学习模型评估达标后提取所述关系信息作为抽取器；将提取的抽

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张志明;李羽;李浩;王波;颜俊伟;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。