一种基于CR决策树的知识图谱构建方法与流程

文档序号:19016037发布日期:2019-11-01 19:47阅读:1692来源:国知局
一种基于CR决策树的知识图谱构建方法与流程

本发明涉及知识图谱构建技术领域,尤其涉及一种基于cr决策树的知识图谱构建方法。



背景技术:

知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。

在工作中,对不同知识信息需要进行不同类型的处理,由于其信息内容的庞大性,相同或相似信息在不同地区的展现形式存在差异,例如名称或词语的描述彼此不同,从而影响信息工作准确快速进行,需要通过对信息进行知识图谱的构建,以便工作正常有序进行;目前的知识图谱构建方法效率差,且图谱精度不高,容易因存在错误影响工作的正常进行。

为解决上述问题,本申请中提出一种基于cr决策树的知识图谱构建方法。



技术实现要素:

(一)发明目的

为解决背景技术中存在的技术问题,本发明提出一种基于cr决策树的知识图谱构建方法,不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。

(二)技术方案

为解决上述问题,本发明提供了一种基于cr决策树的知识图谱构建方法,所述构建方法包括以下步骤;

s1、采集所有知识并构建知识实体属性资料库;

s2、获取知识图谱构建的语料数据;

s3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;

s4、对语料数据集采用混合式方法进行实体属性知识扩充;

s5、对步骤4所得的实体属性知识进行实体属性值融合;

s6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;

s7、通过cr决策树并根据实体关系实现对知识图谱的构建。

优选的,所述步骤1采集所有知识并构建知识实体属性资料库包括以下内容:首先采集领域实体词条构建为语料集,并定义领域实体的基本属性及其属性值的词性,以及根据领域实体的基本属性的特点,将其划分为多值属性、固定型单值属性或非固定型单值属性类别。

优选的,所述步骤3对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集包括以下步骤:

s31、对语料数据进行整合得到语料文本域;

s32、对语料文本域进行分组;

s33、对各语料文本域分别进行域分词处理;

s34、根据无效词汇表进行无效词汇过滤,过滤掉无效词汇和敏感词汇;

s35、将有效词汇与资料库中词汇表进行比对,将新词汇加入到资料库的词汇列表,对己有词汇进行累加其出现的频次。

优选的,所述步骤s33中的分词处理包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或多种。

优选的,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。

优选的,所述步骤5对实体属性值融合包括以下内容:

根据领域实体基本属性的特点,将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别;

首先,采用一种基于来源可信度的方法对多值属性的属性值进行融合;

其次,采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合;

最后,采用如下一种基于学习排序的方法对非固定型单值属性的属性值进行融合。

优选的,所述步骤6通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系中,釆用句法分析及词法分析将实体关系转化为特征向量,继而采用机器学习模型进行处理,计算特征向量的相似度,并对实体关系进行分类。

本发明的上述技术方案具有如下有益的技术效果:通过建立知识实体资料库,便于对实体关系进行确认,以便于对知识图谱的构建,对获取的知识数据进行预处理,便于对语料数据进行类型划分和内容的精简,以提高对知识图谱的构建效率和准确性;通过将实体属性知识的扩充和属性值的融合,一方面提高了领域知识获取的准确率,另一方面极大增加了获取的领域实体知识的规模;通过cr决策树对知识图谱进行构建,不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。

附图说明

图1为本发明提出的一种基于cr决策树的知识图谱构建方法的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

如图1所示,本发明提出的一种基于cr决策树的知识图谱构建方法,所述构建方法包括以下步骤;

s1、采集所有知识并构建知识实体属性资料库;

s2、获取知识图谱构建的语料数据;

s3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;

s4、对语料数据集采用混合式方法进行实体属性知识扩充;

s5、对步骤4所得的实体属性知识进行实体属性值融合;

s6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;

s7、通过cr决策树并根据实体关系实现对知识图谱的构建。

本发明中,通过建立知识实体资料库,便于对实体关系进行确认,以便于对知识图谱的构建,对获取的知识数据进行预处理,便于对语料数据进行类型划分和内容的精简,以提高对知识图谱的构建效率和准确性;通过将实体属性知识的扩充和属性值的融合,一方面提高了领域知识获取的准确率,另一方面极大增加了获取的领域实体知识的规模;通过cr决策树对知识图谱进行构建,不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。

在一个可选的实施例中,所述步骤1采集所有知识并构建知识实体属性资料库包括以下内容:首先采集领域实体词条构建为语料集,并定义领域实体的基本属性及其属性值的词性,以及根据领域实体的基本属性的特点,将其划分为多值属性、固定型单值属性或非固定型单值属性类别。

需要说明的是,实体的多值属性是指实体的属性存在多个属性值,实体的固定型单值属性是指实体的属性只存在一个属性值且表示方式唯一,实体的非固定型单值属性是指实体的属性只存在一个属性值,但表示方式不唯一。

在一个可选的实施例中,所述步骤3对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集包括以下步骤:

s31、对语料数据进行整合得到语料文本域;

s32、对语料文本域进行分组;

s33、对各语料文本域分别进行域分词处理;

s34、根据无效词汇表进行无效词汇过滤,过滤掉无效词汇和敏感词汇;

s35、将有效词汇与资料库中词汇表进行比对,将新词汇加入到资料库的词汇列表,对己有词汇进行累加其出现的频次。

需要说明的是,通过将语料数据整合为语料文本域,便于对语料数据进行分组分词处理,通过对语料文本域进行分组和分词处理,便于对语料文本域进行类型划分和内容的精简,以提高对知识图谱的构建效率和准确性。

在一个可选的实施例中,所述步骤s33中的分词处理包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或多种。

需要说明的是,多种分词方法确保分词准确性,基于字符串匹配的分词方法是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功;

基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。

基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字x、y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。

在一个可选的实施例中,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。

需要说明的是,基于理解的分词方法按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配;以减少匹配的错误率,从而极大地提高切分的准确率。

在一个可选的实施例中,所述步骤5对实体属性值融合包括以下内容:

根据领域实体基本属性的特点,将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别;

首先,采用一种基于来源可信度的方法对多值属性的属性值进行融合;

其次,采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合;

最后,采用如下一种基于学习排序的方法对非固定型单值属性的属性值进行融合。

需要说明的是,通过对实体属性值进行融合,极大扩充了现有领域知识图谱的知识规模,提高对知识图谱构建的效率和准确性。

在一个可选的实施例中,所述步骤6通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系中,釆用句法分析及词法分析将实体关系转化为特征向量,继而采用机器学习模型进行处理,计算特征向量的相似度,并对实体关系进行分类。

需要说明的是,用这种方法构建模式集合减少了大量的人工参与,特征的提取更加简单有效。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1