情报知识融合系统及方法与流程

文档序号：20769040发布日期：2020-05-15 19:24阅读：1024来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明文本分析技术领域，具体地，涉及一种情报知识融合系统及方法。

背景技术：

知识融合是知识图谱创建过程中的一个重要环节。构建知识图谱的数据往往是多源异构数据，这使得知识融合面临着很多问题需要解决。本方案提出了以下两个主要问题的解决方案。

1、网络情报的可信度计算及其计算效率问题；

2、多源知识库融合的融合效率问题。

对于第一个问题，本方案提出了基于rnn和变长时间序列的网络情报文本可信度计算，将帖子按照一定时间间隔进行分组，然后每组作为时间序列的一个单元进行训练。

对于第二个问题，本方案提出了分区索引技术，在知识库对齐中建立索引是通过剪枝过滤掉知识库中不可能相似的实体对，使得相似的实体对尽量分配到一个或几个区块中成为候选对，最终的对齐处理只在这些候选对中进行，从而达到提高匹配效率的目的。本方案为了同时考虑到属性和关系对索引的分区的影响，将采用动态索引方法进行分区。

经查阅专利文献我们发现，相关对比技术存在的缺陷如下：

1、没有考虑从文本中如何融合知识，只考虑到两个知识库之间的融合，进而就没有考虑到信息源的可信度计算问题。本方案提出了从文本中提取知识并和知识库融合的方法和过程，并提出了高效的可信度计算算法，从而实现了知识库的增量式更新，这对于知识图谱的增量式构建具有根本性的意义。

2、多源知识库融合，采用聚类的方法，当知识库容量比较大(千万级)时，时间消耗会十分巨大；而knn聚类算法本身是跟知识库容量的平方成正比的，在实际使用中会十分低效。动态分区索引技术可以显著提升融合时实体匹配的效率。

相关检索结果3：

申请(专利)号:cn201710117723名称:商品领域的知识融合方法

摘要:本发明提供了一种商品领域的知识融合方法，其中包括获取待处理的商品数据；采用word2vector方法将各个属性映射成具有多个维度的词向量；根据属性中属性值的词向量距离计算每两个属性之间的相似度；将相似度高于预设阈值的两个属性融合为同一类属性，得到属性融合后的商品数据集合。本发明提供了一种知识融合效果更好的知识融合方法，抓取了大量的商品数据进行训练，在对商品属性进行融合时，一方面大大减少了未登录词的出现，另一方面即使各别的属性值不存在，不会影响到该方法的运行，因此比传统的利用外部知识库的方法更加具有实用性；本方法不仅适用于电商领域的商品知识融合，也适用于其他领域的商品知识融合，从而提供基于知识的更好的服务。

技术要点比较：

1.情报文本与知识库的融合：该方法未提及信源的可信度计算问题，无法处理实体属性名称、实体属性值冲突的处理和选择问题。

技术实现要素：

针对现有技术中的缺陷，本发明的目的是提供一种情报知识融合系统及方法。

根据本发明提供的一种情报知识融合系统，包括：

文本信息与知识库融合模块：将文本中抽取出来的知识融入到现有知识库中；

知识库与知识库融合模块：将新知识库中的知识融入到现有知识库中。

优选地，所述文本信息与知识库融合模块包括：

指称语聚类及消歧模块：将文本中的同一实体的不同指代词进行聚类归一；

实体关联知识库模块：将文本中实体名称连接到知识库中对应的实体；

基于rnn的网络情报文本可信度分析模块：对来自于网络的情报文本的可信度进行分析计算，获得可信度分析结果；

第一知识入库和更新模块：根据输出的可信度分析结果，如果可信度高于预设值，则认为值得入知识库，保存新的知识；否则，则认为和现有知识冲突，则需人工干预进行选择是保留现有知识库中的知识还是用新的知识更新现有知识。

优选地，所述对来自于网络的情报文本的可信度进行分析计算指：对抽取的情报文本知识收集相关的网络媒体评论，并将评论转化为循环神经网络rnn输入单元进行神经网络建模并推理可信度。

优选地，所述第一知识入库和更新模块：保存新的实体知识，或者用新实体知识更新现有实体知识；如果新实体知识是现有库里没有的实体知识，则保存入库并添加信息源；如果库里已有该实体知识，则将对应库里的实体没有的属性添加入库；如果该属性已存在于现有知识实体中，则根据可信度分析结果来选择新知识实体的属性和老知识实体中的属性。

优选地，所述知识库与知识库融合模块包括：

动态分区索引模块：通过剪枝过滤掉知识库中不可能相似的实体对，在知识库对齐中建立索引，采用动态索引方法使相似的实体对分配到一个或几个区块中成为候选对，最终的对齐处理在这些候选对中进行；

基于结构相似性函数的特征匹配模块：计算属性之间的相似评分，即用实体对共同邻居集合的交集与并集的比值衡量实体对之间的相似度，获得属性相似评分；

跨知识库的实体对齐子模块：将实体对齐问题看作是根据属性相似评分判断待匹配实体对是否匹配的分类问题，若属性相似评分高于预设值，则认为是同一实体，此时实体对齐并进行知识融合；

第二知识入库和更新模块：保存新的实体知识，或者用新实体知识更新现有实体知识。

优选地，所述第二知识入库和更新模块：如果新实体知识是现有库里没有的实体知识，则保存入库并添加信息源；如果库里已有该实体知识，则将对应库里的实体没有的属性添加入库；如果该属性已存在于现有知识实体中，则根据属性相似评分来选择新知识实体的属性和老知识实体中的属性。

根据本发明提供的一种情报知识融合方法，包括：

文本信息与知识库融合步骤：将文本中抽取出来的知识融入到现有知识库中；

知识库与知识库融合步骤：将新知识库中的知识融入到现有知识库中。

优选地，所述文本信息与知识库融合步骤包括：

指称语聚类及消歧步骤：将文本中的同一实体的不同指代词进行聚类归一；

实体关联知识库步骤：将文本中实体名称连接到知识库中对应的实体；

基于rnn的网络情报文本可信度分析步骤：对来自于网络的情报文本的可信度进行分析计算，获得可信度分析结果；

第一知识入库和更新步骤：根据输出的可信度分析结果，如果可信度高于预设值，则认为值得入知识库，保存新的知识；否则，则认为和现有知识冲突，则需人工干预进行选择是保留现有知识库中的知识还是用新的知识更新现有知识；

所述对来自于网络的情报文本的可信度进行分析计算指：对抽取的情报文本知识收集相关的网络媒体评论，并将评论转化为循环神经网络rnn输入单元进行神经网络建模并推理可信度；

所述第一知识入库和更新步骤：保存新的实体知识，或者用新实体知识更新现有实体知识；如果新实体知识是现有库里没有的实体知识，则保存入库并添加信息源；如果库里已有该实体知识，则将对应库里的实体没有的属性添加入库；如果该属性已存在于现有知识实体中，则根据可信度分析结果来选择新知识实体的属性和老知识实体中的属性。

优选地，所述知识库与知识库融合步骤包括：

动态分区索引步骤：通过剪枝过滤掉知识库中不可能相似的实体对，在知识库对齐中建立索引，采用动态索引方法使相似的实体对分配到一个或几个区块中成为候选对，最终的对齐处理在这些候选对中进行；

基于结构相似性函数的特征匹配步骤：计算属性之间的相似评分，即用实体对共同邻居集合的交集与并集的比值衡量实体对之间的相似度，获得属性相似评分；

跨知识库的实体对齐子步骤：将实体对齐问题看作是根据属性相似评分判断待匹配实体对是否匹配的分类问题，若属性相似评分高于预设值，则认为是同一实体，此时实体对齐并进行知识融合；

第二知识入库和更新步骤：保存新的实体知识，或者用新实体知识更新现有实体知识。

优选地，所述第二知识入库和更新步骤：如果新实体知识是现有库里没有的实体知识，则保存入库并添加信息源；如果库里已有该实体知识，则将对应库里的实体没有的属性添加入库；如果该属性已存在于现有知识实体中，则根据属性相似评分来选择新知识实体的属性和老知识实体中的属性。

与现有技术相比，本发明具有如下的有益效果：

1)提出了情报文本与知识库融合的方案；对比技术中只提到知识库与知识库的融合，缺乏文本与知识库直接融合。

2)提出的信源可信度计算方法，并显著提升了信源可信度计算方法的效率。

3)提出的基于动态分区索引的多源知识库融合的新方法，显著提升了知识融合的计算效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的知识图谱构建中的知识融合(阴影部分)示意图。

图2为本发明提供的指称语聚类及消歧子模块流程结构示意图。

图3为本发明提供的指称语对编码器网络结构图及其数据流动情况示意图。

图4为本发明提供的“簇对”编码器网络结构图及其数据流动情况示意图。

图5为本发明提供的知识库对齐的详细流程示意图。

图6为本发明提供的基于lstm的构建时间序列的模型网络结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的一种情报知识融合系统，包括：

文本信息与知识库融合模块：将文本中抽取出来的知识融入到现有知识库中；

知识库与知识库融合模块：将新知识库中的知识融入到现有知识库中。

具体地，所述文本信息与知识库融合模块包括：

指称语聚类及消歧模块：将文本中的同一实体的不同指代词进行聚类归一；

实体关联知识库模块：将文本中实体名称连接到知识库中对应的实体；

基于rnn的网络情报文本可信度分析模块：对来自于网络的情报文本的可信度进行分析计算，获得可信度分析结果；

具体地，所述对来自于网络的情报文本的可信度进行分析计算指：对抽取的情报文本知识收集相关的网络媒体评论，并将评论转化为循环神经网络rnn输入单元进行神经网络建模并推理可信度。

具体地，所述第一知识入库和更新模块：保存新的实体知识，或者用新实体知识更新现有实体知识；如果新实体知识是现有库里没有的实体知识，则保存入库并添加信息源；如果库里已有该实体知识，则将对应库里的实体没有的属性添加入库；如果该属性已存在于现有知识实体中，则根据可信度分析结果来选择新知识实体的属性和老知识实体中的属性。

具体地，所述知识库与知识库融合模块包括：

第二知识入库和更新模块：保存新的实体知识，或者用新实体知识更新现有实体知识。

具体地，所述第二知识入库和更新模块：如果新实体知识是现有库里没有的实体知识，则保存入库并添加信息源；如果库里已有该实体知识，则将对应库里的实体没有的属性添加入库；如果该属性已存在于现有知识实体中，则根据属性相似评分来选择新知识实体的属性和老知识实体中的属性。

本发明提供的情报知识融合系统，可以通过本发明给的情报知识融合方法的步骤流程实现。本领域技术人员可以将所述情报知识融合方法，理解为所述情报知识融合系统的一个优选例。

根据本发明提供的一种情报知识融合方法，包括：

文本信息与知识库融合步骤：将文本中抽取出来的知识融入到现有知识库中；

知识库与知识库融合步骤：将新知识库中的知识融入到现有知识库中。

具体地，所述文本信息与知识库融合步骤包括：

指称语聚类及消歧步骤：将文本中的同一实体的不同指代词进行聚类归一；

实体关联知识库步骤：将文本中实体名称连接到知识库中对应的实体；

基于rnn的网络情报文本可信度分析步骤：对来自于网络的情报文本的可信度进行分析计算，获得可信度分析结果；

具体地，所述知识库与知识库融合步骤包括：

第二知识入库和更新步骤：保存新的实体知识，或者用新实体知识更新现有实体知识。

具体地，所述第二知识入库和更新步骤：如果新实体知识是现有库里没有的实体知识，则保存入库并添加信息源；如果库里已有该实体知识，则将对应库里的实体没有的属性添加入库；如果该属性已存在于现有知识实体中，则根据属性相似评分来选择新知识实体的属性和老知识实体中的属性。

下面通过优选例，对本发明进行更为具体地说明。

优选例1：

整个系统的结构见图1知识图谱构建中的知识融合。

本系统包括如下模块：

1)文本信息与知识库融合模块，其用于将文本中抽取出来的知识融入到现有知识库中。

2)知识库与知识库融合模块，其用于将新知识库中的知识融入到现有知识库中。

其中：文本信息与知识库融合模块包括如下子模块:

1)基于深度强化学习的指称语聚类及消歧子模块(见图2、图3和图4)，其用于将文本中的同一实体的不同指代词进行聚类归一。

2)实体关联知识库子模块，其用于将文本中实体名称连接到知识库中对应的实体。

3)基于rnn的网络情报文本可信度分析子模块，其用于对来自于网络的情报文本的可信度进行分析计算。具体地，对抽取的情报文本知识收集相关的网络媒体评论，并将评论转化为rnn输入单元进行神经网络建模并推理可信度。分析结果将用来指导下一步从网络情报文本中抽取出来的知识是否值得入知识库，如果可信度高于50％,则说明值得入知识库，但若和现有知识冲突，例如实体属性不一致，则需人工干预进行选择保留现有知识库中的知识还是选择新知识。

4)实体知识入库和更新子模块，其用于保存新的实体知识，或者用新实体知识更新现有实体知识。如果新实体知识是现有库里没有的实体知识，则保存入库并添加信息源；如果库里已有该实体知识，则将对应库里的实体没有的属性添加入库；如果该属性已存在于现有知识实体中，则根据可信度来取舍新知识实体的属性和老知识实体中的属性。

知识库与知识库融合模块包括如下子模块:

1)动态分区索引子模块。这个子模块的目的是提高知识融合计算过程中的实体匹配效率，降低计算复杂度。在知识库对齐(见图5)中建立索引是通过剪枝过滤掉知识库中不可能相似的实体对，使得相似的实体对尽量分配到一个或几个区块中成为候选对，最终的对齐处理只在这些候选对中进行，从而达到提高匹配效率的目的。本方案为了同时考虑到属性和关系对索引的分区的影响，采用动态索引方法进行分区。方法根据知识库中先验对齐的类别、实例和字面量构建索引键值对，根据这些索引键值对递归地创建子分区，直到每个分区大小都小于指定阈值或者每对索引键值对都被使用后停止；

2)基于结构相似性函数的特征匹配子模块，这个模块是为了辅助实体对齐的，它用来计算属性之间的相似评分。实体对齐的过程是逐个属性进行的。这里用实体对共同邻居集合的交集与并集的比值衡量实体对之间的相似度。

3)跨知识库的实体对齐子模块，将实体对齐问题看作是根据属性相似评分判断待匹配实体对是否匹配的分类问题。当属性相似度超过50％则可以认为为同一实体，此时实体对齐并进行知识融合。

4)知识入库和更新子模块，功能与文本信息与知识库融合模块中的知识入库和更新子模块相同。

实施举例1：

(1)基于lstm和变长时间序列的神经网络模型

基于lstm和变长时间序列的神经网络模型，是为了计算网络情报文本可信度，并且提升信源可信度计算方法的效率。

1)基本流程

本方案使用基于rnn的模型将网络媒体事件分为可信和不可信。首先这里将介绍将网络媒体贴子(比如微博，twitter)转化为连续变长时间序列，然后利用带有单层lstm核的rnn结构进行可信度分类。

2)问题陈述

个人发表的微博贴子这一类的社交文本信息一般都比较简短，而且信息非常局限。如果我们从一个时间的陈述角度出发，通常一个事件申明都会涉及到很多和其相关的贴子。在这里并不关心个人贴子层面上的真假，而是利用所有贴子总体信息对某个事件的陈述进行真假判断。因此本方案主要的任务不是预测每一个贴子的真假而是，关心一个事件的真假。***

定义一系列给定的事件e＝{ei}，其中每一个事件ei＝{(mi,j,ti,j)}理想上由所有相关的时间戳为ti,j的贴子mi,j组成。目标是检测每个事件的真假。

3)变长时间序列

建模时，将每个贴子作为一个输入实例，并且构建一个rnn网络模拟出序列长度等于相关贴子个数的时间序列。在这里，需要关注的是一个流行的事件可能会有成千上万个人发贴，我们只在一个事件的最后一个时间步设置一个单独的输出层对事件真假进行判断。这种情况下，只带有最后一个阶段的损失但通过了大量的时间步的反向传播的计算代价十分巨大而低效。为此我们将帖子按照一定时间间隔进行分组，然后每组作为时间序列的一个单元进行训练。

信息传播过程中比较密集的发帖期应该被予以关注，我们用高频期间的时间间隔的数量大约确定rnn参考长度。为此，本方案专门设计算法实现了合适的时间跨度的选择。首先，将整个时间线平均分为n(参考rnn序列长度)个时间间隔。然后通过删除空时间间隔找出其中的非空时间间隔的集合u^′(即u^′中每个时间间隔至少含有一个帖子)，其中含有最长时间跨度的连续时间间隔集将被选入到集合如果小于n并且当前的时间间隔数量大于上一轮的时间间隔数量将继续划分，此时划分的时间间隔为上轮的一半，否则将中的连续时间间隔作为输出值。需要注意的是这种划分方法所产生的时间序列数量将接近n，但不同的事件的时间间隔数量是有差异的，但是一个事件中的单独的时间间隔是相等的。

4)算法

5)模型结构

基于上面的构建时间序列，rnn的递归神经元已经可以很自然的适应时间间隔。在每个时间间隔中，我们用tf*idf值作为每个词语的输入。其中，我们将删除掉一些不重要的词语，保持tf*idf最高的k个词语，所以输入维度为k。最后一个时间步的神经元输出将会被用softmax函数计算事件真假的概率。为了得到低维表示，我们在lstm的隐藏层和输入层之间增加了一层嵌入层。具体如图6所示。

训练目标本方案中设置2个标签，其形式为[1,0]代表事件信息为真，[0,1]代表事件信息为假。对于每个训练实例(每个事件)，目标是最小化预测值和真实值之间的平方差：

其中gc，pc分别代表真实值和预测值，c代表真实情况的标签。θi为模型参数，右边一项为l2正则化项惩罚项，目的是防止过拟合。

模型训练使用反向传播算法训练模型，用adagrad算法进行参数更新。其中，词汇量设置为k＝5000，参考rnn序列长度设置为n＝50，隐藏神经元为100个，学习率为0.5。

(2)动态分区索引

引入动态分区索引的目的是为了在知识库对齐时，对知识库进行分区和建立索引，以加速实体对的匹配过程。

索引是对数据库表中一列或多列的值进行排序的一种结构，使用索引可以快速访问数据库表中的特定信息。在知识库对齐中建立索引是通过剪枝过滤掉知识库中不可能相似的实体对，使得相似的实体对尽量分配到一个或几个区块中成为候选对，最终的对齐处理只在这些候选对中进行，从而达到提高匹配效率的目的。

这其中的一个关键问题就是索引键值得选择问题。这里所谓索引键值就是知识库中实体集合的一个或几个属性的函数，通过这些函数值来划分待匹配实体集合，使得这些区块可以包含所有的匹配实体对，并且产生的候选对越少越好。索引键值的选择需要考虑3方面因素：

属性值的质量。因为任何作为索引键的属性值的缺失或错误都可能导致实体的错误分类，从而影响对齐的结果，因此作为索引键值的属性值要尽可能完整且正确。

属性值的分布。在实体数量一定的条件下，偏斜的属性值得分布会导致部分分区中匹配对远大于其他分区，从而使匹配总数增加，而均匀分布的属性值产生的匹配对最少。因此属性值的分布要尽可能地均匀。

区块数量和大小的权衡。通过索引产生相对少量较大的分区可以减少潜在匹配实体对的丢失概率，但会产生较多的候选对；而大量较小的分区虽然能减少候选对的数量，但却可能丢失更多的潜在匹配实体对。因此需要设计一种在尽量不丢失可能匹配的情况下使分区尽可能消的索引方案。

本方案为了同时考虑到属性和关系对索引的分区的影响，采用动态索引方法进行分区。

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李德启;谢彬;吴剑涛;姜鑫;牛硕硕;刘太林;邱定
技术所有人：华东计算技术研究所(中国电子科技集团公司第三十二研究所)
我是此专利的发明人

上一篇：操作输入装置的制作方法
上一篇：3D打印用组合物和3D打印制品及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。