知识内容的标注方法、装置、计算机装置和可读存储介质与流程

文档序号：23157921发布日期：2020-12-04 13:52阅读：97来源：国知局

本公开涉及计算机技术领域，尤其涉及一种知识内容的标注方法、装置、计算机装置和可读存储介质。

背景技术：

随着人工智能技术的不断发展，越来越多的利用知识获取模型从原始信息中标注知识内容，上述原始信息通常会以信息数据集的方式呈现出来，随着业务的进展，不断地增加数据集。虽然知识获取模型都经历过模型训练过程，但知识获取模型在从不同信息数据集的原始信息中提取知识内容的性能参数值都会有所不同，并且知识获取模型通常需要经常对一些信息数据集进行标注，并基于标注结果进行模型训练，来保证知识获取模型在该信息数据集上的良好效果。因此，如何从各个信息数据集中选择原始信息，以进行知识内容的标注，保证知识获取模型在该信息数据集上的良好效果是一个需要解决的技术问题。

技术实现要素：

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种知识内容的标注方法、装置、计算机装置和可读存储介质。

本公开实施例提供了一种知识内容的标注方法，包括：

确定知识获取模型从所述信息数据集的第一子集中获取知识内容的性能参数值，每个所述信息数据集具有对应的性能参数值；

基于所述性能参数值从所述信息数据集中除第一子集外的数据中提取原始信息；

基于提取的原始信息构建第一原始信息推荐池；

从所述第一原始信息推荐池中提取原始信息，并利用所述知识获取模型获取知识内容。

在一些实施例中，所述基于性能参数值从所述信息数据集中除第一子集外的数据中提取原始信息，包括：

确定每个项目的知识内容的优先级级别；

基于每篇原始信息所包括的每个优先级级别的知识内容的数量，确定每篇原始信息的重要性得分；

基于所述性能参数值和每篇原始信息的重要性得分，从信息数据集中提取原始信息。

在一些实施例中，所述基于所述性能参数值和每篇原始信息的重要性得分，从信息数据集中提取原始信息，包括：

确定至少两个性能参数值区间；

从处于不同性能参数值区间的信息数据集中提取预设数量的原始信息，且从处于低性能参数值区间的信息数据集中提取的原始信息的数量小于从处于高性能参数值区间的信息数据集中提取的原始信息的数量。

在一些实施例中，所述基于所述性能参数值和每篇原始信息的重要性得分，从信息数据集中提取原始信息，包括：

从每个信息数据集中按照每篇原始信息的重要性得分从高到低依次提取预设数量的原始信息。

在一些实施例中，所述优先级级别包括第一优先级级别和第二优先级级别，所述第一优先级级别高于第二优先级级别，所述基于每篇原始信息所包括的优先级级别的知识内容的数量，确定每篇原始信息的重要性得分，包括：

每篇原始信息的重要性得分＝a*x+b*y；其中x为第一优先级级别的知识内容的数量，y为第二优先级级别的知识内容的数量，a为第一优先级级别的级别系数，b第一优先级级别的级别系数，a>b。

在一些实施例中，还包括：

获取预设数量的包括第一优先级级别的知识内容的原始信息，并加入到第一原始信息推荐池中。

在一些实施例中，所述从第一原始信息推荐池中提取原始信息，并利用所述知识获取模型获取知识内容，包括：

从第一原始信息推荐池中依次随机提取每一篇原始信息，以利用所述知识获取模型获取每一篇原始信息对应的知识内容。

在一些实施例中，还包括：

基于每篇原始信息对应的知识内容生成每篇原始信息对应的待确认的问题；

向用户推送所述待确认的问题，以根据用户的作答结果生成第一标注结果；

基于所述第一标注结果对所述知识获取模型进行优化训练。

在一些实施例中，所述知识内容的类型包括实体类型、关系类型和事件类型；

所述向用户推送所述待确认的问题，包括：

优先向用户推送与所述关系类型的知识内容对应的待确认的问题。

在一些实施例中，还包括：

构建第二原始信息推荐池，所述第二原始信息推荐池包括多篇原始信息；

从所述第二原始信息推荐池提取原始信息，并对原始信息中包括的知识内容进行人工标注，并获取第二标注结果；

根据所述第二标注结果对所述知识获取模型进行训练。

在一些实施例中，所述构建第二原始信息推荐池，包括：

根据预设优先级分别从新上传信息数据集、性能参数值低于预设阈值的信息数据集或者性能参数值达到预设阈值的信息数据集提取原始信息，以构建第二原始信息推荐池，所述新上传信息数据集、性能参数值低于预设阈值的信息数据集和性能参数值达到预设阈值的信息数据集的预先优先级依次降低。

在一些实施例中，所述从性能参数值达到预设阈值的信息数据集提取原始信息，包括：

根据各信息数据集的性能参数值从低到高的顺序依次从所述信息数据集中提取原始信息。

在一些实施例中，所述知识内容为图谱知识，还包括：

基于从所述第一标注结果和/或所述第二标注结果中确定的知识内容构建知识图谱，所述知识内容的确认次数满足预设条件。

在一些实施例中，所述基于从所述第一标注结果中确定的知识内容构建知识图谱，包括：

依次向至少两个用户推送与所述知识内容对应的待确认的问题，以获取所述至少两个用户的第一标注结果。

在一些实施例中，依次向至少两个用户推送与所述知识内容对应的待确认的问题，包括：

在前一个用户针对所述待确认的问题的作答结果为确认时，向后一个用户推送与所述知识内容对应的待确认的问题。

在一些实施例中，基于从所述第一标注结果和/或所述第二标注结果中确定的知识内容构建知识图谱，包括：

若所述第一标注结果和/或所述第二标注结果中针对同一待确认的问题的作答结果均不一致时，确定所述待确定的问题为不确认状态。

本公开实施例还一种知识内容的标注装置，包括：

第一确定模块，用于确定知识获取模型从所述信息数据集的第一子集中获取知识内容的性能参数值，每个所述信息数据集具有对应的性能参数值；

信息提取模块，用于基于所述性能参数值从所述信息数据集中除第一子集外的数据中提取原始信息；

第一构建模块，用于基于提取的原始信息构建第一原始信息推荐池；

第一提取模块，用于从所述第一原始信息推荐池中提取原始信息，并利用所述知识获取模型获取知识内容。

在一些实施例中，所述第一确定模块包括：

第一确定单元，用于确定每个项目的知识内容的优先级级别；

第二确定单元，用于基于每篇原始信息所包括的每个优先级级别的知识内容的数量，确定每篇原始信息的重要性得分；

第一提取单元，用于基于所述性能参数值和每篇原始信息的重要性得分，从信息数据集中提取原始信息。

在一些实施例中，所述第一提取单元具体用于确定至少两个性能参数值区间；从处于不同性能参数值区间的信息数据集中提取预设数量的原始信息且从处于低性能参数值区间的信息数据集中提取的原始信息的数量小于从处于高性能参数值区间的信息数据集中提取的原始信息的数量。

在一些实施例中，所述第一提取单元具体用于从每个信息数据集中按照每篇原始信息的重要性得分从高到低依次提取预设数量的原始信息。

在一些实施例中，所述优先级级别包括第一优先级级别和第二优先级级别，所述第一优先级级别高于第二优先级级别，所述第二确定单元具体用于通过如下方式计算：

在一些实施例中，还包括：

信息添加模块，用于获取预设数量的包括第一优先级级别的知识内容的原始信息，并加入到第一原始信息推荐池中。

在一些实施例中，所述第一提取模块还用于从第一原始信息推荐池中依次随机提取每一篇原始信息，以利用所述知识获取模型获取每一篇原始信息对应的知识内容。

在一些实施例中，还包括：

问题生成模块，用于基于每篇原始信息对应的知识内容生成每篇原始信息对应的待确认的问题；

问题推送模块，用于向用户推送所述待确认的问题，以根据用户的作答结果生成第一标注结果；

优化训练模块，用于基于所述第一标注结果对所述知识获取模型进行优化训练。

在一些实施例中，所述知识内容的类型包括实体类型、关系类型和事件类型，所述问题推送模块用于优先向用户推送与所述关系类型的知识内容对应的待确认的问题。

在一些实施例中，还包括：

第二构建模块，用于构建第二原始信息推荐池，所述第二原始信息推荐池包括多篇原始信息；

人工标注模块，用于从所述第二原始信息推荐池提取原始信息，并对原始信息中包括的知识内容进行人工标注，并获取第二标注结果；

模型训练模块，用于根据所述第二标注结果对所述知识获取模型进行训练。

在一些实施例中，所述第二构建模块具体用于根据预设优先级分别从新上传信息数据集、性能参数值低于预设阈值的信息数据集或者性能参数值达到预设阈值的信息数据集提取原始信息，以构建第二原始信息推荐池，所述新上传信息数据集、性能参数值低于预设阈值的信息数据集和性能参数值达到预设阈值的信息数据集的预先优先级依次降低。

在一些实施例中，所述第二构建模块具体用于根据各信息数据集的性能参数值从低到高的顺序依次从所述信息数据集中提取原始信息。

在一些实施例中，还包括：

条件确认模块，用于基于从所述第一标注结果和/或所述第二标注结果中确定的知识内容构建知识图谱，所述知识内容的确认次数满足预设条件。

在一些实施例中，所述条件确认模块具体用于依次向至少两个用户推送与所述知识内容对应的待确认的问题，以获取所述至少两个用户的第一标注结果。

在一些实施例中，所述条件确认模块具体用于在前一个用户针对所述待确认的问题的作答结果为确认时，向后一个用户推送与所述知识内容对应的待确认的问题。

在一些实施例中，所述条件确认模块具体用于若所述第一标注结果和/或所述第二标注结果中针对同一待确认的问题的作答结果均不一致时，确定所述待确定的问题为不确认状态。

本公开实施例还提供了一种计算机装置，所述计算机装置包括：

处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上所述方法的步骤。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现如上所述方法的步骤。

本公开实施例提供的技术方案，在构建第一原始信息推荐池时，基于所述性能参数值从所述信息数据集中除第一子集外的数据中提取原始信息，能够根据实际需求获取各个性能参数值的信息数据集中的原始信息，从而使得后续利用推荐池中的原始信息进行知识内容提取，得到第一标注结果，然后依据第一标注结果进行模型训练能够有效提高知识获取模型在各信息数据集中的性能表现。例如可以将性能参数值越低的信息数据中提取的原始信息越多，则本步骤中进行知识内容获取，后续基于第一标注结果进行模型优化训练的样本参数会越多，则能够有效提高知识获取模型在上述信息数据集上的性能表现，而对于性能参数值较高的信息数据集中提取较少的原始信息，依然能够根据这些原始信息优化知识获取模型在对应的信息数据集上的性能表现，从而能够达到兼顾不同的信息数据集的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例中一种知识内容的标注方法的流程示意图；

图2为本公开实施例中提取原始信息的流程示意图；

图3为本公开实施例中另一种知识内容的标注方法的流程示意图；

图4为本公开实施例中再一种知识内容的标注方法的流程示意图；

图5为本公开实施例中构建知识图谱的流程示意图；

图6为本公开实施例中一种知识内容的标注装置的结构示意图；

图7为本公开实施例中另一种知识内容的标注装置的结构示意图；

图8为本公开实施例中再一种知识内容的标注装置的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

针对现有技术中在利用知识获取模型进行知识内容标注过程中，如何从各个信息数据集中选择原始信息，以进行知识内容的标注，保证知识获取模型在各个信息数据集上的效果的这一技术问题，本公开实施例提供了一种技术方案。图1为本公开实施例中一种知识内容的标注方法的流程示意图，如图1所示，包括如下的步骤：

步骤101、确定知识获取模型从信息数据集的第一子集中获取知识内容的性能参数值，每个信息数据集具有对应的性能参数值；

具体的，本公开实施例，其中利用知识获取模型从信息数据集的第一子集获取知识内容，同时也对上述知识内容进行人工确定或者与人工标注结果对比等方式，以获取上述知识获取模型从信息数据集的第一子集提取知识内容的性能参数值。其中的性能参数值可以包括准确率、召回率或f1值等衡量知识获取模型性能的参数，或者依据上述参数计算得到的其他数值的形式，其中f1值为准确率和召回率的调和均值。通过本步骤，每个信息数据集可以设置对应的性能参数值。

本公开实施例中的原始信息，可以包括多种形式，例如是原始文本信息、原始图片信息或原始视频信息。

步骤102、基于性能参数值从信息数据集中除第一子集外的数据中提取原始信息；

在获取上述性能参数值的基础上，可以基于该性能参数值从信息数据集中除第一子集外的数据中提取原始信息。具体的，可以根据性能参数值的大小，分别从信息数据集中提取不同数量的原始信息，例如性能参数值较低的信息数据集中提取较多的原始信息，从性能参数值较高的信息数据集中提取较少的原始信息；或者是设置至少两个性能参数值区间，每个性能参数值区间内的信息数据集中提取的原始信息的数量相同，而处于低性能参数值区间的信息数据集中提取的原始信息的数量小于从处于高性能参数值区间的信息数据集中提取的原始信息的数量。上述基于性能参数值提取原始信息的方式仅仅为一种示例，还可以是其他方式。

步骤103、基于提取的原始信息构建第一原始信息推荐池；

在上述基于性能参数值从不同的信息数据集中提取到一定数量的原始信息后，就可以基于上述原始信息构建第一原始信息推荐池，具体的，该第一原始信息推荐池中可以包括预设数量的原始信息，例如原始信息可以是原始文本信息，则可以包括500篇文本信息；可以是原始图片信息，则可以包括500张图片信息；可以是原始视频信息，则可以包括100段视频信息。

步骤104、从第一原始信息推荐池中提取原始信息，并利用知识获取模型获取知识内容。

在构建完成第一原始信息推荐池的基础上，可以从中随机选择原始信息，并利用知识获取模型从原始信息中提取知识内容，基于上述知识内容可以人工确认，并可以依据人工确认，以得到第一标注结果，上述第一标注结果可以继续用于进行知识获取模型的优化训练，并且通过上述步骤102中，在构建第一原始信息推荐池时，即是将性能参数值越低的信息数据中提取的原始信息越多，则本步骤中进行知识内容获取，后续基于第一标注结果进行模型优化训练的样本参数会越多，则能够有效提高知识获取模型在上述信息数据集上的性能表现，而对于性能参数值较高的信息数据集中提取较少的原始信息，依然能够根据这些原始信息优化知识获取模型在对应的信息数据集上的性能表现，从而能够达到兼顾不同的信息数据集的目的。

在一些实施例中，对于基于性能参数值从信息数据集中除第一子集外的数据中提取原始信息的方式，可以多种方式。具体的，针对原始信息中的知识内容，其可以包括多种类型和/或多个项目，例如对应利用知识内容构建知识图谱的应用场景中，其中在知识图谱中的知识内容的类型，可以包括实体类型、关系类型和事件类型，而对于每个类型又可以包括多个项目，例如对于实体类型，其中的项目可以包括员工、城市、部门、职务、公司、日期等，为了能够让知识获取模型更多学习上述的项目的知识，可以为不同的项目分别设置优先级；而对于关系类型，可以包括“员工-就职于-公司”或“员工-担任-职务”这些项目，其中会包括实体类型的具体项目，在上述为实体类型的不同项目分别设置优先级后，各关系类型的项目，也会有对应的优先级了；对于事件类型，其可以包括“入职事件-员工、职务、部门、公司”这个项目，其中会包括实体类型的具体项目，在上述为实体类型的不同项目分别设置优先级后，各事件类型的项目，也会有对应的优先级，然后在执行上述步骤102时，可以具体按照图2所示的实施例中执行。图2为本公开实施例中提取原始信息的流程示意图，如图2所示，包括如下步骤：

步骤201、确定每个项目的知识内容的优先级级别；

具体的，优先级级别包括第一优先级级别和第二优先级级别，所述第一优先级级别高于第二优先级级别，还可以其他数目的级别，例如可以将项目的优先级划分为三个级别，例如高优、正常和暂停。具体的，针对上述项目，可以将员工、城市设置为高优，部门、职务设置为正常，公司、日期设置为暂停；

步骤202、基于每篇原始信息所包括的每个优先级级别的知识内容的数量，确定每篇原始信息的重要性得分；

具体的，可以每篇原始信息的重要性得分＝a*x+b*y；其中x为第一优先级级别的知识内容的数量，y为第二优先级级别的知识内容的数量，a为第一优先级级别的级别系数，b第一优先级级别的级别系数，a>b，在包括上述三个级别的情况下，例如高优、正常和暂停，其中高优可以相当于上述的第一优先级级别，正常可以相当于上述的第二优先级级别，暂停对应的级别系数可以为0，也就是在计算重要性得分时忽略不计。

本步骤中，可以通过对每篇原始信息所包括的各优先级级别的知识内容的数量进行统计，例如对于原始信息为原始文本信息的情况，可以得到第一篇文本信息中员工、城市的出现次数各为10次，部门、职务的出现次数各为5次，公司、日期的出现次数各为5次。此时在计算文章重要性得分时，例如第一优先级别的级别系数为5，第二优先级级别的级别系数为2。则最终的文章重要性得分＝10*5+10*5+5*2+5*2＝120。

步骤203、基于性能参数值和每篇原始信息的重要性得分，从信息数据集中提取原始信息。

在上述得到性能参数值和每篇原始信息的重要性得分的基础上，则可以除根据性能参数值获取每个信息数据集中提取的原始信息的数量外，还可以基于每个原始信息的重要性得到，确定从信息数据集中提取哪些原始信息。

在一些实施例中，如上所述的，可以依据性能参数值划分不同的性能参数值区间，然后确定至少两个性能参数值区间，并从处于不同性能参数值区间的信息数据集中提取预设数量的原始信息，且从处于低性能参数值区间的信息数据集中提取的原始信息的数量小于从处于高性能参数值区间的信息数据集中提取的原始信息的数量。

具体的，例如可以依据性能参数值从到小进行排列，将其划分为三个区间。例如性能参数值为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8和0.9这几个值，将其划分为性能参数值后1/3的区间，分别对应性能参数值为0.1、0.2和0.3；性能参数值中间1/3的区间，分别对应性能参数值为0.3、0.4、0.5，性能参数值前1/3的区间，分别对应性能参数值为0.7、0.8和0.9。

对于每个性能参数值的区间，其中每个信息数据集中提取原始信息的数量可以相同，而低性能参数值区间的信息数据集中提取的原始信息的数量小于从处于高性能参数值区间的信息数据集中提取的原始信息的数量。例如，对于性能参数值后1/3的区间，每个信息数据集中提取的原始信息的数量为60篇；性能参数值中间1/3的区间，每个信息数据集中提取的原始信息的数量为30篇；性能参数值前1/3的区间，每个信息数据集中提取的原始信息的数量为10篇。在上述确定了每个性能参数值的信息数据集总体上提取的原始信息的基础上，可以基于每篇原始信息的重要性得分确定具体提取数量了，即可以从每个信息数据集中按照每篇原始信息的重要性得分从高到低依次提取预设数量的原始信息。例如，对于性能参数值前1/3的区间，每个信息数据集中提取重要性得分前10的原始信息，对于性能参数值中间1/3的区间，每个信息数据集中提取重要性得分前30的原始信息，对于性能参数值后1/3的区间，每个信息数据集中提取重要性得分前60的原始信息。通过上述在构建第一原始信息推荐池时，依据每篇原始信息的重要性得分来提取，使得需要知识获取模型学习的高优先级级别的被尽可能的多提取出来，能够提高知识获取模型在该方面的性能表现。

获取预设数量的包括第一优先级级别的知识内容的原始信息，并加入到第一原始信息推荐池中。例如可以提取两篇包括上述“公司”的原始信息，并加入到第一原始信息推荐池中。

在上述构建第一原始信息推荐池基础上，可以利用知识获取模型从推荐池的原始信息中提取知识内容，并对上述知识内容进行人工确认。而具体的从推荐池中提取原始信息的方式，可以是从第一原始信息推荐池中依次随机提取每一篇原始信息，以用知识获取模型获取每一篇原始信息对应的知识内容。并且进一步的，图3为本公开实施例中另一种知识内容的标注方法的流程示意图，如图3所示，还可以包括如下的步骤：

步骤105、基于每篇原始信息对应的知识内容生成每篇原始信息对应的待确认的问题；

具体的，在上述依次随机从推荐池中提取出来原始信息的基础上，可以基于每篇原始信息对应的知识内容生成每篇原始信息对应的待确认的问题，例如针对文本信息，可以生成与该文本信息对应的待确认的问题。并且由于原始信息是依次提取的，此时的待确认问题也可以是以原始信息为单位，分批次生成。

步骤106、向用户推送待确认的问题，以根据用户的作答结果生成第一标注结果；

具体的，本步骤执行人工确认的过程，即在生成待确认的问题后，可以向用户推送上述待确认的问题，上述待确认的问题通过至少一种预设通道推送给用户进行作答，由于是问答式的题目，并且用户只需要根据提供确定或不确定的作答结果即可，对于用户的要求较低，可以利用没有很多专业知识的普通用户来实现；且对于上述待确认的问题可以对外部开放，接入到不同的应用场景或平台中实现。而普通用户的上述作答结果通过汇集后，可以根据用户的作答结果生成第一标注结果。

步骤107、基于第一标注结果对知识获取模型进行优化训练。

上述第一标注结果是由用户进行人工确定的结果，其可信度角度，通过上述的第一标注结果对知识获取模型进行训练，能够显著提高知识获取模型的性能表现。

在上述的知识内容为图谱知识，即本公开实施例的知识内容的标注方案应用于构建知识图谱的场景中时，则上述的知识内容的类型包括实体类型、关系类型和事件类型，而通常对于关系类型的知识内容，其在知识图谱上的体现为关系边，以及位于关系边两端的实体节点，每个实体节点对应一个实体类型的知识内容，所以确定了一个关系类型的知识内容，就相当于确定了两个实体类型的知识内容。本公开实施例中，在向用户推送待确认的问题时，可以优先推送与关系类型的知识内容对应的待确认的问题。

本公开上述图1-图3所示的实施例中，实际上是利用知识获取模型对知识内容进行标注、利用人工确定的方式对上述标注结果进行校正和校正后的第一标注结果对知识获取模型进行优化训练的过程。而在完整的知识内容标注过程中，在进行上述的图1-图3所述的实施例之前，还需要对知识获取模型进行预训练，以使得知识获取模型的性能参数值能够达到一定的预设阈值，即不能够太低，若太低则会影响到后续人工确定的效果。

图4为本公开实施例中再一种知识内容的标注方法的流程示意图，如图4所示，还可以包括如下步骤：

步骤108、构建第二原始信息推荐池，第二原始信息推荐池包括多篇原始信息；

具体的，本公开实施例中的第二原始信息推荐池主要是用于对原始信息进行人工标注，并基于人工标注的结果进行知识获取模型的训练，以使得知识获取模型从各个信息数据集中提取知识内容的性能参数值达到一定的预设阈值，即可以被用来执行上述图1-图3所示实施例的技术方案。因此，本公开实施例中，其中构建第二原始信息推荐池时，其中原始信息的来源可以包括新上传的信息数据集、性能参数值低于预设阈值的信息数据集或者是性能参数值达到预设阈值的信息数据集，对于性能参数值达到预设阈值的信息数据集这一情况，主要是考虑为了对知识获取模型从该信息数据集中提取知识内容的性能进行进一步优化。

针对上述各个第二原始信息推荐池中原始信息的来源，在构建时，可以根据预设优先级分别从新上传信息数据集、性能参数值低于预设阈值的信息数据集或者性能参数值达到预设阈值的信息数据集提取原始信息，以构建第二原始信息推荐池。而其中新上传信息数据集、性能参数值低于预设阈值的信息数据集和性能参数值达到预设阈值的信息数据集的预先优先级依次降低。

具体的，对于新上传信息数据集，可以认为知识获取模型从其中提取知识内容的性能参数值为零，则从该新上传数据集中提取原始信息加入到第二原始信息推荐池中的优先级最高；对于性能参数值低于预设阈值的信息数据集，该预设阈值可以是一个设定值，其可以根据具体需求不同而取不同的值，例如为0.3，则对于知识获取模型从中提取知识内容的性能参数值低于0.3的信息数据集，也需要从中提取原始信息，并加入到第二原始信息推荐池；对于知识获取模型从中提取知识内容的性能参数值达到0.3的信息数据集，在上述两种方式提取的原始信息较少的情况下，也可以从这些信息数据集中提取一些原始信息，例如具体执行过程中，可以按照根据各信息数据集的性能参数值从低到高的顺序依次从信息数据集中提取原始信息，优先从性能参数值较低的信息数据集中提取原始信息，以提高知识获取模型在该类信息数据集中的性能表现。

步骤109、从第二原始信息推荐池提取原始信息，并对原始信息中包括的知识内容进行人工标注，并获取第二标注结果；

基于上述步骤108中构建的第二原始信息推荐池，可以从中提取原始信息进行人工标注，以获取第二标注结果。

步骤110、根据第二标注结果对知识获取模型进行训练。

本步骤中通过步骤109中获得的第二标注结果对知识获取模型进行训练，以优化知识获取模型的性能，且具体的，该性能优化主要是针对第二原始材料推荐池中原始信息所来源的信息数据集，若从某一信息数据集中提取的原始信息越多，则意味上其性能提升越快。因此在步骤108中具有高优先级的数据集，通过本步骤中的训练，可以快速提高知识获取模型从中提取知识内容的性能表现；而对于性能参数值低于预设阈值的信息数据集，能够快速提高其性能表现，使得性能参数值达到上述预设阈值；对于性能参数值达到预设阈值的信息数据集，按照从低到高的顺序依次从信息数据集中提取原始信息，可以保证低性能参数值的信息数据集得到快速提升，从而保证知识获取模型对各信息数据集的效果都越来越好。

进一步的，如图4所述的实施例中，在执行完步骤110后，还可以判断知识获取模型从各个信息数据集中提取知识内容的性能参数值，即在性能参数值达到预设阈值时，则可以过渡到执行上述图1-图3所示的实施例，去利用知识获取模型从提取知识内容，而在性能参数值低于预设阈值时，则仍需要执行图4所示的上述步骤108-步骤110的内容，继续通过人工标注的方式对知识获取模型进行优化。

本公开实施例中，通过上述图1-图4所示的实施例，分别通过人工标注和模型标注+人工确定的方式，得到了第一标注结果和第二标注结果，该第一标注结果都是对原始信息中所包括的知识内容的确定。上述在知识图谱的应用场景中，可以基于上述第一标注结果和第二标注结果中确定的知识内容构建知识图谱，为了提高知识图谱的构建精度，可以设置知识内容的确认次数满足预设条件，预设条件可以是确认次数达到一定数目。

具体的，对于上述第一标注结果，其是通过知识获取模型从原始信息中提取的知识内容，然后基于知识内容生成待确认的问题，为了满足上述的确认次数，则可以在生成待确认的问题后，依次向至少两个用户推送与知识内容对应的待确认的问题，以获取至少两个用户的第一标注结果，即由至少两个用户对上述待确认的问题进行确认，以满足确认次数满足预设条件。上述依次向至少两个用户推送与所述知识内容对应的待确认的问题，还可以具体为：

在前一个用户针对所述待确认的问题的作答结果为确认时，向后一个用户推送与所述知识内容对应的待确认的问题。避免同时推送，但由于前一个用户不确认导致最后的确认次数不满足要求，则可以通过这种方式减少不必要的推送。

在一些实施例中，可以为每个用户创建专门的待确认问题的推送队列，则可以是接收到前一个用户的作答结果为确认时，将其加入到后一个用户的推送队列中，实现多个用户依次进行确认，如果每个用户的推送队列中均为空时，可以利用知识获取模型从第一原始信息推荐池的原始信息中提取知识内容，并基于上述知识内容生成待确认的问题，继续加入到用户的推送队列中。

针对第二标注结果，由于其通常都是由人工标注得到，因此其中的确认次数可以理解为人工标注的次数。

在一些实施例中，可以实行打分机制，即为上述第一标注结果中知识内容得到一次确认时，加1分，而第二标注结果中知识内容得到一次确认时，加1分，上述加1分仅为示例，也可以加其他数值的分值，或者第一标注结果中的确认和第二标注结果中的确认，其加分值不一致。

并且，通常对于知识图谱中实体类型、关系类型和事件类型的中每一类型的知识内容，其中待确认的问题的作答结果可能是确认、否定和不确认三种状态，只有对于确认的情况才能够获得加分。在将同一个待确认的问题推送给三个用户时，如果回答结果均不同，即若从第一标注结果和/或第二标注结果中针对同一待确认的问题的作答结果均不一致时，确定待确定的问题为不确认状态。

在具体的实施过程中，可以是通过方式对上述打分机制进行规划，例如可以规定在第二标注结果中确认一次后，可以规定必须在第一标注结果中再确认一次，则可以得到两次确认的分值，即积2分；或者是，可以规定在第一标注结果中确认两次，或者在第二标注结果中确认两次，如果在第一标注结果中前两次人工标注的结果不一致，则需要进行第三次人工标注，或者在第二标注结果中人工确定的结果不一致，则需要发送给第三个用户进行人工确定，如果仍不能够满足积分要求，则认为结果为不确认状态。

本实施例公开的技术方案，在将要求的确认次数设置的较高时，是一种高精度构建知识图谱的技术方案。在一种知识图谱构建场景下，可以在一个显示界面上展示知识图谱的构建过程，其一方面展示知识图谱上所包含的知识内容，一方面展示利用上述知识内容构建的知识图谱，具体的，可以在显示界面上设置一个“高精度展示”按钮，在用户点击该按钮后，将构建知识图谱所要求的确认次数设置的较高，以使得知识图谱上展示等知识内容都经历过多次确认。

本公开上述图1-图4所示的技术方案，可以应用到知识图谱构建的应用场景中，在该应用场景中构建知识图谱的过程可以包括人工标志阶段和模型标注+人工确定阶段，具体的，图5为本公开实施例中构建知识图谱的流程示意图，如图5所示，其包括如下的步骤：

步骤501、上传信息数据集；

本步骤中上传的信息数据集是用来构建知识图谱的数据源，其中包括的原始信息，可以包括多种形式，例如是原始文本信息、原始图片信息或原始视频信息，而原始文本信息可以是格式化数据，也可以是非格式化数据；

步骤502、人工标注知识内容，得到第二标注结果；

本步骤中的人工标注主要是由业务专家进行标注，业务专家能够从原始信息中准确的标注出其包括的知识内容，具体的人工标注的内容可以是步骤501中上传的各信息数据集中的一个子集，该子集的确定方法可以参照上述图4所示实施例执行，具体可以参见步骤108和步骤109的内容，并且基于提取的知识内容可以得到第二标注结果；

步骤503、基于上述第二标注结果进行知识获取模型的训练；

本步骤也可以参照图3所示实施例中的步骤110的内容执行。

步骤504、判断知识获取模型的性能参数值是否达到预设阈值；

具体的，可以利用步骤501中上传的各信息数据集中的另一个子集，该子集不同于步骤502中人工标注的子集。针对上述另一个子集，可以分别通过人工标注的方式获取人工标注结果，以及通过步骤503中训练得到的知识获取模型获取模型标注结果，然后基于上述的模型标注结果和人工标注结果得到性能参数值。

在本步骤中得到性能参数值达到预设阈值时，则可以继续执行步骤505，否则会继续返回执行上述的步骤502。在一些情况下，上述的性能参数值可以是针对不同的信息数据集的，则此时有些信息数据集的性能参数值达到预设阈值时，有些信息数据集的性能参数值还不能达到预设阈值，因此不同信息数据集的后续处理方式也会不同。

步骤505、利用性能参数值达到预设阈值的知识获取模型进行知识内容提取，并基于知识获取模型提取的知识内容生成待确认的问题。

本步骤具体可以参照图1和图2所示的实施例，包括构建第一原始信息推荐池的过程，然后基于第一原始信息推荐池中的原始信息，利用知识获取模型获取知识内容，该步骤也可以看作一个模型标注的过程，在此基础上，可以参照图3所示的步骤105，以生成待确认的问题；

步骤506、向用户推送待确认的问题。

本步骤中具体可以参照上述图3所示实施例中的步骤106，进行人工确认，并且基于反馈确认的作答结果，生成第一标注结果，且本步骤中的人工确认过程，对用户的要求比上述步骤502中人工标注时要求要低，因此不需要业务专家进行。

步骤507、对知识获取模型进行训练；

在上述步骤506已经获取到第一标注结果后，可以利用第一标注结果对知识获取模型进行模型训练，具体可以参照步骤107中的模型训练过程。

步骤508、利用训练后的知识获取模型继续提取知识内容，上述提取的知识能可以继续在步骤505中生成待确认的问题。

通过上述实施方式，能够实现在知识内容的获取过程中，不断利用人工确定的第一标注结果作为样本数据，对知识获取模型进行训练，能够不断提高知识获取模型的性能表现，直接知识获取模型的性能表现达到一定的预设条件时，可以不再进行人工确认，而是可以直接用来构建知识图谱；另外，上述第一标注结果和第二标注结果也可以被用来构建知识图谱。

图6为本公开实施例中一种知识内容的标注装置的结构示意图，如图6所示，该标注装置包括第一确定模块11、信息提取模块12、第一构建模块13和第一提取模块14。其中

第一确定模块11用于确定知识获取模型从信息数据集的第一子集中获取知识内容的性能参数值，每个信息数据集具有对应的性能参数值；

本公开实施例中的原始信息，可以包括多种形式，例如是原始文本信息、原始图片信息或原始视频信息。

信息提取模块12用于基于性能参数值从信息数据集中除第一子集外的数据中提取原始信息；

第一构建模块13用于基于提取的原始信息构建第一原始信息推荐池；

第一提取模块14用于从第一原始信息推荐池中提取原始信息，并利用知识获取模型获取知识内容。

在构建完成第一原始信息推荐池的基础上，可以从中随机选择原始信息，并利用知识获取模型从原始信息中提取知识内容，基于上述知识内容可以人工确认，并可以依据人工确认，以得到第一标注结果，上述第一标注结果可以继续用于进行知识获取模型的优化训练，并且通过上述信息提取模块12中，在构建第一原始信息推荐池时，即是将性能参数值越低的信息数据中提取的原始信息越多，则本步骤中进行知识内容获取，后续基于第一标注结果进行模型优化训练的样本参数会越多，则能够有效提高知识获取模型在上述信息数据集上的性能表现，而对于性能参数值较高的信息数据集中提取较少的原始信息，依然能够根据这些原始信息优化知识获取模型在对应的信息数据集上的性能表现，从而能够达到兼顾不同的信息数据集的目的。

在一些实施例中，对于基于性能参数值从信息数据集中除第一子集外的数据中提取原始信息的方式，可以多种方式。具体的，针对原始信息中的知识内容，其可以包括多种类型和/或多个项目，例如对应利用知识内容构建知识图谱的应用场景中，其中在知识图谱中的知识内容的类型，可以包括实体类型、关系类型和事件类型，而对于每个类型又可以包括多个项目，例如对于实体类型，其中的项目可以包括员工、城市、部门、职务、公司、日期等，为了能够让知识获取模型更多学习上述的项目的知识，可以为不同的项目分别设置优先级；而对于关系类型，可以包括“员工-就职于-公司”或“员工-担任-职务”这些项目，其中会包括实体类型的具体项目，在上述为实体类型的不同项目分别设置优先级后，各关系类型的项目，也会有对应的优先级了；对于事件类型，其可以包括“入职事件-员工、职务、部门、公司”这个项目，其中会包括实体类型的具体项目，在上述为实体类型的不同项目分别设置优先级后，各事件类型的项目，也会有对应的优先级，然后在上述的第一确定模块11，其具体可以包括第一确定单元、第二确定单元和第一提取单元。

第一确定单元用于确定每个项目的知识内容的优先级级别；

第二确定单元，用于基于每篇原始信息所包括的每个优先级级别的知识内容的数量，确定每篇原始信息的重要性得分；

第一提取单元，用于基于性能参数值和每篇原始信息的重要性得分，从信息数据集中提取原始信息。

在一些实施例中，如果对于一些高优先级别的内容，其可能在每篇原始信息中占比较低，例如对于某一个项目“公司”，虽然其优先级级别较高，例如为第一优先级级别，但是出现次数较少，例如在每篇原始信息中最多出现两次，则在计算原始信息的重要性得分时，仍然难以根据重要性得分从信息数据集中将其包括上述项目“公司”的原始信息提取出来。则本公开实施例中，可以进一步包括：信息添加模块，该信息添加模块用于获取预设数量的包括第一优先级级别的知识内容的原始信息，并加入到第一原始信息推荐池中。例如可以提取两篇包括上述“公司”的原始信息，并加入到第一原始信息推荐池中。

在上述构建第一原始信息推荐池基础上，可以利用知识获取模型从推荐池的原始信息中提取知识内容，并对上述知识内容进行人工确认。而具体的从推荐池中提取原始信息的方式，可以是从第一原始信息推荐池中依次随机提取每一篇原始信息，以用知识获取模型获取每一篇原始信息对应的知识内容。并且进一步的，图7为本公开实施例中另一种知识内容的标注装置的结构示意图，如图7所示，还可以包括问题生成模块15、问题推送模块16和优化训练模块17。

问题生成模块15具体用于基于每篇原始信息对应的知识内容生成每篇原始信息对应的待确认的问题；

问题推送模块16具体用于向用户推送待确认的问题，以根据用户的作答结果生成第一标注结果；

具体的，本模块执行人工确认的过程，即在生成待确认的问题后，可以向用户推送上述待确认的问题，上述待确认的问题通过至少一种预设通道推送给用户进行作答，由于是问答式的题目，并且用户只需要根据提供确定或不确定的作答结果即可，对于用户的要求较低，可以利用没有很多专业知识的普通用户来实现；且对于上述待确认的问题可以对外部开放，接入到不同的应用场景或平台中实现。而普通用户的上述作答结果通过汇集后，可以根据用户的作答结果生成第一标注结果。

优化训练模块17用于基于第一标注结果对知识获取模型进行优化训练。

本公开上述图6和图7所示的实施例中，实际上是利用知识获取模型对知识内容进行标注、利用人工确定的方式对上述标注结果进行校正和校正后的第一标注结果对知识获取模型进行优化训练的过程。而在完整的知识内容标注过程中，在进行上述图6和图7所述的实施例之前，还需要对知识获取模型进行预训练，以使得知识获取模型的性能参数值能够达到一定的预设阈值，即不能够太低，若太低则会影响到后续人工确定的效果。

图8为本公开实施例中再一种知识内容的标注装置的结构示意图，如图8所示，还可以包括第二构建模块18、人工标注模块19和模型训练模块20，其中

第二构建模块18用于构建第二原始信息推荐池，第二原始信息推荐池包括多篇原始信息；

具体的，本公开实施例中的第二原始信息推荐池主要是用于对原始信息进行人工标注，并基于人工标注的结果进行知识获取模型的训练，以使得知识获取模型从各个信息数据集中提取知识内容的性能参数值达到一定的预设阈值，即可以被用来执行上述图5和图6所示实施例的技术方案。因此，本公开实施例中，其中构建第二原始信息推荐池时，其中原始信息的来源可以包括新上传的信息数据集、性能参数值低于预设阈值的信息数据集或者是性能参数值达到预设阈值的信息数据集，对于性能参数值达到预设阈值的信息数据集这一情况，主要是考虑为了对知识获取模型从该信息数据集中提取知识内容的性能进行进一步优化。

人工标注模块19用于从第二原始信息推荐池提取原始信息，并对原始信息中包括的知识内容进行人工标注，并获取第二标注结果；

基于上述第二构建模块18构建的第二原始信息推荐池，可以从中提取原始信息进行人工标注，以获取第二标注结果。

模型训练模块20用于根据第二标注结果对知识获取模型进行训练。

本步骤中通过对人工标注模块19获得的第二标注结果对知识获取模型进行训练，以优化知识获取模型的性能，且具体的，该性能优化主要是针对第二原始材料推荐池中原始信息所来源的信息数据集，若从某一信息数据集中提取的原始信息越多，则意味上其性能提升越快。因此在第二构建模块18中具有高优先级的数据集，通过本模块的训练，可以快速提高知识获取模型从中提取知识内容的性能表现；而对于性能参数值低于预设阈值的信息数据集，能够快速提高其性能表现，使得性能参数值达到上述预设阈值；对于性能参数值达到预设阈值的信息数据集，按照从低到高的顺序依次从信息数据集中提取原始信息，可以保证低性能参数值的信息数据集得到快速提升，从而保证知识获取模型对各信息数据集的效果都越来越好。

进一步的，如图8所述的实施例中，还可以判断知识获取模型从各个信息数据集中提取知识内容的性能参数值，即在性能参数值达到预设阈值时，则可以过渡到执行上述图6和图7所示的实施例，去利用知识获取模型从提取知识内容，而在性能参数值低于预设阈值时，则需要执行图8所示的实施例的内容，继续通过人工标注的方式对知识获取模型进行优化。

针对第二标注结果，由于其通常都是由人工标注得到，因此其中的确认次数可以理解为人工标注的次数。

第三方面，本发明实施例提供了一种计算机装置，计算机装置包括：

处理器，处理器用于执行存储器中存储的计算机程序时实现如上述知识内容的标注方法的步骤。

处理器可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制计算机中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行程序指令，以实现上文的本申请的各个实施例的方法步骤以及/或者其他期望的功能。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现知识内容的标注方法的步骤。

除了上述方法和装置以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶冶;陈伟;谢佳雨
技术所有人：第四范式(北京)技术有限公司
我是此专利的发明人

上一篇：具有导爆管拉制隔离装置的拉制生产线的制作方法
上一篇：一种用于园林绿化的施肥装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。