文本的实体关系抽取方法、装置及存储介质与流程

文档序号：19418838发布日期：2019-12-14 01:12阅读：来源：国知局

技术特征：

1.一种文本的实体关系提取方法，其特征在于，所述方法包括：

对输入文本进行识别处理，得到所述输入文本中的实体、以及所述实体所属的类别；

基于类别约束条件遍历所述实体，以基于满足类别约束条件的候选实体构建候选实体对；

根据每个所述候选实体对中实体所属的类别，将所构建的候选实体对进行标签化处理；

基于标签化处理的候选实体对，将所述输入文本中识别出的实体替换为标签，以得到新的样本；

通过分类模型对所得到的新的样本进行分类处理，得到所构建的候选实体对的关系，并输出由所述候选实体对以及所述关系构成的三元组。

2.根据权利要求1所述的方法，其特征在于，所述对输入文本进行识别处理，得到所述输入文本中的实体、以及所述实体所属的类别，包括：

对输入文本进行基于序列标注的识别处理，得到所述输入文本中的命名实体、以及所述命名实体所属的类别；

对输入本文进行基于规则模板的识别处理，得到所述输入文本中具有规则特征的实体、以及所述具有规制特征的实体所属的类别；

对输入文本进行基于词典匹配的识别处理，得到所述输入文本中封闭集合的实体，以及所述封闭集合的实体所属的类别。

3.根据权利要求1所述的方法，其特征在于，所述对输入文本进行识别处理，得到所述输入文本中的实体、以及所述实体所属的类别，包括：

对应不同的实体类别分别预训练多个序列标注模型；

利用所述多个序列标注模型分别对输入文本进行识别处理，得到所述输入文本中的实体、以及所述实体所属的类别。

4.根据权利要求1所述的方法，其特征在于，所述基于类别约束条件遍历所述实体，以基于满足类别约束条件的候选实体构建候选实体对，包括：

预先设置三元组中每个元素的类别约束条件，得到类别约束表；

根据所述类别约束表，遍历所述实体构成的实体集合，以从所述实体集合中选取满足类别约束条件的两个实体组成候选实体对；

根据所组成的候选实体对形成候选实体对集合。

5.根据权利要求1或4所述的方法，其特征在于，所述通过分类模型对所得到的新的样本进行分类处理，包括：

通过基于卷积神经网络或者长短时记忆网络的分类模型，对所得到的新的样本进行分类处理，以得到所述样本在所述类别约束表中各个关系类别的得分。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

设置由已知三元组构建的关系分类的正样本、以及由不在已知三元组构建的关系分类的负样本；

基于所述正样本和所述负样本训练初始化的所述分类模型。

7.根据权利要求1或5所述的方法，其特征在于，所述通过分类模型对所得到的新的样本进行分类处理，得到所构建的候选实体对的关系，包括：

通过分类模型对所得到的新的样本进行分类处理，得到所述新的样本在所述类别约束表中各个关系类别的得分；

将所述约束表中各个关系类别的得分进行降序排序，将所述降序排序得分最高的关系类别作为对应候选实体对的关系。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

选取所述降序排序得分最高的前n个关系类别，其中，n为大于1的整数；

确定所述前n个关系类别的得分之间的差值，当所述差值小于差值阈值时，将所述前n个关系类别均作为对应候选实体对的关系。

9.一种文本的实体关系抽取装置，其特征在于，所述装置包括：

识别模块，用于对输入文本进行识别处理，得到所述输入文本中的实体、以及所述实体所属的类别；

构建模块，用于对基于类别约束条件遍历所述实体，以基于满足类别约束条件的候选实体构建候选实体对；

处理模块，用于根据每个所述候选实体对中实体所属的类别，将所构建的候选实体对进行标签化处理；

替换模块，用于基于标签化处理的候选实体对，将所述输入文本中识别出的实体替换为标签，以得到新的样本；

分类模块，用于通过分类模型对所得到的新的样本进行分类处理，得到所构建的候选实体对的关系，并输出由所述候选实体对以及所述关系构成的三元组。

10.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至8任一项所述的文本的实体关系抽取方法。

技术总结
本发明提供了一种文本的实体关系抽取方法、装置、电子设备及存储介质；方法包括：对输入文本进行识别处理，得到所述输入文本中的实体、以及所述实体所属的类别；基于类别约束条件遍历所述实体，以基于满足类别约束条件的候选实体构建候选实体对；根据每个所述候选实体对中实体所属的类别，将所构建的候选实体对进行标签化处理；基于标签化处理的候选实体对，将所述输入文本中识别出的实体替换为标签，以得到新的样本；通过分类模型对所得到的新的样本进行分类处理，得到所构建的候选实体对的关系，并输出由所述候选实体对以及所述关系构成的三元组。通过本发明，能够提高文本的实体关系抽取的效率和效果。

技术研发人员：徐程程;王安然
受保护的技术使用者：腾讯科技(深圳)有限公司
技术研发日：2019.09.09
技术公布日：2019.12.13

完整全部详细技术资料下载

当前第2页1 2