实体抽取方法、第一实体抽取模型的训练方法及相关装置与流程

文档序号:29633495发布日期:2022-04-13 16:33阅读:来源:国知局

技术特征:
1.一种实体抽取方法,其特征在于,包括:获取待抽取文本;将所述待抽取文本输入至训练后的第一实体抽取模型中以获得所述待抽取文本中的实体以及所述实体的类型;其中,训练所述第一实体抽取模型时利用噪声数据集;且所述噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合,且利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型,而禁止所述漏标注片段集合加入训练过程;其中,所述漏标注片段集合包括所述噪声数据集中人工漏标注但被所述第二实体抽取模型正确预测出的实体片段,所述错误标注片段集合包括人工标注类型与对应的预测类型不同的实体片段,所述正确标注片段集合包括被人工标注类型与对应的预测类型相同的实体片段,所述无意义标注片段集合包括人工未标注且不属于所述漏标注片段集合的实体片段。2.根据权利要求1所述的实体抽取方法,其特征在于,训练所述第一实体抽取模型的过程包括:利用所述第二实体抽取模型获得所述噪声数据集中所有第一预测结果与人工标注结果不一致的实体片段构成的问题片段集合、以及第一预测结果与人工标注结果一致的实体片段构成的正确片段集合;其中,所述第一预测结果包括预测实体及预测类型,所述人工标注结果包括人工标注实体及人工标注类型;对所述问题片段集合进行分类,以获得所述漏标注片段集合、所述错误标注片段集合和所述无意义标注片段集合;利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型,且禁止利用所述漏标注片段集合训练所述第一实体抽取模型。3.根据权利要求2所述的实体抽取方法,其特征在于,所述利用所述第二实体抽取模型获得所述噪声数据集中所有预测结果与人工标注结果不一致的实体片段构成的问题片段集合的步骤,包括:将所述噪声数据集分割为多份子数据集;将其中一份子数据集作为测试数据,且将剩余所述子数据集作为训练数据;设置多个不同的随机种子以分别获得多个第二实体抽取模型;针对每个所述第二实体抽取模型,利用所述训练数据对所述第二实体抽取模型进行训练;利用训练后的所述第二实体抽取模型对所述测试数据进行预测以获得相应的第一预测结果,并根据所述第一预测结果获得与人工标注结果不一致的候选实体片段;对所有所述第二实体抽取模型获得的所有所述候选实体片段进行统计,且响应于同一所述候选实体片段累计的次数超过第一阈值,将所述候选实体片段确定为问题片段,并将所述问题片段加入所述问题片段集合;判断所有所述子数据集是否均轮流作为所述测试数据;若否,将另一所述子数据集作为所述测试数据,且将剩余所述子数据集作为训练数据,并返回至所述设置多个不同的随机种子以分别获得多个第二实体抽取模型的步骤。4.根据权利要求3所述的实体抽取方法,其特征在于,
所述第二实体抽取模型包括第一预训练模型和第一全连接层,且所述第一预训练模型的输出为所述第一全连接层的输入;所述利用所述训练数据对所述第二实体抽取模型进行训练的步骤,包括:对所述训练数据中的文本数据进行分词处理后输入至第一预训练模型中,以获得所述文本数据中每个单词的第一语义向量;对所有所述第一语义向量进行负采样以获得多个第一组合片段;其中,所述第一组合片段中包括人工标注的实体片段以及非人工标注的实体片段;响应于所述第一组合片段的宽度小于或等于第二阈值,获得所述第一组合片段的第二语义向量;将所述第二语义向量输入至所述第一全连接层以获得第一预测分类logit向量;基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调整所述第二实体抽取模型中的参数。5.根据权利要求4所述的实体抽取方法,其特征在于,所述对所述训练数据中的训练文本进行分词处理后输入至第一预训练模型中,以获得所述训练文本中每个单词的第一语义向量的步骤之前,包括:随机初始化第一宽度限制向量矩阵;其中,所述第一宽度限制向量矩阵中包含多个宽度特征向量;所述响应于所述第一组合片段的宽度小于或等于第二阈值,获得所述第一组合片段的第二语义向量的步骤,包括:获得所述第一组合片段中起始单词的第一语义向量以及结束单词的第一语义向量;将所述起始单词的第一语义向量、结束单词的第一语义向量以及对应的宽度特征向量进行拼接以获得所述第二语义向量;所述基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调整所述第二实体抽取模型中的参数时,一并调整所述第一宽度限制向量矩阵中的参数。6.根据权利要求2所述的实体抽取方法,其特征在于,所述第一实体抽取模型包括第二预训练模型和第二全连接层,且所述第二预训练模型的输出为所述第二全连接层的输入;所述利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型,且禁止利用所述漏标注片段集合训练所述第一实体抽取模型的步骤,包括:将所述噪声数据集中的文本数据进行分词处理后输入至第二预训练模型中,以获得所述文本数据中每个单词的第三语义向量;对所有所述第三语义向量进行负采样组合以获得多个第二组合片段;响应于所述第二组合片段的宽度小于或等于第二阈值,获得所述第二组合片段的第四语义向量;将所述第四语义向量输入至所述第二全连接层以获得第二预测分类logit向量;响应于所述第二组合片段的跨度在所述正确标注片段集合、所述无意义标注片段集合和所述错误标注片段集合,根据至少部分所述第二组合片段所属的集合类型获得相应的第一损失,基于所述第一损失调整所述第一实体抽取模型中的参数。7.根据权利要求6所述的实体抽取方法,其特征在于,所述根据至少部分所述第二组合片段所属的集合类型获得相应的第一损失的步骤,包括:响应于所述第二组合片段的跨度在所述正确标注片段集合或所述无意义标注片段集
合,获得所述第二组合片段对应的第二预测分类logit向量与人工标注类型的多分类标签向量之间的第一交叉熵损失、以及获得所述第二组合片段对应的所述第二预测分类logit向量与其经过所述第二实体抽取模型获得的第一预测分类logit向量之间的第一kl散度损失,将所述第一交叉熵损失和所述第一kl散度损失作为所述第一损失;响应于所述第二组合片段的跨度在所述错误标注片段集合,获得所述第二组合片段对应的第二预测分类logit向量与其经过所述第二实体抽取模型获得的第一预测分类logit向量之间的第二kl散度损失,将所述第二kl散度损失作为所述第一损失。8.根据权利要求7所述的实体抽取方法,其特征在于,所述响应于所述第二组合片段的跨度在所述正确标注片段集合、所述无意义标注片段集合和所述错误标注片段集合,根据至少部分所述第二组合片段所属的集合类型获得相应的第一损失的步骤,包括:获得跨度在所述正确标注片段集合的所有所述第二组合片段的第一损失、跨度在所述错误标注片段集合的所有所述第二组合片段的第一损失、以及跨度在所述无意义标注片段集合的部分所述第二组合片段的第一损失。9.一种第一实体抽取模型的训练方法,其特征在于,包括:获取噪声数据集;利用第二实体抽取模型获得所述噪声数据集中漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合;其中,所述漏标注片段集合包括所述噪声数据集中人工漏标注但被所述第二实体抽取模型正确预测出的实体片段,所述错误标注片段集合包括人工标注类型与对应的预测类型不同的实体片段,所述正确标注片段集合包括被人工标注类型与对应的预测类型相同的实体片段,所述无意义标注片段集合包括人工未标注且不属于所述漏标注片段集合的实体片段;利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型,而禁止所述漏标注片段集合训练所述第一实体抽取模型。10.一种实体抽取装置,其特征在于,包括:获取模块,用于获取待抽取文本;实体模块,与所述获取模块连接,用于将所述待抽取文本输入至训练后的第一实体抽取模型中以获得所述待抽取文本中的实体以及所述实体的类型;第一训练模块,与所述实体模块和所述获取模块连接,用于利用噪声数据集训练所述第一实体抽取模型;且所述噪声数据集预先经过第二实体抽取模型获得漏标注片段集合,在训练所述第一实体抽取模型时禁止所述漏标注片段集合加入训练过程;其中,所述漏标注片段集合包括所述噪声数据集中人工漏标注但被所述第二实体抽取模型正确预测出的实体片段,错误标注片段集合包括人工标注类型与对应的预测类型不同的实体片段,正确标注片段集合包括被人工标注类型与对应的预测类型相同的实体片段,无意义标注片段集合包括人工未标注且不属于漏标注片段集合的实体片段。11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的实体抽取方法、以及权利要求9所述的第一实体抽取模型的训练方法。12.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至8任一项所述的实体抽取方法、以及权利要求9所述的第一实体抽取
模型的训练方法。

技术总结
本申请公开了一种实体抽取方法、第一实体抽取模型的训练方法及相关装置,该实体抽取方法包括:获取待抽取文本;将待抽取文本输入至训练后的第一实体抽取模型中以获得待抽取文本中的实体以及实体的类型;其中,训练第一实体抽取模型时利用噪声数据集;且噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合,且利用错误标注片段集合、正确标注片段集合和无意义标注片段集合训练第一实体抽取模型,而禁止漏标注片段集合加入训练过程。这样不仅提升了模型对带噪声数据的泛化性能,而且无需人工参与便可训练得到高泛化性的实体抽取方法。的实体抽取方法。的实体抽取方法。


技术研发人员:张浩宇 汪小斌 吴飞 方四安
受保护的技术使用者:合肥讯飞数码科技有限公司
技术研发日:2021.12.28
技术公布日:2022/4/12
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1