实体关系的识别方法、装置及电子设备与流程

文档序号:23727308发布日期:2021-01-26 17:38阅读:来源:国知局

技术特征:
1.一种实体关系的识别方法,其特征在于,包括:将待识别文本中缺少主语的语句进行主语补齐处理;获取经过主语补齐处理后的所述待识别文本中含有实体对的语句;获取所述实体对中实体对应的实体信息特征;将所述实体信息特征、实体对、以及所述含有实体对的语句输入到深度学习的预设识别模型中;根据所述预设识别模型输出的分类结果,确定所述待识别文本中的实体关系。2.根据权利要求1所述的方法,其特征在于,所述将待识别文本中缺少主语的语句进行主语补齐处理,具体包括:在对所述待识别文本中各语句分别进行分词处理、词性标注、命名实体识别后,对各语句进行逐句判断;若当前语句内跳过先导词后的首个分词是ner实体,则判断所述ner实体在文本中的预设距离阈值范围内是否存在代词,如果所述预设距离阈值范围内存在代词,则根据所述ner实体,将代词位置进行主语添加替换;若当前语句内跳过先导词后的首个分词不是ner实体,则判断首个分词是否为代词,如果首个分词为代词,则将首个分词位置进行主语添加替换;如果首个分词不是代词,则判断需要添加的主语是否出现在当前语句中,如果需要添加的主语没有在当前语句中出现,则为当前语句添加主语。3.根据权利要求1所述的方法,其特征在于,所述获取所述实体对中实体对应的实体信息特征,具体包括:从所述待识别文本的语料以外,获取所述实体对中实体对应的实体描述信息语料;对所述实体描述信息语料进行语料清洗;将语料清洗后的实体描述信息语料进行分词处理;对处理得到的分词进行词嵌入表示,输入到卷积神经网络,再进行最大池化层处理,得到所述实体对中实体对应的实体信息特征。4.根据权利要求1所述的方法,其特征在于,在所述将所述实体信息特征、实体对、以及所述含有实体对的语句输入到深度学习的预设识别模型中之前,所述方法还包括:获取样本文本中含有实体对的样本语句;对所述含有实体对的样本语句标注关系标签,得到目标关系标签对应的第一语句集合;根据所述第一语句集合中各样本语句含有的实体对,获取头实体和尾实体前后预定范围内出现频率符合预设条件的分词;依据所述第一语句集合中包含所述符合预设条件的分词的第二语句集合,利用深度学习算法训练得到所述预设识别模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一语句集合中各样本语句含有的实体对,获取头实体和尾实体前后预定范围内出现频率符合预设条件的分词,具体包括:将所述第一语句集合的各样本语句中,头实体前后预设个数的分词和尾实体前后预设个数的分词进行词频统计;
按照词频统计结果进行排序,获取排名靠前的预置个数的分词;对所述排名靠前的预置个数的分词进行异常过滤,并将未被异常过滤掉的分词作为所述符合预设条件的分词。6.根据权利要求4所述的方法,其特征在于,在所述获取样本文本中含有实体对的样本语句之前,所述方法还包括:对输入的样本文本进行语料清洗;将语料清洗后的样本文本中缺少主语的语句进行主语补齐处理;将经过主语补齐处理后的样本文本进行分句处理;基于依存句法,分析分句处理得到的各样本语句的初始三元组;所述获取样本文本中含有实体对的样本语句,具体包括:利用所述初始三元组,对分句处理得到的单句进行映射,以便筛选出含有实体对的样本语句。7.根据权利要求6所述的方法,其特征在于,所述基于依存句法,分析分句处理得到的各样本语句的初始三元组,具体包括:对目标语句进行分词处理;将分词处理得到的分词作词性标注;对分词和与分词对应的词性标注的结果进行命名实体识别,得到目标语句的实体标注;基于所述实体标注进行依存句法分析,得到目标语句的初始三元组。8.根据权利要求4所述的方法,其特征在于,所述依据所述第一语句集合中包含所述符合预设条件的分词的第二语句集合,利用深度学习算法训练得到所述预设识别模型,具体包括:获取第二语句集合中各样本语句内实体对应的实体描述信息;对所述实体描述信息进行语料清洗;将语料清洗后的实体描述信息进行分词处理;对处理得到的分词进行词嵌入表示,输入到卷积神经网络,再进行最大池化层处理,得到实体描述信息对应的实体信息特征;根据第二语句集合中各样本语句对应的所述实体信息特征、各语句数据、以及第二语句集合对应的关系标签,创建训练集;基于所述训练集利用深度学习算法训练得到所述预设识别模型。9.根据权利要求8所述的方法,其特征在于,所述基于所述训练集利用深度学习算法训练得到所述预设识别模型,具体包括:基于所述训练集,利用stacking算法分别训练得到pcnn+ mil远程监督模型、pcnn+ att远程监督模型、bilstm+att+mil远程监督模型;将训练得到的pcnn+ mil远程监督模型、pcnn+ att远程监督模型、bilstm+att+mil远程监督模型进行模型融合,得到所述预设识别模型。10.根据权利要求1所述的方法,其特征在于,所述将待识别文本中缺少主语的语句进行主语补齐处理之前,所述方法还包括:对所述待识别文本进行语料清洗;
所述将待识别文本中缺少主语的语句进行主语补齐处理,具体包括:将语料清洗后的所述待识别文本中缺少主语的语句进行主语补齐处理。11.一种实体关系的识别装置,其特征在于,包括:处理模块,用于将待识别文本中缺少主语的语句进行主语补齐处理;获取模块,用于获取经过主语补齐处理后的所述待识别文本中含有实体对的语句;所述获取模块,还用于获取所述实体对中实体对应的实体信息特征;计算模块,用于将所述实体信息特征、实体对、以及所述含有实体对的语句输入到深度学习的预设识别模型中;确定模块,用于根据所述预设识别模型输出的分类结果,确定所述待识别文本中的实体关系。12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。13.一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1