文本处理方法、医疗文本处理方法、装置及电子设备与流程

文档序号:33713286发布日期:2023-04-01 01:27阅读:来源:国知局

技术特征:
1.一种文本处理方法,其特征在于,包括:获得待分析文本,并从所述待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段;在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念;使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果;比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从所述候选实体概念中选定目标实体概念。2.根据权利要求1所述的文本处理方法,其特征在于,还包括:对所述待分析文本进行分析,获得与所述指定领域相关的属性信息;将所述属性信息与所述目标实体概念组合,生成针对待分析文本的指定领域目标文本。3.根据权利要求2所述的文本处理方法,其特征在于,所述对所述待分析文本进行分析,获得与所述指定领域相关的属性信息,包括:根据预先设置的与所述指定领域相关的属性类别,从所述待分析文本中标识对应于各个属性类别的属性文本和属性文本片段;对各个所述属性文本和属性文本片段进行归一化处理,获得与各个所述属性类别对应的属性值文本;将所述属性类别及其相应的属性值文本组合,形成所述指定领域相关的属性信息。4.根据权利要求3所述的文本处理方法,其特征在于,所述根据预先设置的与所述指定领域相关的属性类别,从所述待分析文本中标识对应于各个属性类别的属性文本和属性文本片段的步骤,采用基于所述指定领域预训练的语言表征模型的spo实体属性抽取算法。5.根据权利要求3所述的文本处理方法,其特征在于,所述对各个所述属性文本片段进行归一化处理,获得与各个属性类别对应的属性值文本的步骤,针对不同的属性类别,对应采取模型属性值处理策略、规则属性值处理策略或者两者结合,对所述属性文本和属性文本片段进行归一化处理。6.根据权利要求1所述的文本处理方法,其特征在于,所述在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念,包括:分别对所述实体文本片段和指定领域的实体概念集合中的实体概念进行向量表征;根据所获得的向量,计算所述实体文本片段与实体概念之间的相似度;选择符合预定相似度标准的实体概念作为候选实体概念。7.根据权利要求1所述的文本处理方法,其特征在于,所述使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果,包括:将所述待分析文本转化为对应的待分析文本向量数据、所述实体文本片段转化为对应的实体文本片段向量数据、以及各个候选实体概念转化为对应的候选实体概念向量数据;其中,所述实体文本片段向量数据中包含所述实体文本片段相关联的上、下文数据对应的向量数据;
将所述待分析文本向量数据、所述实体文本片段向量数据、以及所述候选实体概念向量数据输入到预设交互式模型中,以获得所述实体文本片段相关联的上、下文数据与多个所述候选实体概念的第一相似度值、所述实体文本片段与多个所述候选实体概念的第二相似度值,以及关联所述候选实体概念的全局相似度值;根据所述第一相似度值、所述第二相似度值以及全局相似度值获得各个所述候选实体概念的一致性分析结果。8.根据权利要求7所述的文本处理方法,其特征在于,所述比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从所述候选实体概念中选定目标实体概念,包括:获得所述第一相似度值对应的第一评分信息,所述第二相似度值对应的第二评分信息,以及所述全局相似度值对应的第三评分信息;对所述第一评分信息、第二评分信息以及第三评分信息进行评分组合,以获得各个所述一致性分析结果的综合评分信息;将各个所述一致性分析结果的综合评分信息与预设评分阈值比较,获得满足所述预设评分阈值的目标一致性分析结果;根据所述目标一致性分析结果从所述候选实体概念中选定目标实体概念。9.根据权利要求2所述的文本处理方法,其特征在于,所述将所述属性信息与所述目标实体概念组合,生成针对待分析文本的指定领域目标文本,包括:获得属性信息和目标实体概念对应的组合关系模板;根据所述组合关系模板确定属性信息和目标实体概念的组合结构和组合排序;根据所述组合结构和组合排序将属性信息和目标实体概念组合,生成针对待分析文本的指定领域目标文本。10.根据权利要求9所述的文本处理方法,其特征在于,所述获得属性信息和目标实体概念对应的组合关系模板,包括:获得多个候选组合关系模板,所述多个候选组合关系模板通过预先设置的候选组合关系模板数据库获取,每个所述候选组合关系模板具有各自的类别标识;获得属性信息和目标实体概念的组合类别标识;将所述组合类别标识与多个所述候选组合关系模板的类别标识匹配,以从所述候选组合关系模板中获得属性信息和目标实体概念的组合关系模板。11.根据权利要求2所述的文本处理方法,其特征在于,还包括:获得所述指定领域目标文本的组合结构和组合排序;根据所述指定领域目标文本、所述指定领域目标文本的组合结构和组合排序确定属性信息;获得生成目标实体概念的原始文本,并从所述原始文本中获取初始属性信息;将所述属性信息与所述初始属性信息校验,若校验结果不匹配,则将所述初始属性信息与所述目标实体概念组合,生成针对待分析文本的指定领域目标文本。12.一种医疗文本处理方法,其特征在于,包括:获得待分析医疗文本,并从所述待分析医疗文本中提取与指定领域的医疗实体概念相关的医疗文本作为医疗实体文本片段;
在所述指定领域的医疗实体概念集合中,选择与所述医疗实体文本片段达到预定相似度标准的候选医疗实体概念;使用预设交互式模型,对所述待分析医疗文本、医疗实体文本片段与各个候选医疗实体概念分别进行交互式分析,获得一致性分析结果;比较所得到的各个候选医疗实体概念的所述一致性分析结果,根据预定标准,从所述候选医疗实体概念中选定目标医疗实体概念。13.一种文本处理装置,其特征在于,包括:实体文本片段获得单元,用于获得待分析文本,并从所述待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段;候选实体概念获得单元,用于在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念;一致性分析结果获得单元,用于使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果;目标实体概念获得单元,用于比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从所述候选实体概念中选定目标实体概念。14.一种医疗文本处理装置,其特征在于,包括:医疗实体文本片段单元,用于获得待分析医疗文本,并从所述待分析医疗文本中提取与指定领域的医疗实体概念相关的医疗文本作为医疗实体文本片段;候选医疗实体概念单元,用于在所述指定领域的医疗实体概念集合中,选择与所述医疗实体文本片段达到预定相似度标准的候选医疗实体概念;一致性分析结果单元,用于使用预设交互式模型,对所述待分析医疗文本、医疗实体文本片段与各个候选医疗实体概念分别进行交互式分析,获得一致性分析结果;目标医疗实体概念单元,用于比较所得到的各个候选医疗实体概念的所述一致性分析结果,根据预定标准,从所述候选医疗实体概念中选定目标医疗实体概念。15.一种电子设备,其特征在于,所述电子设备包括:处理器;存储器,用于存储计算机程序,该计算机程序被处理器运行,执行权利要求1-11、12任意一项所述的方法。16.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,执行权利要求1-11、12任意一项所述的方法。

技术总结
本申请公开了一种文本处理方法,通过从待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段,在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念,候选实体概念作为初步筛选的实体。而后,为进一步提升实体归一的精度,使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果,并根据一致性分析结果,从所述候选实体概念中选定目标实体概念。本方法对与实体文本片段达到预定相似度标准的候选实体概念进行排序,并从所述候选实体概念中选定目标实体概念,二者结合以提升对待分析文本进行实体归一的准确度。对待分析文本进行实体归一的准确度。对待分析文本进行实体归一的准确度。


技术研发人员:姚富根
受保护的技术使用者:优视科技(中国)有限公司
技术研发日:2022.11.17
技术公布日:2023/3/31
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1