本发明涉及自然语言处理,应用于医疗领域,尤其涉及一种实体关系的抽取和组合方法、装置、存储介质及设备。
背景技术:
1、实体关系抽取是信息抽取的基本任务之一,主要是为了识别出文本实体中的目标关系,是构建知识图谱的重要技术环节。当前,在信息抽取技术方面,实体关系主要是通过三元组的方式进行呈现。实体关系三元组包含三个部分,即第一实体、第二实体以及第一实体和第二实体之间的关系。
2、然而,在一些特定领域,知识复杂程度较高,实体关系三元组的信息抽取方式无法保证特定领域中信息的全面性和准确性。因为,实体关系不仅仅只有一种,有可能包括多种。比如,在医疗领域,许多医疗知识都是在满足一定条件的情况下才能够应用,例如疾病用药情况、治疗方案等均与疾病程度相关,症状表现也与个人身体状况相关。然而,现有的实体关系三元组的信息抽取方式,无法完整体现医疗知识。因此,亟需一种技术方案,能够提高信息抽取的全面性和准确性,帮助构建较为全面和准确的知识图谱。
技术实现思路
1、本发明提供了一种实体关系的抽取和组合方法、装置、存储介质及设备,以解决现有技术中,实体关系的信息抽取方式无法全面、准确地表达信息的技术问题。
2、第一方面,提供了一种实体关系的抽取和组合方法,包括:
3、获取目标医疗文本,对目标医疗文本进行预处理;
4、将预处理后的目标医疗文本输入至文本特征提取模型中,生成目标医疗文本特征向量;
5、将目标医疗文本特征向量输入至实体关系抽取模型,确定目标医疗文本中所有实体及实体关系,其中,所述目标医疗文本中至少包括两个实体,所述实体关系包括:因果关系、条件关系和上下文关系中的一项或多项;
6、判断所述实体关系是否包括条件关系,如果包括,则生成目标医疗文本的实体关系组合。
7、在一种可能的实现方式中,所述获取目标医疗文本,对目标医疗文本进行预处理之前,还包括:
8、获取医疗文本样本集,对医疗文本样本集中的数据进行标注,形成包含实体关系的多个实体对数据集,其中,所述实体关系包括:因果关系、条件关系和上下文关系中的一项或多项;
9、基于深度学习算法,将所述实体对数据集进行训练,构建生成实体关系抽取模型。
10、在一种可能的实现方式中,所述将目标医疗文本特征向量输入至实体关系抽取模型,确定目标医疗文本中所有实体及实体关系,包括:
11、根据双仿射注意力机制,生成目标医疗文本中多个文本字符之间的实体信息矩阵和实体关系信息矩阵;
12、根据所述实体信息矩阵,确定目标医疗文本中的所有实体;
13、根据所述实体关系信息矩阵,确定目标医疗文本中的所有实体关系。
14、在一种可能的实现方式中,所述根据所述实体信息矩阵,确定目标医疗文本中的所有实体,包括:
15、依次判断所述实体信息矩阵的矩阵元素中是否包含预定义的实体阈值;
16、如果包含,则根据所述矩阵元素的行列信息,依次确定目标医疗文本中的实体。
17、在一种可能的实现方式中,所述根据所述实体关系信息矩阵,确定目标医疗文本中的所有实体关系,包括:
18、依次判断所述实体关系信息矩阵的矩阵元素中是否包含预定义的实体关系阈值;
19、如果包含,则根据所述矩阵元素的行列信息,依次确定目标医疗文本中的实体关系。
20、在一种可能的实现方式中,所述实体关系信息矩阵包括实体关系实体头位置矩阵和实体关系实体尾位置矩阵,所述依次判断所述实体关系信息矩阵的矩阵元素中是否包含预定义的实体关系阈值,包括:
21、依次判断所述实体关系实体头位置矩阵的矩阵元素中是否包含预定义的实体关系阈值;
22、如果包含,则继续依次判断所述实体关系实体尾位置矩阵的矩阵元素中是否包含预定义的实体关系阈值。
23、在一种可能的实现方式中,所述判断所述实体关系是否包括条件关系,如果包括,则生成目标医疗文本的实体关系组合,包括:
24、判断所述实体关系中是否包括条件关系;
25、如果包括,则从条件关系中抽取出条件实体;
26、将条件实体和条件实体对应的其它实体关系进行组合,生成目标医疗文本的实体关系组合。
27、第二方面,提供了一种实体关系的抽取和组合装置,包括:
28、文本预处理模块:用于获取目标医疗文本,对目标医疗文本进行预处理;
29、文本特征向量生成模块:用于将预处理后的目标医疗文本输入至文本特征提取模型中,生成目标医疗文本特征向量;
30、实体关系抽取模块:用于将目标医疗文本特征向量输入至实体关系抽取模型,确定目标医疗文本中所有实体及实体关系,其中,所述医疗文本中至少包括两个实体,所述实体关系包括:因果关系、条件关系和上下文关系中的一项或多项;
31、实体关系组合模块:用于判断所述实体关系是否包括条件关系,如果包括,则生成目标医疗文本的实体关系组合。
32、在一种可能的实现方式中,上述实体关系的抽取和组合装置还包括实体关系抽取模型构建模块,用于:
33、获取医疗文本样本集,对医疗文本样本集中的数据进行标注,形成包含实体关系的多个实体对数据集,其中,所述实体关系包括:因果关系、条件关系和上下文关系中的一项或多项;
34、基于深度学习算法,将所述实体对数据集进行训练,构建生成实体关系抽取模型。
35、在一种可能的实现方式中,上述实体关系抽取模块,还用于:
36、根据双仿射注意力机制,生成目标医疗文本中多个文本字符之间的实体信息矩阵和实体关系信息矩阵;
37、根据所述实体信息矩阵,确定目标医疗文本中的所有实体;
38、根据所述实体关系信息矩阵,确定目标医疗文本中的所有实体关系。
39、在一种可能的实现方式中,上述实体关系抽取模块,还用于:
40、依次判断所述实体信息矩阵的矩阵元素中是否包含预定义的实体阈值;
41、如果包含,则根据所述矩阵元素的行列信息,依次确定目标医疗文本中的实体。
42、在一种可能的实现方式中,上述实体关系抽取模块,还用于:
43、依次判断所述实体关系信息矩阵的矩阵元素中是否包含预定义的实体关系阈值;
44、如果包含,则根据所述矩阵元素的行列信息,依次确定目标医疗文本中的实体关系。
45、在一种可能的实现方式中,所述实体关系信息矩阵包括实体关系实体头位置矩阵和实体关系实体尾位置矩阵,上述实体关系抽取模块,还用于:
46、依次判断所述实体关系实体头位置矩阵的矩阵元素中是否包含预定义的实体关系阈值;
47、如果包含,则继续依次判断所述实体关系实体尾位置矩阵的矩阵元素中是否包含预定义的实体关系阈值。
48、在一种可能的实现方式中,所述实体关系组合模块,还用于:
49、判断所述实体关系中是否包括条件关系;
50、如果包括,则从条件关系中抽取出条件实体;
51、将条件实体和条件实体对应的其它实体关系进行组合,生成目标医疗文本的实体关系组合。
52、第三方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述实体关系的抽取和组合方法的步骤。
53、第四方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实体关系的抽取和组合方法的步骤。
54、上述实体关系的抽取和组合方法、装置、存储介质及电子设备,通过获取目标医疗文本,对目标医疗文本进行预处理;然后,将预处理后的目标医疗文本输入至文本特征提取模型中,生成目标医疗文本特征向量;并将目标医疗文本特征向量输入至实体关系抽取模型,确定目标医疗文本中所有实体及实体关系;最后,判断所述实体关系是否包括条件关系,如果包括,则生成目标医疗文本的实体关系组合。本技术根据上述步骤,能够将带条件关系的医疗文本信息通过实体关系组合的方式进行呈现,进而帮助构建较为全面和准确的医疗知识图谱。