文本处理方法、医疗文本处理方法、装置及电子设备与流程

文档序号:33713286发布日期:2023-04-01 01:27阅读:60来源:国知局
文本处理方法、医疗文本处理方法、装置及电子设备与流程

1.本技术涉及文本信息处理领域,具体涉及一种文本处理方法,一种医疗文本处理方法,一种文本处理装置,一种医疗文本处理装置,以及一种电子设备和一种计算机存储介质。


背景技术:

2.标准化的文本可以便于服务管理,提升服务效率,同时结合知识图谱与ai技术,可以发展智慧服务项目。
3.例如,在医疗服务领域中,电子病情说明(文本的一种)是医务人员对病人患病经过和治疗情况所作的文字、符号、图表、图形、数字、影像等数字化信息,是医生诊断和治疗疾病的依据。电子病情说明作为患者整个诊疗过程的原始记录,记载了病人住入医疗机构后由患者或陪同人陈述发病经过,而且也记录医师对病情的分析、诊断、治疗的过程,以及对预后的估计,以及各级医师查房和会诊的意见。但是,现有的电子病情说明是随机表达的自然文本,要将自然文本和医疗知识图谱关联起来,则必须对自然文本进行实体归一,即,将自然文本归一到医疗领域知识库中对应的标准概念上,搭建起自然文本和知识库之间的桥梁。
4.现有的实体归一方案主要有如下两种,其中一种方案是召回主要依赖于实体片段的倒排索引以及基于原子词的扩召回,原子词扩召回依赖于实体片段的实体拆分结果,如果实体抽取错误则无法纠回,最终的结果也完全依赖排序模型,缺乏对结果的解释性校验。另外一种方案是基于关注机制调整嵌入向量表征进行实体匹配,或是使用生成式任务补齐实体,但该方案大都在讨论端到端对实体归一方案,没有较好的应用于医疗领域的实体归一整体方案,且实体归一的准确性较低。
5.因此,如何在医疗场景中设置一种实体归一方案,且提升实体归一的准确度,成为本领域技术人员亟待解决的问题。


技术实现要素:

6.本技术实施例提供一种文本处理方法,以解决在医疗场景中设置一种实体归一方案,且提升实体归一的准确度的问题。
7.本技术实施例提供一种文本处理方法,包括:
8.获得待分析文本,并从所述待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段;
9.在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念;
10.使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果;
11.比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从所述
候选实体概念中选定目标实体概念。
12.可选的,还包括:
13.对所述待分析文本进行分析,获得与所述指定领域相关的属性信息;
14.将所述属性信息与所述目标实体概念组合,生成针对待分析文本的指定领域目标文本。
15.可选的,所述对所述待分析文本进行分析,获得与所述指定领域相关的属性信息,包括:
16.根据预先设置的与所述指定领域相关的属性类别,从所述待分析文本中标识对应于各个属性类别的属性文本和属性文本片段;
17.对各个所述属性文本和属性文本片段进行归一化处理,获得与各个所述属性类别对应的属性值文本;
18.将所述属性类别及其相应的属性值文本组合,形成所述指定领域相关的属性信息。
19.可选的,所述根据预先设置的与所述指定领域相关的属性类别,从所述待分析文本中标识对应于各个属性类别的属性文本和属性文本片段的步骤,采用基于所述指定领域预训练的语言表征模型的spo实体属性抽取算法。
20.可选的,所述对各个所述属性文本片段进行归一化处理,获得与各个属性类别对应的属性值文本的步骤,针对不同的属性类别,对应采取模型属性值处理策略、规则属性值处理策略或者两者结合,对所述属性文本和属性文本片段进行归一化处理。
21.可选的,所述在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念,包括:
22.分别对所述实体文本片段和指定领域的实体概念集合中的实体概念进行向量表征;
23.根据所获得的向量,计算所述实体文本片段与实体概念之间的相似度;
24.选择符合预定相似度标准的实体概念作为候选实体概念。
25.可选的,所述使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果,包括:
26.将所述待分析文本转化为对应的待分析文本向量数据、所述实体文本片段转化为对应的实体文本片段向量数据、以及各个候选实体概念转化为对应的候选实体概念向量数据;其中,所述实体文本片段向量数据中包含所述实体文本片段相关联的上、下文数据对应的向量数据;
27.将所述待分析文本向量数据、所述实体文本片段向量数据、以及所述候选实体概念向量数据输入到预设交互式模型中,以获得所述实体文本片段相关联的上、下文数据与多个所述候选实体概念的第一相似度值、所述实体文本片段与多个所述候选实体概念的第二相似度值,以及关联所述候选实体概念的全局相似度值;
28.根据所述第一相似度值、所述第二相似度值以及全局相似度值获得各个所述候选实体概念的一致性分析结果。
29.可选的,所述比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从所述候选实体概念中选定目标实体概念,包括:
30.获得所述第一相似度值对应的第一评分信息,所述第二相似度值对应的第二评分信息,以及所述全局相似度值对应的第三评分信息;
31.对所述第一评分信息、第二评分信息以及第三评分信息进行评分组合,以获得各个所述一致性分析结果的综合评分信息;
32.将各个所述一致性分析结果的综合评分信息与预设评分阈值比较,获得满足所述预设评分阈值的目标一致性分析结果;
33.根据所述目标一致性分析结果从所述候选实体概念中选定目标实体概念。
34.可选的,所述将所述属性信息与所述目标实体概念组合,生成针对待分析文本的指定领域目标文本,包括:
35.获得属性信息和目标实体概念对应的组合关系模板;
36.根据所述组合关系模板确定属性信息和目标实体概念的组合结构和组合排序;
37.根据所述组合结构和组合排序将属性信息和目标实体概念组合,生成针对待分析文本的指定领域目标文本。
38.可选的,所述获得属性信息和目标实体概念对应的组合关系模板,包括:
39.获得多个候选组合关系模板,所述多个候选组合关系模板通过预先设置的候选组合关系模板数据库获取,每个所述候选组合关系模板具有各自的类别标识;
40.获得属性信息和目标实体概念的组合类别标识;
41.将所述组合类别标识与多个所述候选组合关系模板的类别标识匹配,以从所述候选组合关系模板中获得属性信息和目标实体概念的组合关系模板。
42.可选的,还包括:
43.获得所述指定领域目标文本的组合结构和组合排序;
44.根据所述指定领域目标文本、所述指定领域目标文本的组合结构和组合排序确定属性信息;
45.获得生成目标实体概念的原始文本,并从所述原始文本中获取初始属性信息;
46.将所述属性信息与所述初始属性信息校验,若校验结果不匹配,则将所述初始属性信息与所述目标实体概念组合,生成针对待分析文本的指定领域目标文本。
47.本技术实施例还提供一种医疗文本处理方法,包括:
48.获得待分析医疗文本,并从所述待分析医疗文本中提取与指定领域的医疗实体概念相关的医疗文本作为医疗实体文本片段;
49.在所述指定领域的医疗实体概念集合中,选择与所述医疗实体文本片段达到预定相似度标准的候选医疗实体概念;
50.使用预设交互式模型,对所述待分析医疗文本、医疗实体文本片段与各个候选医疗实体概念分别进行交互式分析,获得一致性分析结果;
51.比较所得到的各个候选医疗实体概念的所述一致性分析结果,根据预定标准,从所述候选医疗实体概念中选定目标医疗实体概念。
52.本技术实施例还提供一种文本处理装置,包括:
53.实体文本片段获得单元,用于获得待分析文本,并从所述待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段;
54.候选实体概念获得单元,用于在所述指定领域的实体概念集合中,选择与所述实
体文本片段达到预定相似度标准的候选实体概念;
55.一致性分析结果获得单元,用于使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果;
56.目标实体概念获得单元,用于比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从所述候选实体概念中选定目标实体概念。
57.本技术实施例还提供一种医疗文本处理装置,包括:
58.医疗实体文本片段单元,用于获得待分析医疗文本,并从所述待分析医疗文本中提取与指定领域的医疗实体概念相关的医疗文本作为医疗实体文本片段;
59.候选医疗实体概念单元,用于在所述指定领域的医疗实体概念集合中,选择与所述医疗实体文本片段达到预定相似度标准的候选医疗实体概念;
60.一致性分析结果单元,用于使用预设交互式模型,对所述待分析医疗文本、医疗实体文本片段与各个候选医疗实体概念分别进行交互式分析,获得一致性分析结果;
61.目标医疗实体概念单元,用于比较所得到的各个候选医疗实体概念的所述一致性分析结果,根据预定标准,从所述候选医疗实体概念中选定目标医疗实体概念。
62.本技术实施例还提供一种电子设备,所述电子设备包括:处理器;存储器,用于存储计算机程序,该计算机程序被处理器运行,执行上述任意一项所述的方法。
63.本技术实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,执行上述任意一项所述的方法。
64.与现有技术相比,本技术具有以下优点:
65.本技术实施例提供一种文本处理方法,包括:
66.获得待分析文本,并从所述待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段;在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念;使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果;比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从所述候选实体概念中选定目标实体概念。
67.本技术第一实施例通过从所述待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段,在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念,候选实体概念作为初步筛选的实体,而后,为进一步提升实体归一的精度,使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果,并根据一致性分析结果,从所述候选实体概念中选定目标实体概念。本方法对与实体文本片段达到预定相似度标准的候选实体概念进行排序,并从所述候选实体概念中选定目标实体概念,二者结合以提升对待分析文本进行实体归一的准确度。
附图说明
68.图1是本技术第一实施例提供的应用场景的示意图。
69.图2为本技术第一实施例提供的文本处理方法的流程图。
70.图3为本技术第一实施例提供的获得与指定领域相关的属性信息的流程图。
71.图4为本技术第一实施例提供的用于标识对应于属性类别的属性文本和属性文本
片段的示意图。
72.图5为本技术第一实施例提供的形成指定领域相关的属性信息的示意图。
73.图6为本技术第二实施例提供的医疗文本处理方法的流程图。
74.图7为本技术第三实施例提供的一种文本处理装置的示意图。
75.图8为本技术第四实施例提供的一种医疗文本处理装置的示意图。
76.图9为本技术第五实施例提供的电子设备的示意图。
具体实施方式
77.在下面的描述中阐述了很多具体细节以便于充分理解本技术实施例。但是本技术实施例能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术实施例内涵的情况下做类似推广,因此本技术实施例不受下面公开的具体实施的限制。
78.为了使本领域的技术人员更好的理解本技术方案,下面基于本技术提供的客服图像处理方法对其实施例的具体应用场景进行详细描述,如图1所示,图1为本技术第一实施例提供的应用场景的示意图。
79.本技术第一实施例提供的应用场景可以是医疗场景,具体如下,当用户(医生)在对患者进行问诊时,其会记录与该患者的电子病情说明,该电子病情说明被记录于用户所使用的客户端。例如,该电子病情说明中的一段自然文本(待分析文本)是“上腹左边有点疼3-4天了”,客户端将该待分析文本发送给服务器(处理器),服务器则按照本场景提供的方法对该待分析文本进行归一处理。具体的,从待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段,在本步骤中,所述指定领域包括与待分析文本具有相同领域或不同领域的指定领域,或与待分析文本具有相同类别或不同类别的指定类别。以上述待分析文本为例,其对应提取出的实体文本片段为“上腹左边、疼”。而后,在指定领域的实体概念集合中,选择与实体文本片段达到预定相似度标准的候选实体概念。其中,实体概念集合由多个实体概念构成,每个实体概念集合具有对应的类别和类别标识。以使得待分析文本可根据自身的类别标识匹配到具有相同类别标识的实体概念集合。或者,每个实体概念集合具有对应的领域和领域标识。以使得待分析文本可根据自身的领域标识匹配到具有相同领域标识的实体概念集合。在本场景中,对应于前述举例的待分析文本,则筛选的候选实体概念包括上腹胀痛、上腹痛、左腹痛、上腹疼痛、右腹痛等。本场景优选筛选出相似度较高的前5个候选实体概念。
80.在获得候选实体概念后,使用预设交互式模型,对待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果,比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从候选实体概念中选定目标实体概念。其中,目标实体概念为本场景通过实体归一得到的对实体文本片段的精准表达。对应上述举例,本场景的目标实体概念具体是“上腹、痛”。
81.在确定目标实体概念后,由于目标实体概念是指定领域的标准概念或者更为精准的概念,因此,采用目标实体概念作为检索词进行检索,能够比直接使用自然文本获得指定领域中的更为准确的相关信息。因此,到这一步已经可以获得本技术方案期待的初步的技术效果,即获得精准实体概念,为进一步的机器知识问答、机器诊断等进一步的工作做好文本准备。
82.当然,在自然语言中,一般不仅仅可以提炼出目标实体概念这些标准术语形式的信息,还有一些与这些目标实体概念相关的信息,例如,表示程度、时长、距离、感觉等的信息,这些信息的内容是一般性的、日常的,并且依附于某个目标实体概念,它们与指定领域的标准概念(即目标实体概念)相互配合,可以获得非常更为明确的对需要检索的目标信息的描述;这些信息称为属性信息。
83.例如,上述例子中“有点”疼、“3-4天”,都与目标实体概念无关,但这些信息与所要描述的实际内容高度相关,因此,对这些属性信息,需要将其与目标实体概念组合,获得包含目标实体概念和属性信息的指定领域目标文本,这种文本将能够更好的反映自然文本期待表达的内容,从而为更好的机器知识问答、机器诊断提供信息检索基础。
84.具体到本场景,为了进一步提升选定的实体文本片段准确度,本场景还包括对待分析文本进行分析,获得与指定领域相关的属性信息,其中,属性信息为与待分析文本中的实体文本片段相关联的信息。举例说明,若实体文本片段为“有点疼、3-4天”,则对应获得的属性信息为“轻度(痛)、3-4天”。最后,将属性信息与目标实体概念组合,生成针对待分析文本的指定领域目标文本,即“上腹轻度痛3-4天”。
85.通过本方法获得指定领域目标文本后,服务器可将该指定领域目标文本反馈给客户端,以让用户获得精准实体推荐,指定领域目标文本等处理结果,以便以此为基础,开展更为精准的机器知识问答、机器医疗诊断等项目。
86.本技术第一实施例对应的应用场景还有很多,上述应用场景仅是示意性的,上述应用场景并不限定本技术第一实施例所要保护的范围。
87.第一实施例
88.与上述应用场景相对应的,本技术第一实施例提供一种文本处理方法,以提升实体归一的准确度。如图2所示,图2为本技术第一实施例提供的文本处理方法的流程图,所述方法包括如下步骤:
89.步骤s201,获得待分析文本,并从所述待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段。
90.在本步骤中,待分析文本包括任意领域中的任意类型的待分析文本,待分析文本是指通过自然语言获得的文本,该文本一般是通过口语或者书面语获得的对病情的描述,一般为病人本人的描述,因此,其用词通常不符合医疗领域的用于规范。在本技术第一实施例中,待分析文本包括符合自然语序的电子病情说明文本,具体举例为“上腹左边有点疼3-4天”。
91.在获得待分析文本后,可从待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段。具体的,先获得待分析文本所属的领域和领域标识,并根据待分析文本所属的领域和领域标识确定与该领域标识相匹配的指定领域的实体概念相关的文本。或者,先获得待分析文本所属的类别和类别标识,并根据待分析文本所属的类别和类别标识确定与该类别标识相匹配的指定领域的实体概念相关的文本。其中,实体概念是指在对应领域中对实体信息描述符合该领域所关心的对象的信息。例如上述步骤举例的待分析文本是“上腹左边有点疼”,则从待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段包括“上腹左边、疼”。
92.本步骤从待分析文本中抽取与指定领域相关的实体文本片段,具体可以使用目前
已存在各种ner模型(named entity recognition,命名实体识别模型)实现,ner模型可以根据指定领域的知识,抽取待分析文本中具有特定意义或者指代性强的实体。但ner模型所抽取的实体文本片段(mention),往往存在各种问题,例如,边界错误或信息不全,如文本为“化疗期间肿瘤标志物升高”,mention为“标志物升高”,缺少症状主体;此外,实体文本片段作为待分析文本中采用自然语言表述的内容,存在语言不符合相关领域术语要求的问题,不利于对所获取的信息进行标准、正确的信息处理;因此,在此基础上,需要进一步进行后续步骤。
93.步骤s202,在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念。
94.结合上述内容,在指定领域的实体概念相关的文本中,文本的数量不止一个,实体概念的数量不止一个,即实体概念集合由多个实体概念构成,每个实体概念集合具有对应的类别和类别标识,以使得待分析文本可根据自身的类别标识匹配到具有相同类别标识的实体概念集合。或每个实体概念集合具有对应的领域和领域标识。以使得待分析文本可根据自身的领域标识匹配到具有相同领域标识的实体概念集合。本技术第一实施例的实体概念集合包括医疗领域中的实体概念集合。
95.在指定领域的实体概念集合中,选择与实体文本片段达到预定相似度标准的候选实体概念,包括,首先,获得与待分析文本相关的实体概念集合中的多个实体文本片段,具体的,分别对所述实体文本片段和指定领域的实体概念集合中的实体概念进行向量表征,即将待分析文本转化为对应的向量数据,并确定所述向量数据中与所述实体文本片段对应的第一向量数据,实体文本片段对应的第一向量数据中包含实体文本片段相关联的上、下文数据对应的关联向量数据。将确定的实体概念集合中的各个实体概念分别转化为对应的第二向量数据。然后,根据所获得的向量,计算实体文本片段与实体概念之间的相似度,即确定实体文本片段与实体概念集合中的多个实体概念的相似度值,具体的,将各个实体概念对应的第二向量数据和实体文本片段对应的第一向量数据输入至预设双塔模型中,以获得各个实体概念对应的第二向量数据与实体文本片段对应的第一向量数据相似度值,将各个实体概念对应的第二向量数据与实体文本片段对应的第一向量数据相似度值作为实体文本片段与实体概念集合中的多个实体概念的相似度值。最后,选择符合预定相似度标准的实体概念作为候选实体概念,具体的,根据相似度值对实体概念集合中的多个实体概念进行排序,以获得与实体文本片段达到预定相似度标准的候选实体概念。其中,在本技术第一实施例中,预定相似度标准设定为根据相似度值排序出前5个实体概念作为候选实体概念。对应于前述举例内容,本实施例优选筛选出的相似度值较高的前5个候选实体概念包括上腹胀痛、上腹痛、左腹痛、上腹疼痛、右腹痛。当然,在其它预定相似度标准中,根据相似度值排序出的候选实体概念的数量还可以是其它。
96.需要补充说明的是,在对候选实体概念排序时,负样本实体对最终效果影响最大,为此训练时使用circle-loss(圆损失函数),其定义如下式所示,其中d(e,en)(d(e,e
p
))表示实体文本片段和负(正)样本实体的向量余弦相似度,k是正样本簇,i表示第i个正样本实体,l是负样本簇,j表示第j个负样本实体,m是正负样本之间的边界距离,γ是缩放因子,exp为指数函数,log为对数函数。损失的目标是尽量增大每个正样本实体和负样本实体之间的距离,相比于circle loss一次一组正负样本对,该loss可以同时计算引入大量的正负
样本对,提升预设双塔模型排序效果。
[0097][0098]
步骤s203,使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果。
[0099]
在获得候选实体概念后,使用预设交互式模型,对待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果。具体的,将待分析文本转化为对应的待分析文本向量数据、所述实体文本片段转化为对应的实体文本片段向量数据、以及各个候选实体概念转化为对应的候选实体概念向量数据;其中,所述实体文本片段向量数据中包含所述实体文本片段相关联的上、下文数据对应的向量数据。且对应前述内容,待分析文本举例为“上腹左边有点疼”,实体文本片段包括“上腹左边、疼”,实体文本片段相关联的上、下文数据包括“上腹左边、有点疼”,候选实体概念包括“上腹胀痛、上腹痛、左腹痛、上腹疼痛、右腹痛”。而后,将待分析文本向量数据、实体文本片段向量数据、以及候选实体概念向量数据输入到预设交互式模型中,以获得实体文本片段相关联的上、下文数据与多个候选实体概念的第一相似度值、实体文本片段与多个候选实体概念的第二相似度值,以及关联候选实体概念的全局相似度值,并根据所述第一相似度值、所述第二相似度值以及全局相似度值获得各个所述候选实体概念的一致性分析结果。
[0100]
步骤s204,比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从所述候选实体概念中选定目标实体概念。
[0101]
在获得各个候选实体概念的一致性分析结果后,比较一致性分析结果所具有的综合评分,从多个候选实体概念中选出综合评分满足预设条件的候选实体概念作为目标实体概念。具体的,获得第一相似度值对应的第一评分信息,第二相似度值对应的第二评分信息,以及全局相似度值对应的第三评分信息,对第一评分信息、第二评分信息以及第三评分信息进行评分组合,以获得各个候选实体概念对应的一致性分析结果的综合评分信息。将各个候选实体概念对应的一致性分析结果的综合评分信息与预设评分阈值比较,获得满足预设评分阈值的目标一致性分析结果,并根据目标一致性分析结果从多个候选实体概念中选定目标实体概念。在该步骤中,是将多个候选实体概念进一步的进行归一处理,以使所得到的目标实体概念得准确度更加符合归一的要求。对应于前述举例内容,对应的目标实体概念具体是“上腹、痛”。
[0102]
本技术第一实施例通过从所述待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段,在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念,候选实体概念作为初步筛选的实体,而后,为进一步提升实体归一的精度,使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果,并根据一致性分析结果,从所述候选实体概念中选定目标实体概念。本方法对与实体文本片段达到预定相似度标准的候选实体概念进行排序,并从所述候选实体概念中选定目标实体概念,二者结合以提升对待分析文本
进行实体归一的准确度。
[0103]
进一步的,在获得目标实体概念后,为了使得所获得的文本更加符合指定领域的规范术语表达的文本,本技术第一实施例提供的方法还包括对待分析文本进行分析,获得与指定领域相关的属性信息,并将属性信息与目标实体概念组合,生成针对待分析文本的指定领域目标文本。其中,所述属性信息是指与待分析文本中的实体信息相关联的信息,或是与待分析文本中的实体信息相关联的指定领域相关的属性信息。
[0104]
其中,在本技术第一实施例中,对待分析文本进行分析,获得与指定领域相关的属性信息包括如下步骤,如图3所示,图3是本技术第一实施例提供的获得与指定领域相关的属性信息的流程图,具体包括如下步骤:
[0105]
步骤s301,根据预先设置的与所述指定领域相关的属性类别,从所述待分析文本中标识对应于各个属性类别的属性文本片段。
[0106]
其中,预先设置的与指定领域相关的属性类别可通过数据库获得,即在每个领域中,每个实体都具有自身的属性,且该属性对应有所属的类别和类别标识,即属性类别。在本技术第一实施例中,所述指定领域为医疗领域,针对医疗领域中的病症实体,根据医疗诊断中出现频率确定出15中属性类型(二级类别),包含属性类型如表1所示:
[0107]
[0108][0109]
表1
[0110]
然后,从待分析文本中标识对应于各个属性类别的属性文本和属性文本片段,本步骤采用基于指定领域预训练的语言表征模型的spo实体属性抽取算法实现。具体的,在待分析文本中,通过对待分析文本处理以提取出待分析文本中所包含的各个实体和各个实体对应的实体标识(包含类别特征和位置信息)。其中,实体包含属性实体。然后,获得与所述属性实体关联的属性类型和属性类型id,具体的,将待分析文本转化为对应的向量数据,所述向量数据中包含与所述属性实体对应的属性向量数据,将待分析文本对应的向量数据输入至预设分类模型,以获得所述向量数据的类别特征,所述向量数据的类别特征包含属性向量数据的类别特征。将向量数据的类别特征与各个属性类别的类别标识匹配,以从预先设置的与所述指定领域相关的属性类别中确定出与所述向量数据的类别特征对应的目标属性类型和目标属性类型id,并将该目标属性类型和目标属性类型id作为所述属性实体关联的属性类型和属性类型id。而后,根据实体标识(id,位置标识)和属性类型id标识所述待分析文本中的属性文本和属性文本片段,具体的,将待分析文本按照以单字为单位划分成单字实体,并确定各个单字实体id和所述单字实体之间的关联关系,而后,根据实体标识、属性类型id和单字实体id从待分析文本中标识属性,以及根据实体标识、属性文本和单字实体之间的关联关系和确定待分析文本中的属性文本片段。
[0111]
在本技术第一实施例中,为便于理解上述从待分析文本中标识对应于各个属性类别的属性文本和属性文本片段的步骤,如下将结合图4所示的内容进行举例阐述。图4为本技术第一实施例提供的用于标识对应于属性类别的属性文本和属性文本片段的示意图。
[0112]
具体的,待分析文本具体是“躺着还行,不是很疼,站着就疼得很厉害,三四天了”。将该待分析文本输入至bert(bidirectional encoder representations from transformers,语言表征模型)前向模型中,其中,bert前向模型至少包含实体分析层、片段层、位置层以及隐藏层。上述4层bert对待分析文本进行处理,以提取出待分析文本中所包含的各个实体和各个实体对应的实体标识,例如,提取出的实体为“躺着、还行、不是很、疼、站着、就、疼、得、很厉害、三四天、了”,其中,属性实体为“疼”。并进行前向编码,即将待分析
文本转化为对应的向量数据,所述向量数据中包含与所述属性实体对应的属性向量数据,将待分析文本对应的向量数据输入至预设分类模型,以获得所述向量数据的类别特征,所述向量数据的类别特征包含属性向量数据的类别特征。
[0113]
而后,将向量数据的类别特征与各个属性类别的类别标识匹配,以从预先设置的与所述指定领域相关的属性类别中确定出与所述向量数据的类别特征对应的目标属性类型和目标属性类型id,并将该目标属性类型和目标属性类型id作为所述属性实体关联的属性类型和属性类型id。结合图4所示,目标属性类型和目标属性类型id为第一层(id,位置)的动作条件,以及第二层严重程度。需要说明的是,各个属性类别预先输入至模型中,每个属性类别具有对应的类别标识和类别特征。在本实施例中,属性类别至少包括有发作时长、严重程度、动作条件等。
[0114]
最后,将待分析文本按照以单字为单位划分成单字实体,并确定各个单字实体id和所述单字实体之间的关联关系,其中,如图4所示,“躺着”对应的单字实体id为“e1,e2”,“不是很”对应的单字实体id为“e6,e7,e8”,“躺着”对应的单字实体id为“e1,e2”,“三四天”对应的单字实体id为“e20,e21,e22”。然后,根据实体标识、属性类型id和单字实体id确定属性实体中的属性文本,以及根据实体标识、属性文本和单字实体之间的关联关系和确定待分析文本中的属性文本片段。其中,从待分析文本中标识的属性文本为“躺着”、“不是很”和“三四天”等;且与属性文本相关联的属性文本片段为“躺着还行”、“不是很疼”和“三四天了”等。如上即为本步骤采用基于指定领域预训练的语言表征模型的spo实体属性抽取算法的具体示例描述。
[0115]
当然,在本技术的其它示例中,还可通过如下步骤从待分析文本中标识对应于各个属性类别的属性文本和属性文本片段,具体的,在待分析文本中,通过对待分析文本处理以提取出待分析文本中所包含的各个实体和各个实体对应的实体标识。而后,将待分析文本中的各个实体和各个实体对应的实体标识与各个属性类别的类别标识匹配后,可从待分析文本中标识对应于各个属性类别的实体文本片段。需要补充说明的是,在文本中,任何一个词组、短句,亦或是一个单字,其本身均是一种实体,即在待分析文本中,属性也是一种实体。从而,将待分析文本中的各个实体和各个实体对应的实体标识与各个属性类别的类别标识匹配后,可从待分析文本中标识对应于各个属性类别的属性文本和属性文本片段。
[0116]
步骤s302,对各个所述属性文本和属性文本片段进行归一化处理,获得与各个所述属性类别对应的属性值文本。
[0117]
在从所述待分析文本中标识对应于各个属性类别的属性文本和属性文本片段后,对各个所述属性文本和属性文本片段进行归一化处理,获得与各个属性类别对应的属性值文本。本步骤针对属性文本所属的不同的属性类别,分别采取模型属性值处理策略、规则属性值处理策略或者两者结合,对所述属性文本和属性文本片段进行归一化处理。
[0118]
具体的,当所述属性类别对应的处理策略为模型属性值处理策略时,根据所确定的模型属性值处理策略,对所述属性文本和属性文本片段进行归一化处理,获得与各个所述属性类别对应的属性值文本,包括:首先,将所述属性文本片段转化为对应的属性文本片段向量数据,并确定所述属性文本片段向量数据中与所述属性文本对应的属性文本向量数据,所述属性文本片段向量数据中包含所述属性文本相关联的上、下文数据对应的向量数据。在本技术第一实施例中,属性文本片段向量数据即为属性文本片段向量数据中包含所
述属性文本相关联的上、下文数据对应的向量数据。然后,将预设属性值文本集合中的各个候选属性值文本分别转化为对应的候选属性值文本向量数据,获得属性文本片段向量数据与多个候选属性值文本向量数据的第一相似度值、所述属性文本向量数据与多个候选属性值文本向量数据的第二相似度值、以及关联候选属性值文本的全局相似度值,并根据所述第一相似度值、所述第二相似度值以及全局相似度值获得各个候选属性值文本的一致性分析结果。最后,获得所述第一相似度值对应的第一评分信息,所述第二相似度值对应的第二评分信息,以及所述全局相似度值对应的第三评分信息,并对所述第一评分信息、第二评分信息以及第三评分信息进行评分组合,以获得各个候选属性值文本对应的一致性分析结果的综合评分信息。将各个候选属性值文本对应的一致性分析结果的综合评分信息与预设评分阈值比较,获得满足所述预设评分阈值的目标一致性分析结果,并根据所述目标一致性分析结果从候选属性值文本中选定目标属性值文本。将目标属性值文本作为与该属性类别对应的属性值文本。
[0119]
为了便于理解,下述将结合图4对根据所确定的模型属性值处理策略,对所述属性文本和属性文本片段进行归一化处理,获得与属性类别对应的属性值文本的步骤进行进一步的解释说明。具体的,属性类别为“严重程度”输入信息为属性文本片段“text(不是很疼)”和属性文本“不是很”,候选属性值文本“轻度、重度、中度”等。然后将上述信息进行编码(encoder)处理,获得属性文本片段向量数据与多个候选属性值文本向量数据的第一相似度值、所述属性文本向量数据与多个候选属性值文本向量数据的第二相似度值、以及关联候选属性值文本的全局相似度值,并根据所述第一相似度值、所述第二相似度值以及全局相似度值获得各个候选属性值文本的一致性分析结果。以及获得所述第一相似度值对应的第一评分信息,所述第二相似度值对应的第二评分信息,以及所述全局相似度值对应的第三评分信息,并对所述第一评分信息、第二评分信息以及第三评分信息进行评分组合,以获得各个候选属性值文本对应的一致性分析结果的综合评分信息。将各个候选属性值文本对应的一致性分析结果的综合评分信息排序,获得与一致性分析结果对应的综合评分信息的分数最高的目标一致性分析结果,并根据所述目标一致性分析结果从候选属性值文本中选定目标属性值文本。目标属性值文本为“轻度”。将目标属性值文本“轻度”作为与该属性类别“严重程度”对应的属性值文本。可见,在本示例中,属性值文本所包含的属性值是一种描述性值,即“轻”。
[0120]
在本技术第一实施例中,当属性类别对应的处理策略为规则属性值处理策略时,根据所确定的规则属性值处理策略,对所述属性文本和属性文本片段进行归一化处理,获得与各个所述属性类别对应的属性值文本,包括:将属性文本和属性文本片段与标准属性文本和标准属性文本片段匹配,从所述标准属性文本和标准属性文本片段中获得与属性文本和属性文本片段相匹配的属性值文本。其中,所述属性值文本包括的属性值为数字属性值。在申请第一实施例中,对于属性值是数字类文本,如时长、频率等,使用正则方法(数字+单位)对属性片段直接归一,但需要考虑虚数与口语表述等情况(如几天、前天开始等)。对于其它属性值,也可以使用词典匹配、规则修正等方法作为规则属性值处理策略。举例说明,属性类别为“发作时长”,属性文本和属性文本片段为“三四天”,基于数字+单位的规则对应匹配到的属性值文本为“3-4天”。
[0121]
步骤s303,将所述属性类别及其相应的属性值文本组合,形成所述指定领域相关
的属性信息。
[0122]
在获得属性类别及其相应的属性值文本后,将所述属性类别及其相应的属性值文本组合,形成所述指定领域相关的属性信息。结合上述举例内容,将属性类别及其相应的属性值文本按照预设结构组合,形成指定领域相关的属性信息。如图5所示。图5为本技术第一实施例提供的形成指定领域相关的属性信息的示意图。
[0123]
在获得成指定领域相关的属性信息后,将属性信息与目标实体概念组合,生成针对待分析文本的指定领域目标文本。具体的,首先,获得属性信息和目标实体概念的组合关系模板,其中,获得属性信息和目标实体概念的组合关系模板,包括:获得多个候选组合关系模板,多个候选组合关系模板通过预先设置的候选组合关系模板数据库中获取,每个候选组合关系模板具有各自的类别标识。获得属性信息和目标实体概念的组合类别标识,将组合类别标识与多个所述候选组合关系模板的类别标识匹配,以从所述候选组合关系模板中获得属性信息和目标实体概念的组合关系模板。然后,根据所述组合关系模板确定属性信息和目标实体概念的组合结构和组合排序,该组合结构和组合排序可以是预先设置的,还可以是根据属性信息和目标实体概念直接进行设置。最后,根据组合结构和组合排序将属性信息和目标实体概念组合,生成针对待分析文本的指定领域目标文本。
[0124]
对应于上述自然文本(待分析文本)是“上腹左边有点疼3-4天了”,其已获得目标实体概念具体是“上腹、痛”,实体文本片段为“有点疼、3-4天”所对应获得的属性信息为“有点、3-4天”。最后,将属性信息与目标实体概念组合,生成针对待分析文本的指定领域目标文本,即指定领域目标文本为“上腹痛3-4天”。
[0125]
本技术第一实施例基于深度学习模型,使用spo抽取算法,完成了给定实体即抽取相应实体的属性类型和属性值文本,避免了现有模型对两个实体的依赖问题。同时对属性值进行了归一,成体系的解决了属性类型、属性值文本抽取与属性值归一问题。
[0126]
进一步的,在本技术第一实施例中,还可以通过属性信息对指定领域目标文本进行校验并纠正。具体的,获得所述指定领域目标文本的组合结构和组合排序,根据所述指定领域目标文本、所述指定领域目标文本的组合结构和组合排序确定属性信息。获得生成目标实体概念的原始文本,并从所述原始文本中获取初始属性信息,将所述属性信息与所述初始属性信息校验,若校验结果不匹配,则将所述初始属性信息与所述目标实体概念组合,生成针对待分析文本的指定领域目标文本。本技术第一实施例过属性信息对指定领域目标文本进行校验并纠正,以提升对待分析文本进行实体归一的准确度。
[0127]
第二实施例
[0128]
与本技术第一实施例提供的文本处理方法相对应的,本技术第二实施例还提供一种医疗文本处理方法,如图6所示,图6为本技术第二实施例提供的医疗文本处理方法的流程图,所述方法包括如下步骤:
[0129]
步骤s601,获得待分析医疗文本,并从所述待分析医疗文本中提取与指定领域的医疗实体概念相关的医疗文本作为医疗实体文本片段。
[0130]
步骤s601,在所述指定领域的医疗实体概念集合中,选择与所述医疗实体文本片段达到预定相似度标准的候选医疗实体概念。
[0131]
步骤s601,使用预设交互式模型,对所述待分析医疗文本、医疗实体文本片段与各个候选医疗实体概念分别进行交互式分析,获得一致性分析结果。
[0132]
步骤s601,比较所得到的各个候选医疗实体概念的所述一致性分析结果,根据预定标准,从所述候选医疗实体概念中选定目标医疗实体概念。
[0133]
基于本医疗文本处理方法与上述本技术第一实施例提供的文本处理方法相似,故具体步骤内容可类比本技术第一实施例的描述,此处将不作详细的描述。类比可理解为将本技术第一实施例中的名词替换为本技术第二实施例中相对应的名词。例如将“待分析文本”替换为“待分析医疗文本”,“实体概念”替换为“医疗实体概念”,以及“实体文本片段”替换为“医疗实体文本片段”等。
[0134]
第三实施例
[0135]
与本技术第一实施例提供的文本处理方法相对应的,本技术第三实施例提供一种文本处理装置。由于装置实施例基本相似于第一实施例,所以描述得比较简单,相关之处参见第一实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0136]
请参照图7,其为本技术第三实施例提供的一种文本处理装置的示意图。该文本处理装置包括:实体文本片段获得单元701,用于获得待分析文本,并从所述待分析文本中提取与指定领域的实体概念相关的文本作为实体文本片段;候选实体概念获得单元702,用于在所述指定领域的实体概念集合中,选择与所述实体文本片段达到预定相似度标准的候选实体概念;一致性分析结果获得单元703,用于使用预设交互式模型,对所述待分析文本、实体文本片段与各个候选实体概念分别进行交互式分析,获得一致性分析结果;目标实体概念获得单元704,用于比较所得到的各个候选实体概念的所述一致性分析结果,根据预定标准,从所述候选实体概念中选定目标实体概念。
[0137]
所述文本处理装置还包括:属性信息获得单元,用于对所述待分析文本进行分析,获得与所述指定领域相关的属性信息;指定领域目标文本生成单元,用于将所述属性信息与所述目标实体概念组合,生成针对待分析文本的指定领域目标文本。
[0138]
所述属性信息获得单元具体用于根据预先设置的与所述指定领域相关的属性类别,从所述待分析文本中标识对应于各个属性类别的属性文本和属性文本片段;对各个所述属性文本和属性文本片段进行归一化处理,获得与各个所述属性类别对应的属性值文本;将所述属性类别及其相应的属性值文本组合,形成所述指定领域相关的属性信息。
[0139]
所述候选实体概念获得单元702具体用于分别对所述实体文本片段和指定领域的实体概念集合中的实体概念进行向量表征;根据所获得的向量,计算所述实体文本片段与实体概念之间的相似度;选择符合预定相似度标准的实体概念作为候选实体概念。
[0140]
所述一致性分析结果获得单元703具体用于将所述待分析文本转化为对应的待分析文本向量数据、所述实体文本片段转化为对应的实体文本片段向量数据、以及各个候选实体概念转化为对应的候选实体概念向量数据;其中,所述实体文本片段向量数据中包含所述实体文本片段相关联的上、下文数据对应的向量数据;将所述待分析文本向量数据、所述实体文本片段向量数据、以及所述候选实体概念向量数据输入到预设交互式模型中,以获得所述实体文本片段相关联的上、下文数据与多个所述候选实体概念的第一相似度值、所述实体文本片段与多个所述候选实体概念的第二相似度值,以及关联所述候选实体概念的全局相似度值;根据所述第一相似度值、所述第二相似度值以及全局相似度值获得各个所述候选实体概念的一致性分析结果。
[0141]
所述目标实体概念获得单元704具体用于获得所述第一相似度值对应的第一评分
信息,所述第二相似度值对应的第二评分信息,以及所述全局相似度值对应的第三评分信息;对所述第一评分信息、第二评分信息以及第三评分信息进行评分组合,以获得各个所述一致性分析结果的综合评分信息;将各个所述一致性分析结果的综合评分信息与预设评分阈值比较,获得满足所述预设评分阈值的目标一致性分析结果;根据所述目标一致性分析结果从所述候选实体概念中选定目标实体概念。
[0142]
所述指定领域目标文本生成单元具体用于获得属性信息和目标实体概念对应的组合关系模板;根据所述组合关系模板确定属性信息和目标实体概念的组合结构和组合排序;根据所述组合结构和组合排序将属性信息和目标实体概念组合,生成针对待分析文本的指定领域目标文本。其中,所述获得属性信息和目标实体概念对应的组合关系模板,包括:获得多个候选组合关系模板,所述多个候选组合关系模板通过预先设置的候选组合关系模板数据库获取,每个所述候选组合关系模板具有各自的类别标识;获得属性信息和目标实体概念的组合类别标识;将所述组合类别标识与多个所述候选组合关系模板的类别标识匹配,以从所述候选组合关系模板中获得属性信息和目标实体概念的组合关系模板。
[0143]
还包括校验单元,用于获得所述指定领域目标文本的组合结构和组合排序;
[0144]
根据所述指定领域目标文本、所述指定领域目标文本的组合结构和组合排序确定属性信息;获得生成目标实体概念的原始文本,并从所述原始文本中获取初始属性信息;将所述属性信息与所述初始属性信息校验,若校验结果不匹配,则将所述初始属性信息与所述目标实体概念组合,生成针对待分析文本的指定领域目标文本。
[0145]
第四实施例
[0146]
与本技术第二实施例提供的医疗文本处理方法相对应的,本技术第四实施例提供一种医疗文本处理装置。由于装置实施例基本相似于第二实施例,所以描述得比较简单,相关之处参见第二实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0147]
请参照图8,其为本技术第四实施例提供的一种医疗文本处理装置的示意图。该医疗文本处理装置包括:医疗实体文本片段单元801,用于获得待分析医疗文本,并从所述待分析医疗文本中提取与指定领域的医疗实体概念相关的医疗文本作为医疗实体文本片段;候选医疗实体概念单元802,用于在所述指定领域的医疗实体概念集合中,选择与所述医疗实体文本片段达到预定相似度标准的候选医疗实体概念;一致性分析结果单元803,用于使用预设交互式模型,对所述待分析医疗文本、医疗实体文本片段与各个候选医疗实体概念分别进行交互式分析,获得一致性分析结果;目标医疗实体概念单元804,用于比较所得到的各个候选医疗实体概念的所述一致性分析结果,根据预定标准,从所述候选医疗实体概念中选定目标医疗实体概念。
[0148]
第五实施例
[0149]
与本技术第一实施例的方法相对应的,本技术第五实施例还提供一种电子设备。如图9所示,图9为本技术第五实施例中提供的一种电子设备的示意图。该电子设备,包括:至少一个处理器901,至少一个通信接口902,至少一个存储器903和至少一个通信总线904;可选的,通信接口902可以为通信模块的接口,如gsm模块的接口;处理器901可能是处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。存储器903可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。其中,存
储器903存储有程序,处理器901调用存储器903所存储的程序,以执行本技术第一实施例的方法。
[0150]
第六实施例
[0151]
与本技术第一实施例提供方法和第二实施例提供的方法相对应的,本技术第六实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,执行本技术第一实施例提供的方法和第二实施例提供方法。
[0152]
本技术虽然以较佳实施例公开如上,但其并不是用来限定本技术,任何本领域技术人员在不脱离本技术的精神和范围内,都可以做出可能的变动和修改,因此本技术的保护范围应当以本技术权利要求所界定的范围为准。
[0153]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0154]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0155]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0156]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1