一种症状信息抽取方法、装置、设备及存储介质与流程

文档序号:25280432发布日期:2021-06-01 17:26阅读:149来源:国知局
一种症状信息抽取方法、装置、设备及存储介质与流程

本申请涉及智慧医疗技术领域,尤其涉及一种症状信息抽取方法、装置、设备及存储介质。



背景技术:

在某些应用场景中,需要从病情文本中抽取出病患的症状信息,比如,在对病历文本进行结构化的应用场景中,需要从病历文本中抽取出病患的症状信息,而如何从病情文本中抽取出病患的症状信息是当前亟需解决的问题。



技术实现要素:

有鉴于此,本申请提供了一种症状信息抽取方法、装置、设备及存储介质,用以从待抽取症状信息的病情文本中抽取出病患的症状信息,其技术方案如下:

一种症状信息抽取方法,包括:

获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识;

将所述目标医学知识融入所述第一文本中,融入所述目标医学知识的文本作为第二文本;

基于预先建立的症状信息抽取模型对所述第二文本进行症状信息的抽取,抽取出的症状信息作为所述第一文本对应的症状信息抽取结果;

其中,所述症状信息抽取模型以在训练文本中融入匹配的症状标准词后的文本为训练样本,以所述训练文本对应的症状信息为样本标签训练得到。

可选的,所述获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识,包括:

从包含症状词的医学知识库中获取与所述第一文本中的内容匹配的症状词,作为目标症状词;

若所述目标症状词为症状标准词,则将所述目标症状词作为所述目标医学知识;

若所述目标症状词为非症状标准词,则获取所述目标症状词对应的症状标准词,作为所述目标医学知识。

可选的,所述将所述目标医学知识融入所述第一文本中,包括:

在所述第一文本中与所述目标医学知识匹配的文本的后面插入所述目标医学知识。

可选的,所述基于预先建立的症状信息抽取模型对所述第二文本进行症状信息抽取,包括:

基于所述症状信息抽取模型对所述第二文本进行编码,得到所述第二文本的语义表征向量;

基于所述症状信息抽取模型,构建能够表征所述第二文本中每个字符对应的噪声字符和/或非噪声字符的掩码矩阵,其中,所述噪声字符为对对应的字符在所述第二文本中的语义有干扰的字符;

基于所述症状信息抽取模型、所述第二文本的语义表征向量和所述掩码矩阵,确定症状信息。

可选的,所述基于所述症状信息抽取模型、所述第二文本的语义表征向量和所述掩码矩阵,确定症状信息,包括:

基于所述症状信息抽取模型、所述第二文本的语义表征向量和所述掩码矩阵,确定所述第二文本中每个字符对应的上下文向量,其中,一个字符对应的上下文向量能够表征该字符与所述第二文本中该字符对应的非噪声字符的相关程度;

基于所述症状信息抽取模型和所述第二文本中每个字符对应的上下文向量,确定症状信息。

可选的,所述构建能够表征所述第二文本中每个字符对应的噪声字符和/或非噪声字符的掩码矩阵,包括:

对于所述第二文本中的每个字符:

若该字符为所述第一文本中的字符,且该字符不具有匹配的目标医学知识,则确定所述第一文本中的其它字符为该字符对应的非噪声字符;

若该字符为所述第一文本中的字符,且该字符具有匹配的目标医学知识,则确定所述第一文本中的其他字符以及与该字符匹配的目标医学知识所包含的字符为该字符对应的非噪声字符;

若该字符为所述目标医学知识中的字符,则确定该字符所在的目标医学知识中的其它字符以及所述第一文本中与该字符所在的目标医学知识匹配的文本中的字符为该字符对应的非噪声字符;

确定所述第二文本中除该字符和确定出的非噪声字符外的字符为该字符对应的噪声字符;

根据所述第二文本中每个字符对应的非噪声字符和噪声字符,构建掩码矩阵。

可选的,所述第一文本中的每个字符具有位置信息,在所述第一文本中融入所述目标医学知识后,所述第一文本中字符的位置信息不变,融入的所述目标医学知识所包含字符的位置信息根据所述第一文本中匹配的文本所包含字符的位置信息确定;

所述基于所述症状信息抽取模型对所述第二文本进行编码,得到所述第二文本的语义表征向量,包括:

基于所述症状信息抽取模型对所述第二文本中的每个字符以及每个字符的位置信息进行编码,得到所述第二文本中每个字符对应的字符表征向量和位置表征向量;

基于所述症状信息抽取模型和所述第二文本中每个字符对应的字符表征向量和位置表征向量,确定所述第二文本的语义表征向量。

一种症状信息抽取装置,包括:医学知识获取模块、医学知识融入模块和症状信息抽取模块;

所述医学知识获取模块,用于获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识;

所述医学知识融入模块,用于将所述目标医学知识融入所述第一文本中,融入所述目标医学知识的文本作为第二文本;

所述症状信息获取模块,用于基于预先建立的症状信息抽取模型对所述第二文本进行症状信息抽取,抽取出的症状信息作为所述第一文本对应的症状信息抽取结果;

其中,所述症状信息抽取模型以在训练文本中融入匹配的症状标准词后的文本为训练样本,以所述训练文本对应的症状信息为样本标签训练得到。

一种症状信息抽取设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现上述任一项所述的症状信息抽取方法的各个步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的症状信息抽取方法的各个步骤。

经由上述方案可知,本申请提供的症状信息抽取方法、装置、设备及存储介质,首先获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识,然后将目标医学知识融入第一文本中,融入目标医学知识的文本作为第二文本,最后基于预先建立的症状信息抽取模型对第二文本进行症状信息的抽取,以得到第一文本对应的症状信息抽取结果。经由本申请提供的症状信息抽取方法可从待抽取症状信息的病情文本中抽取出病患的症状信息,另外,本申请在待抽取症状信息的第一文本中融入医学知识,相当于为症状信息抽取模型引入了先验知识,先验知识的引入使得症状信息抽取模型具有较高的抽取成功率和抽取准确率,此外,将症状标准词作为融入第一文本的医学知识,使得症状信息抽取模型抽取出的症状信息为症状标准词,而非第一文本中的原始症状信息,即本申请提供的症状信息抽取方法具有较高的抽取成功率和抽取准确率,且能够直接抽取出症状标准词。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的症状信息抽取方法的流程示意图;

图2为本申请实施例提供的基于预先建立的症状信息抽取模型对第二文本进行症状信息的抽取的流程示意图;

图3为本申请实施例提供的基于症状信息抽取模型实现症状信息抽取的示意图;

图4为本申请实施例提供的构建症状信息抽取模型的流程示意图;

图5为本申请实施例提供的症状信息抽取装置的结构示意图;

图6为本申请实施例提供的症状信息抽取设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了实现症状信息的抽取,本案发明人进行了研究,起初的思路是:采用基于字典和规则的抽取方案。

基于字典和规则的抽取方案主要依赖于医生整理的医疗字典和知识库,利用症状标准词、症状元素、症状性质、标点符号以及方位词等作为特征,采用字符串匹配和正则匹配相结合的方式获取待抽取症状信息的病情文本中的原始症状信息,然后采用人工整理的方式将其映射为症状标准词。

本案发明人通过研究发现,虽然基于字典和规则的抽取方案能够实现症状信息的抽取,但其存在两个问题:其一,字典和知识库是人工整理的,难免存在错误和遗漏的情况,其二,字典中不可能包含所有的症状词,而且,不同病情文本的书写风格可能不同,很难涵盖所有的情况,因此,该方案的召回率普遍较低。

鉴于上述基于字典和规则的抽取方案存在的问题,本案发明人进一步进行研究,想到了基于统计机器学习的抽取方案。

基于统计机器学习的抽取方案是在人工标注的语料的基础上,采用相关的机器学习算法(比如隐马尔可夫模型、最大熵模型、支持向量机模型以及条件随机场模型等)获取病历中的原始症状信息,然后采用人工整理的方式将其映射为症状标准词。

虽然基于统计机器学习的抽取方式不需要人工设计规则,但是该抽取方式需要人工手动设计特征,而且一般难以获得全局最优解。

本案发明人通过研究发现,基于字典和规则的抽取方案和基于统计机器学习的抽取方案除了存在各自特有的问题之外,还存在一个共同的问题,即,二者都只是从病情文本中获取原始的症状信息,在获得原始的症状信息后,还需要人工进行规整,以将原始的症状信息映射为症状标准词,这个过程较为耗时耗力。

鉴于上述两种方案存在的问题,本案发明人继续进行研究,最终提出了一种效果较好的症状信息抽取方法,该症状信息抽取方法解决了上述两种抽取方法存在的问题,该方法的基本构思是:在待抽取症状信息的病情文本中融入匹配的症状标准词,利用预先建立的症状信息抽取模型对融入症状标准词后的文本进行症状信息的抽取。该症状信息抽取方法在待抽取症状信息的病情文本中融入了症状标准词,症状标准词的融入相当于为症状信息抽取模型引入了先验知识,先验知识的引入使得症状信息抽取模型能够成功地召回准确的症状信息,且召回的症状标准词直接为症状标准词,而非原始症状信息,因此避免了人工将原始的症状信息映射为症状标准词的过程。

本申请提供的症状信息抽取方法可应用于任何需要进行症状信息抽取的应用场景,该症状信息抽取方法可应用于具有数据处理能力的电子设备,该电子设备可以为网络侧的服务器,也可以为用户侧使用的终端,比如pc、笔记本、智能手机等,网络侧的服务器或用户侧使用的终端可按本申请提供的症状信息抽取方法从待抽取症状信息的病情文本中抽取出症状信息。

接下来通过下述实施例对本申请提供的症状信息抽取方法进行介绍。

第一实施例

请参阅图1,示出了本申请实施例提供的症状信息抽取方法的流程示意图,可以包括:

步骤s101:获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识。

其中,第一文本可以为任何与病患的病情有关的文本。

电子病历是医疗机构对于门诊、住院患者进行临床治疗和指导干预的数字化医疗服务工作记录,其包含了患者的病情信息,比如,主诉、现病史、既往病史、检查检验以及用药记录等,这些信息是由医务人员撰写的患者病情记录。通过对电子病历的数据进行挖掘,可以获取到患者的病情信息以及辅助医生对患者进行进一步的诊治。然而,电子病历是一种半结构化的数据,具体表现为不同医生的表述风格不一致,文本形式缺乏统一的规范,且电子病历中存在大量错别字等情况。将电子病历转换为结构化的数据可以加深计算机对于电子病历的理解。电子病历结构化中较为关键的一步为患者症状信息的抽取,有鉴于此,本实施例中第一文本可以为病历文本中与病患的病情有关的句子。

步骤s102:将目标医学知识融入第一文本中,融入目标医学知识的文本作为第二文本。

具体的,将目标医学知识融入第一文本中的过程可以包括:将目标医学知识插入第一文本中。优选的,可在第一文本中与目标医学知识匹配的文本的后面插入目标医学知识。

示例性的,第一文本为“患者眼睛发炎伴左眼发红,来医院就诊”,假设与第一文本中“眼睛发炎”匹配的症状标准词为“眼部发炎”,与第一文本中“左眼发红”匹配的症状标准词为“左眼红”,则可在第一文本中“眼睛发炎”的后面插入“眼部发炎”,可在第一文本中“左眼发红”的后面插入“左眼红”,从而得到第二文本“患者眼睛发炎[眼部发炎]伴左眼发红[左眼红],来医院就诊”。

步骤s103:基于预先建立的症状信息抽取模型对第二文本进行症状信息的抽取,抽取出的症状信息作为第一文本对应的症状信息抽取结果。

本实施例在第一文本中融入目标医学知识的目的在于,为症状信息抽取模型添加先验知识,辅助症状信息抽取模型进行症状信息的抽取,以提高信息抽取的成功率和准确率。

其中,症状信息抽取模型以在训练文本中融入匹配的症状标准词后的文本为训练样本,以训练文本对应的症状信息为样本标签训练得到。

需要说明的是,训练文本对应的症状信息为症状标准词,基于症状信息抽取模型抽取出的症状信息也为症状标准词,症状标准词为标准的症状描述信息,可选的,标准的症状描述信息可以由方位词、部位和症状描述词三部分组成,比如“左侧大腿乏力”,其中,“左侧”为方位词,“大腿”为部位词,“乏力”为症状描述词。

需要说明的是,经由步骤s103抽取出的症状标准词可能为在第一文本融入的症状标准词,也可能不为在第一文本融入的症状标准词。

比如,第一文本为“患者左眼发炎,并伴有左眼发红”,与第一文本中“眼睛发炎”匹配的症状标准词为“左眼发炎”,与第一文本中“左眼发红”匹配的症状标准词为“左眼红”,在第一文本中融入症状标准词后得到的第二文本为“患者左眼发炎[左眼发炎],并伴有左眼发红[左眼红]”,基于症状信息抽取模型对第二文本进行症状信息抽取后得到的症状信息为症状标准词“左眼发炎”和“左眼红”。

再比如,第一文本为“患者左眼发炎,但未见左眼发红”,与第一文本中“眼睛发炎”匹配的症状标准词为“左眼发炎”,与第一文本中“左眼发红”匹配的症状标准词为“左眼红”,在第一文本中融入症状标准词后得到的第二文本为“患者左眼发炎[左眼发炎],并伴有左眼发红[左眼红]”,基于症状信息抽取模型对第二文本进行症状信息抽取后得到的症状信息为症状标准词“左眼发炎”。

本申请实施例提供的症状信息抽取方法,首先获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识,然后将目标医学知识融入第一文本中,融入目标医学知识的文本作为第二文本,最后基于预先建立的症状信息抽取模型对第二文本进行症状信息的抽取,以得到第一文本对应的症状信息抽取结果。经由本申请提供的症状信息抽取方法可从待抽取症状信息的病情文本中抽取出病患的症状信息,另外,经由本申请实施例提供的症状信息抽取方法能够直接抽取出症状标准词,而非第一文本中原始的症状描述信息,该方法避免了人工进行后处理规整操作,节省了人力成本和人工耗时。

第二实施例

本实施例对上述实施例中“步骤s101:获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识”的具体实现过程进行介绍。

获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识的实现方式有多种,本实施例提供如下三种可选的实现方式:

第一种实现方式:

预先构建包括症状标准词的医学知识库,在获得第一文本后,将第一文本中的内容与医学知识库中的症状标准词进行匹配,将与第一文本中的内容匹配的症状标准词作为目标医学知识。

考虑到多数情况下第一文本中的症状描述信息为非症状标准词,上述第一种实现方式的匹配成功率较低,即,经由上述第一种实现方式难以获得与第一文本中的内容匹配的症状标准词,有鉴于此,本实施例提供如下第二种实现方式:

预先构建包括症状标准词对应的症状同义词的医学知识库,在获得第一文本后,将第一文本中的内容与医学知识库中的症状同义词进行匹配,将与第一文本中的内容匹配的症状同义词对应的症状标准词作为目标医学知识。

虽然多数情况下第一文本中的症状描述信息大多为非症状标准词,但也不排除第一文本中的症状描述信息为症状标准词的情况,为了能够获得较高的匹配成功率,本实施例提供如下第三种实现方式:

预先构建包括症状标准词以及症状标准词对应的症状同义词的医学知识库,在获得第一文本中,从医学知识库中包含的症状词中获取与第一文本中的内容匹配的症状词,作为目标症状词,若目标症状词为症状标准词,则将目标症状词作为目标医学知识,若目标症状词为非症状标准词,则获取目标症状词对应的症状标准词,作为目标医学知识。

可选的,上述第三种实现方式中,医学知识库中症状标准词以及症状标准词对应的症状同义词可以如下形式(映射关系的形式)存储:

表1

需要说明的是,一个症状标准词对应的症状同义词可能为一个,也可能为多个。

经由上述实现方式可知,不管采用哪种实现方式,本质上都是将第一文本中的内容与医学知识库中的症状词(症状标准词,或者症状标准词对应的疾病同义词,或者症状标准词和症状标准词对应的疾病同义词)进行匹配,接下来对匹配过程进行介绍。

将第一文本中的内容与医学知识库中的症状词进行匹配,以得到与第一文本中的内容匹配的症状词的实现方式有多种,本实施例提供如下两种可选的实现方式:

第一种实现方式:以医学知识库中的症状词为基准,从医学知识库中查找与第一文本中的内容匹配的症状词。

具体的,针对医学知识库中的每个症状词,在第一文本中查找与该症状词匹配的文本内容,若查找到,则将该症状词作为与查找到的文本内容匹配的症状词,否则,确定第一文本中不存在与该症状词匹配的文本内容。

示例性的,第一文本为“患者眼睛发炎伴左眼发红”,医学知识库中包括{左眼发红,头部痛,左眼红,眼部发炎,…}:

针对医学知识库中的症状词“左眼发红”,在第一文本中查找与症状词“左眼发红”匹配的文本内容,经查找,第一文本中存在与症状词“左眼发红”匹配的文本内容“左眼发红”,则将症状词“左眼发红”作为与第一文本中的“左眼发红”匹配的症状词;针对医学知识库中的症状词“头部痛”,在第一文本中查找与症状词“头部痛”匹配的文本内容,经查找,第一文本中不存在与症状词“头部痛”匹配的文本内容;…,以此类推,最终会获得与第一文本中的内容匹配的所有症状词。

由于上述实现方式针对医学知识库中的每个症状词均需要在第一文本中查找匹配的文本内容,而医学知识库中的症状词往往数量较多,因此,整个过程耗时较长,查找效率不高,为了能够快速从医学知识库中查找到与第一文本中的内容匹配的症状词,本实施例提供如下第二种实现方式:

以第一文本为基准,采用字符匹配的方式递归地从医学知识库中查找匹配的症状词。具体的,基于第一文本中的字符,在医学知识库中进行一轮或多轮查找,每轮查找的过程包括:从第一文本中的第i个字符开始查找,从医学知识库中查找以第一文本中的第i个字符为首字符的症状词,若查找到,则从以第一文本中的第i个字符为首字符的症状词中查找以第一文本中的第i+1个字符为第2个字符的症状词,若查找到,则从查找到的以第一文本中的第i+1个字符为第2个字符的症状词中查找以第一文本中的第i+2个字符为第3个字符的症状词,以此类推。每轮的查找结果为空,或者为医学知识库中一个症状词。

示例性的,第一文本为“患者眼睛发炎伴左眼发红”:

从第一个字符“患”开始进行第一轮查找,具体的,从医学知识库中查找以“患”为首字符的症状词,经查找,医学知识库中不存在以“患”为首字符的症状词,此轮查找结束;从“者”开始第二轮查找,经查找,医学知识库中不存在以“患”为首字符的症状词,此轮查找结束;从“眼”开始第三轮查找,从医学知识库中查找以“眼”为首字符的症状词,经查找,医学知识库有以“眼”为首字符的症状词,比如{眼睛痛,眼睛发炎,眼睛肿胀,…},然后从以“眼”为首字符的症状词{眼睛痛,眼睛发炎,眼睛肿胀,…}中查找第二个字符为“睛”的症状词,经查找,以“睛”为第二个字符的症状词有{眼睛痛,眼睛发炎,眼睛肿胀,…},接下来在以“睛”为第二个字符的症状词{眼睛痛,眼睛发炎,眼睛肿胀,…}中查找以“发”为第三个字符的症状词,经查找,以“发”为第三个字符的症状词有{眼睛发炎,…},然后在以“发”为第三个字符的症状词{眼睛发炎,…}中查找以“炎”为第四个字符的症状词,最终找到症状词“眼睛发炎”,即,医学知识库中与第一文本中的“眼睛发炎”匹配的症状词为“眼睛发炎”;从“伴”开始进行第四轮查找,…。经过上述多轮查找,可找到与第一文本“患者眼睛发炎伴左眼发红”中的“眼睛发炎”和“左眼发红”分别匹配的症状词。

需要说明的是,上述递归的查找方式,通过不断的缩小查找范围,可以有效的降低查找所耗费的时长,极大的提升查找效率。

经由本实施例提供的实现过程可获得与待抽取症状信息的第一文本中的内容匹配的症状标准词。

第三实施例

本实施例对上述实施例中的“步骤s103:基于预先建立的症状信息抽取模型对第二文本进行症状信息的抽取,抽取出的症状信息作为第一文本对应的症状信息抽取结果”的具体实现过程进行介绍。

请参阅图2,示出了基于预先建立的症状信息抽取模型对第二文本进行症状信息的抽取的流程示意图,可以包括:

步骤s201:基于症状信息抽取模型对第二文本进行编码,得到第二文本的语义表征向量。

具体的,基于症状信息抽取模型对第二文本进行编码,得到第二文本的语义表征向量的过程包括:

步骤s2011:基于症状信息抽取模型对第二文本中的每个字符以及每个字符的位置信息进行编码,得到第二文本中每个字符对应的字符表征向量和位置表征向量。

具体的,如图3所示,症状信息抽取模型包括字符编码模块和位置编码模块,将第二文本中的每个字符输入症状信息抽取模型的字符编码模块,得到第二文本中每个字符对应的字符表征向量,将第二文本中的每个字符的位置信息输入症状信息抽取模型的位置编码模块,得到第二文本中的每个字符对应的位置表征向量。

需要说明的是,在自然语言理解任务中,字符的位置对于模型来说是非常重要的,因为字符的位置信息代表着文本的局部或全局结构,模型学习不到位置信息会导致其性能下降。上述实施例提到,第二文本为在第一文本中插入匹配的症状标准词后的文本,在第一文本中插入症状标准词会导致第一文本中字符位置错乱,而导致模型效果下降。

比如,第一文本为“患者眼睛发炎伴左眼发红,来医院就诊”,第一文本中各字符的位置信息为:

为了解决在第一文本中插入症状标准词给模型带来的不良影响,本实施例提供如下解决策略:

重新为第二文本中的各字符分配位置信息,使第二文本中的第一文本所包含的各字符的位置信息与原始的第一文本中各字符的位置信息相同,即,在第一文本中融入目标医学知识后,第一文本中字符的位置信息保持不变,融入的目标医学知识所包含字符的位置信息根据第一文本中匹配的文本所包含字符的位置信息确定。

按上述位置信息分配方式,在第一文本“患者眼睛发炎伴左眼发红,来医院就诊”中插入目标医学知识后,得到的第二文本的位置信息如下:

上述位置分配方式保持了原始第一文本中各字符的位置信息,这使得模型能够学习到原始第一文本的结构。

步骤s2012:基于症状信息抽取模型和第二文本中每个字符对应的字符表征向量和位置表征向量,确定第二文本的语义表征向量。

其中,第二文本的语义表征向量为能够表征第二文本的语义的向量。

具体的,症状信息抽取模型包括句子编码模块,在获得第二文本中每个字符对应的字符表征向量和位置表征向量后,将每个字符对应的字符表征向量与位置表征向量拼接,获得第二文本中每个字符对应的拼接向量,将第二文本中每个字符对应的拼接向量输入症状信息抽取模型的句子编码模块进行编码,得到第二文本的语义表征向量,如图3中由h1~hn组成的向量(n为第二文本中字符的数量)。

步骤s202:基于症状信息抽取模型构建能够表征第二文本中每个字符对应的噪声字符和/或非噪声字符的掩码矩阵。

本申请在第一文本中嵌入目标医学知识的目的是,为症状信息抽取模型增加先验知识,从而提升症状信息抽取模型的效果,然而,目标医学知识的引入会带来一些“知识噪声”,比如,第一文本为“头部痛且无力”,与“头部痛”匹配的症状标准词为“头痛”,与“无力”匹配的症状标准词为“乏力”,在第一文本中增加“头痛”和“乏力”可以辅助症状信息抽取模型对“头部痛”和“无力”做出准确的分析判断,但是,“头痛”对于“无力”属于噪声,同样的,“乏力”对于“头部痛”也属于噪声,噪声会影响症状信息抽取模型的语义理解,干扰症状信息抽取模型对于症状的判断,针对该问题,本申请提出如下解决策略:

构建能够表征第二文本中每个字符对应的噪声字符和/或非噪声字符的掩码矩阵,其中,一字符对应的噪声字符为对该字符在第二文本中的语义有干扰的字符,反之,一字符对应的非噪声字符为对该字符在第二文本中的语义无干扰的字符。在理解第二文本中每个字符在第二文本中的语义时,症状信息抽取模型基于掩码矩阵,能够将噪声字符滤除,而只关注到非噪声字符。

具体的,构建能够表征第二文本中每个字符对应的噪声字符和/或非噪声字符的掩码矩阵的过程可以包括:

步骤s2021:对于第二文本中的每个字符,执行:

步骤s2021-1a、若该字符为第一文本中的字符,且该字符不具有匹配的目标医学知识,则确定第一文本中的其它字符为该字符对应的非噪声字符。

步骤s2021-1b、若该字符为第一文本中的字符,且该字符具有匹配的目标医学知识,则确定第一文本中的其它字符以及与该字符匹配的目标医学知识所包含的各字符为该字符对应的非噪声字符。

步骤s2021-1c、若该字符为目标医学知识中的字符,则确定该字符所在的目标医学知识中的其它字符以及第一文本中与该字符所在的目标医学知识匹配的文本中的字符为该字符对应的非噪声字符。

步骤s2021-2、确定第二文本中除该字符和确定出的非噪声字符外的字符为该字符对应的噪声字符。

经由上述过程可确定出第二文本中每个字符对应的非噪声字符和噪声字符。

示例性的,第二文本为“头部痛[头痛]且无力[乏力]”:

对于第二文本中的第一个字符“头”,由于该字符为第一文本中的字符,且该字符具有匹配的症状标准词“头痛”,因此,第一文本中的其它字符“部”、“痛”、“且”、“无”、“力”为该字符对应的非噪声字符,且与该字符匹配的症状标准词“头痛”中的“头”和“痛”也为该字符对应的非噪声字符,而“乏”、“力”为该字符对应的噪声字符;

对于第二文本中的第二个字符“部”,由于该字符为第一文本中的字符,且该字符具有匹配的症状标准词“头痛”,则第一文本中的其它字符“头”、“痛”、“且”、“无”、“力”为该字符对应的非噪声字符,且与“部”匹配的症状标准词“头痛”中的“头”和“痛”也为该字符对应的非噪声字符,而“乏”、“力”为该字符对应的噪声字符;

对于第二文本中的第四个字符“头”,由于该字符为症状标准词“头痛”中的字符,因此,症状标准词“头痛”中的其它字符“痛”以及第一文本中与状标准词“头痛”匹配的“头部痛”中的“头”、“部”、“痛”为该字符对应的非噪声字符,“且”、“无”、“力”、“乏”、“力”为该字符对应的噪声字符;

对于第二文本中的第十个字符“力”,由于该字符为症状标准词“乏力”中的字符,因此,症状标准词“乏力”中的其它字符“乏”以及第一文本中与症状标准词“乏力”匹配的“无力”中的“无”、“力”为该字符对应的非噪声字符,其它字符“头”、“部”、“痛”、“头”、“痛”、“且”为该字符对应的噪声字符。

步骤s2022、根据第二文本中每个字符对应的非噪声字符和噪声字符,构建掩模矩阵。

假设一个字符对应的噪声字符用“-∞”表示,一个字符对应的非噪声字符用“0”表示,掩码矩阵用矩阵表示,则根据第二文本“头部痛[头痛]且无力[乏力]”中每个字符对应的非噪声字符和噪声字符,构建的掩模矩阵m如下所示:

步骤s203:基于症状信息抽取模型、第二文本的语义表征向量和掩模矩阵,确定症状信息。

具体的,基于症状信息抽取模型、第二文本的语义表征向量和掩模矩阵,确定症状信息的过程可以包括:

步骤s2031、基于症状信息抽取模型、第二文本的语义表征向量和掩码矩阵,确定第二文本中各字符分别对应的上下文向量。

本实施例中的症状信息抽取模型包括注意力模块,注意力模块根据语义表征向量和掩码矩阵,确定第二文本对应的上下文向量,以得到第二文本中各字符分别对应的上下文向量。如3中的t1~tn为第二文本中n个字符分别对应的上下文向量。

具体的,注意力模块通过下式计算第二文本对应的上下文向量:

其中,q,k,v为第二文本的语义表征向量,m为掩码矩阵。

需要说明的是,第二文本中任一字符对应的上下文向量能够表征该字符与第二文本中该字符对应的非噪声字符的相关程度。症状信息抽取模型的注意力模型在进行注意力计算时,根据掩码矩阵获知第二文本中每个字符对应的非噪声字符,从而使每个字符只与其对应的非噪声字符交互。

步骤s2032、基于症状信息抽取模型和第二文本中每个字符对应的上下文向量,确定症状信息。

经由s2032确定出的症状信息为症状标准词,如图3中的“左髋部麻木”和“左髋部渗血”,而非第一文本中的原始症状信息。

经由步骤s2032确定的症状信息即为第一文本对应的症状信息抽取结果。

第四实施例

本实施例对构建症状抽取模型的过程进行介绍。

请参阅图4,示出了构建症状抽取模型的流程示意图,可以包括:

步骤s401:获取训练文本以及训练文本对应的真实症状信息。

其中,训练文本为原始的病情文本,训练文本对应的真实症状信息为症状标准词。

步骤s402:获取与训练文本中的内容匹配的症状标准词,作为目标医学知识。

“获取与训练文本中的内容匹配的症状标准词”的实现过程与上述“获取与第一文本中的内容匹配的症状标准词”的实现过程类似,本实施例在此不作赘述。

步骤s403:将目标医学知识融入训练文本,得到的文本作为症状信息抽取模型的训练样本。

“将目标医学知识融入训练文本”的实现过程与上述“将目标医学知识融入第一文本”的实现过程类似,本实施例在此不作赘述。

步骤s404:基于症状信息抽取模型对训练样本进行症状信息的抽取,得到抽取出的症状信息。

“基于症状信息抽取模型对训练样本进行症状信息的抽取”的实现过程与上述“基于预先建立的症状信息抽取模型对第二文本进行症状信息的抽取”的实现过程类似,本实施例在此不作赘述。

步骤s405:基于抽取出的症状信息和训练文本对应的真实症状信息,确定症状信息抽取模型的预测损失。

步骤s406:基于症状信息抽取模型的预测损失,对症状信息抽取模型的参数进行更新。

按上述过程对症状信息抽取模型进行多次迭代训练,直至满足训练结束条件,训练结束后得到的模型即为构建出的症状信息抽取模型。

利用经由上述方式构建出的症状信息抽取模型对输入文本进行症状信息抽取,可获得较为准确的症状标准词。

第五实施例

本申请实施例还提供了一种症状信息抽取装置,下面对本申请实施例提供的症状信息抽取装置进行描述,下文描述的症状信息抽取装置与上文描述的症状信息抽取方法可相互对应参照。

请参阅图5,示出了本申请实施例提供的症状信息抽取装置的结构示意图,可以包括:医学知识获取模块501、医学知识融入模块502和症状信息抽取模块503。

医学知识获取模块501,用于获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识。

医学知识融入模块502,用于将所述目标医学知识融入所述第一文本中,融入所述目标医学知识的文本作为第二文本。

症状信息获取模块503,用于基于预先建立的症状信息抽取模型对所述第二文本进行症状信息抽取,抽取出的症状信息作为所述第一文本对应的症状信息抽取结果。

其中,所述症状信息抽取模型以在训练文本中融入匹配的症状标准词后的文本为训练样本,以所述训练文本对应的症状信息为样本标签训练得到。

可选的,医学知识获取模块501,具体用于从包含症状词的医学知识库中获取与所述第一文本中的内容匹配的症状词,作为目标症状词,若所述目标症状词为症状标准词,则将所述目标症状词作为所述目标医学知识,若所述目标症状词为非症状标准词,则获取所述目标症状词对应的症状标准词,作为所述目标医学知识。

可选的,医学知识融入模块502,具体用于在所述第一文本中与所述目标医学知识匹配的文本的后面插入所述目标医学知识。

可选的,症状信息抽取模块503,具体用于基于所述症状信息抽取模型对所述第二文本进行编码,得到所述第二文本的语义表征向量,基于所述症状信息抽取模型,构建能够表征所述第二文本中每个字符对应的噪声字符和/或非噪声字符的掩码矩阵,基于所述症状信息抽取模型、所述第二文本的语义表征向量和所述掩码矩阵,确定症状信息。其中,所述噪声字符为对对应的字符在所述第二文本中的语义有干扰的字符

可选的,症状信息抽取模块503在基于所述症状信息抽取模型、所述第二文本的语义表征向量和所述掩码矩阵,确定症状信息时,具体用于基于所述症状信息抽取模型、所述第二文本的语义表征向量和所述掩码矩阵,确定所述第二文本中每个字符对应的上下文向量,基于所述症状信息抽取模型和所述第二文本中每个字符对应的上下文向量,确定症状信息。其中,一个字符对应的上下文向量能够表征该字符与所述第二文本中该字符对应的非噪声字符的相关程度;

可选的,症状信息抽取模块503在构建能够表征所述第二文本中每个字符对应的噪声字符和/或非噪声字符的掩码矩阵时,具体用于:

对于所述第二文本中的每个字符:若该字符为所述第一文本中的字符,且该字符不具有匹配的目标医学知识,则确定所述第一文本中的其它字符为该字符对应的非噪声字符;若该字符为所述第一文本中的字符,且该字符具有匹配的目标医学知识,则确定所述第一文本中的其他字符以及与该字符匹配的目标医学知识所包含的字符为该字符对应的非噪声字符;若该字符为所述目标医学知识中的字符,则确定该字符所在的目标医学知识中的其它字符以及所述第一文本中与该字符所在的目标医学知识匹配的文本中的字符为该字符对应的非噪声字符;确定所述第二文本中除该字符和确定出的非噪声字符外的字符为该字符对应的噪声字符;根据所述第二文本中每个字符对应的非噪声字符和噪声字符,构建掩码矩阵。

可选的,所述第一文本中的每个字符具有位置信息,在所述第一文本中融入所述目标医学知识后,所述第一文本中字符的位置信息不变,融入的所述目标医学知识所包含字符的位置信息根据所述第一文本中匹配的文本所包含字符的位置信息确定。

症状信息抽取模块503在基于所述症状信息抽取模型对所述第二文本进行编码,得到所述第二文本的语义表征向量时,具体用于基于所述症状信息抽取模型对所述第二文本中的每个字符以及每个字符的位置信息进行编码,得到所述第二文本中每个字符对应的字符表征向量和位置表征向量,基于所述症状信息抽取模型和所述第二文本中每个字符对应的字符表征向量和位置表征向量,确定所述第二文本的语义表征向量。

本申请实施例提供的症状信息抽取装置,首先获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识,然后将目标医学知识融入第一文本中,融入目标医学知识的文本作为第二文本,最后基于预先建立的症状信息抽取模型对第二文本进行症状信息的抽取,以得到第一文本对应的症状信息抽取结果。经由本申请提供的症状信息抽取装置可从待抽取症状信息的病情文本中抽取出病患的症状信息,另外,经由本申请实施例提供的症状信息抽取装置能够直接抽取出症状标准词,而非第一文本中原始的症状描述信息,该方法避免了人工进行后处理规整操作,节省了人力成本和人工耗时。

第六实施例

本申请实施例还提供了一种症状信息抽取设备,请参阅图6,示出了该症状信息抽取设备的结构示意图,该症状信息抽取设备可以包括:至少一个处理器601,至少一个通信接口602,至少一个存储器603和至少一个通信总线604;

在本申请实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;

处理器601可能是一个中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器603可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识;

将所述目标医学知识融入所述第一文本中,融入所述目标医学知识的文本作为第二文本;

基于预先建立的症状信息抽取模型对所述第二文本进行症状信息的抽取,抽取出的症状信息作为所述第一文本对应的症状信息抽取结果;

其中,所述症状信息抽取模型以在训练文本中融入匹配的症状标准词后的文本为训练样本,以所述训练文本对应的症状信息为样本标签训练得到。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

第七实施例

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:

获取与待抽取症状信息的第一文本中的内容匹配的症状标准词,作为目标医学知识;

将所述目标医学知识融入所述第一文本中,融入所述目标医学知识的文本作为第二文本;

基于预先建立的症状信息抽取模型对所述第二文本进行症状信息的抽取,抽取出的症状信息作为所述第一文本对应的症状信息抽取结果;

其中,所述症状信息抽取模型以在训练文本中融入匹配的症状标准词后的文本为训练样本,以所述训练文本对应的症状信息为样本标签训练得到。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1