一种从电子病历抽取关键信息用于Caprini量表的自动评估方法与流程

文档序号:33124754发布日期:2023-02-01 04:46阅读:48来源:国知局
一种从电子病历抽取关键信息用于Caprini量表的自动评估方法与流程
一种从电子病历抽取关键信息用于caprini量表的自动评估方法
技术领域
1.本发明涉及一种从电子病历抽取关键信息用于caprini量表的自动评估方法,属于自然语言处理领域。


背景技术:

2.随着人工智能技术的发展,有研究学者使用人工智能技术对vet风险进行智能评估,有的人把vte风险等级分成5个类别,从caprini评估量表中提取出35个风险因素,把35个危险因素输入到多层感知机前馈神经网络中来预测住院患者的vet风险等级。有的人在知识表示和逻辑推理的基础上辅以基于案例推理的方法来开发一个vte诊断决策支持系统。有的人提出一种基于本体的静脉血栓栓塞症的评估模型,构建一个本体集包括症状、诊断、药物、手术等全面信息,使用基于规则和贪心匹配的方法从电子病历中抽取出危险因素,最后再用机器学习的方法进行一个风险等级的判断。
3.可以发现目前的vte智能评估方法虽然使用人工智能的技术,但是风险因素的获得仍然依靠医护人员进行提取,医护人员的工作负担并没有得到很好的解放。电子病历作为珍贵份医疗资源,其中记录了患者就医过程的各种信息,我们可以使用信息抽取的方法从中抽取出与caprini量表的关键信息,用于vte的智能评估。
4.目前信息抽取根据做法的不同,可以分为流水线抽取和联合抽取两种。基于流水线的实体关系抽取将实体识别和关系抽取分为两个独立的子任务,先进行命名实体的识别,然后在实体的基础上进行关系抽取。流水线方式的虽然构造简单,但是实体识别的误差会传递到关系抽取模型中,导致最终效果不好。为了克服这个问题,有学者提出了实体关系联合抽取的模型。联合抽取的方式是指使用一个模型从文本中识别出实体和关系。联合抽取模型又分为基于参数共享和标注策略两种方式。基于参数共享的方法是让两个任务通过同一编码层并让两个任务在训练中找到最好的参数。标注策略的方法缺少了实体与关系的交互信息。
5.现在医疗的实体多数为嵌套实体,同时实体之间可能存在关系重叠的问题。


技术实现要素:

6.鉴于现有技术中的上述缺陷或不足,本发明提供一种从电子病历抽取关键信息用于caprini量表的自动评估方法,
7.本发明的技术方案是:一种从电子病历抽取关键信息用于caprini量表的自动评估方法,包括如下:
8.step1、根据caprini评估量表定义新的实体和关系类型,获取原始的电子病历数据,根据电子病历中关键信息的密度进行筛选,对筛选出来的电子病历先进行数据清洗后再标注实体和关系;
9.step2、对标注好的电子病历进行处理,分别读取标注文件和文本文件,根据固定
长度滑窗切分句子,获取句子的实体和关系的信息,再把每一个句子按字进行分词,生成输入模型的数据;
10.step3、构建联合抽取模型,通过其内的词向量的词嵌入层、实体长度嵌入层以及实体类型嵌入层分别获取实体的词向量、实体的长度特征向量、实体类型特征向量,对实体的词向量进行最大池化得到实体特征向量;通过联合抽取模型的实体识别模块在句子中识别出实体,再通过实体特征向量、长度特征向量、实体类型特征向量以及两个实体之间的关系向量进行关系分类;
11.step4、把抽取出来的实体和关系信息和caprini量表中每一项进行对比判断,实现caprini量表的自动评估。
12.作为本发明的进一步方案,所述step1中,定义用于抽取关键信息的实体和关系类型;定义实体类型,用于标注实体信息;定义关系类型,用于标注关系信息,根据电子病历中关键信息的密度进行筛选,选取其中关键信息多的电子病历;数据清洗是对异常值、缺失值的数据进行删除,使用正则表达式的方式对其中的特殊符号进行删除、
13.作为本发明的进一步方案,所述step2中包括:对标注好的电子病历进行处理,包括对电子病历的句子按照固定长度滑窗切分句子,从标注文件中获取相应的实体和关系信息,再把句子按字进行分词,生成输入模型需要的数据格式。
14.作为本发明的进一步方案,所述step3的具体步骤如下:
15.step3.1.对输入联合抽取模型的数据,计算每个实体的长度以及实体的开始位置和结束位置,根据给定的最大实体长度构建负样本实体;
16.step3.2.对输入联合抽取模型的数据的句子通过中文预训练模型bert词嵌入层获取词向量,对实体的长度进行特征嵌入生成长度特征向量;
17.step3.3.构建联合抽取模型的实体识别模块:实体识别模块用于根据实体的开始和结束位置,对实体的词向量进行最大池化得到实体特征向量,把池化后的实体特征向量拼接上实体长度特征向量进行实体识别;
18.step3.4.构建关系抽取模块的关系抽取模块:关系抽取模块用于实现如下功能:
19.把上一步识别的实体进行实体类型嵌入,得到实体类型特征向量,再把每一个实体对应的实体特征向量、长度特征向量、实体类型特征向量进行拼接;
20.再把每一个实体对应的实体特征向量、长度特征向量、实体类型特征向量拼接,把任意两个实体之间的词向量进行最大池化,再把最大池化后的结果拼接到该任意两个实体分别对应的实体特征向量、长度特征向量、实体类型特征向量拼接后的结果之间得到两个实体之间的关系向量,根据此关系向量进行关系分类;
21.step3.5.计算实体识别损失和关系抽取损失,在反向传递过程中寻找实体识别模型和关系抽取模块的最佳参数,得到训练好的联合抽取模型。
22.作为本发明的进一步方案,所述step4中,把抽取出来的实体和关系信息和caprini量表中每一项进行对比判断是否命中,把命中的项计算风险得分,根据得分判断caprini量表的风险等级。
23.本发明的有益效果是:
24.1、本发明能实现从电子病历中抽取关键信息用于caprini量表自动评估的问题;
25.2、本发明提出的实体识别模块,对实体词向量进行最大池化,对实体长度进行特
征嵌入,提高了实体识别效果;关系分类时加入了实体特征向量、长度特征向量、实体类型特征向量和两个实体之间的词向量进行最大池化的结果,提高了关系抽取的效果;最后把抽取的信息应用在caprini评估,经过与医生评估结果比对,达到了75.84%的准确率。
附图说明
26.图1为本发明实施例中数据标注界面示意图;
27.图2为本发明实施例中数据处理过程;
28.图3为本发明实施例中模型处理流程。
具体实施方式
29.实施例1:如图1-图3所示,一种从电子病历抽取关键信息用于caprini量表的自动评估方法,包括如下:
30.step1、首先根据caprini评估量表定义新的实体和关系类型,获取原始的电子病历数据,根据电子病历中关键信息的密度进行筛选,对筛选出来的电子病历先进行数据清洗后再用brat软件进行标注实体和关系,如图1所示。
31.定义的实体类型详细如表1所示:
32.表1为实体类型
33.实体名称说明body身体部位disease疾病名称drug药物名称method用药方法operation手术名称pasthistory既往史result检查结果symptom症状test检查项目名称time用于疾病和手术的时间treatment非药物治疗value生化检验的数值
34.定义关系类型,详细如表2所示:
35.表2为关系类型
36.关系名称说明body-symptom身体部位的症状method-drug用药方法test-result检查项目的结果test-value生化检验项目的数值time-disease疾病诊断的时间time-operation开始手术的时间
37.所述step1中,定义用于抽取关键信息的实体和关系类型;定义实体类型,用于标注实体信息;定义关系类型,用于标注关系信息,根据电子病历中关键信息的密度进行筛选,选取其中关键信息多的电子病历;数据清洗是对异常值、缺失值的数据进行删除,使用正则表达式的方式对其中的特殊符号进行删除;
38.step2、对标注好的电子病历进行处理,分别读取标注文件和文本文件,根据固定长度滑窗切分句子,获取句子的实体和关系的信息,再把每一个句子按字进行分词,生成输入模型的数据;其中,对标注好的电子病历进行处理,包括对电子病历的句子按照固定长度滑窗切分句子,从标注文件中获取相应的实体和关系信息,再把句子按字进行分词,生成输入模型需要的数据格式。
39.作为本发明的进一步方案,所述step2的具体步骤如下:
40.同时读入含有实体和关系信息的标注文件和文本文件,首先根据给定的长度,在长句子中进行滑窗切分句子,滑窗大小为50,在切分句子过程中判断是否破坏实体以及关系,对于破坏实体和关系的调节滑窗大小,使得实体和关系在同一个句子中。最后对句子进行按字分词,流程如图2所示。
41.进一步地,step3中,具体步骤如下:
42.step3.1.对输入联合抽取模型的数据,计算每个实体的长度以及实体的开始位置和结束位置,根据给定的最大实体长度构建负样本实体;
43.step3.2.对输入联合抽取模型的数据的句子通过中文预训练模型bert词嵌入层获取词向量,对实体的长度进行特征嵌入生成长度特征向量;
44.step3.3.构建联合抽取模型的实体识别模块:实体识别模块用于根据实体的开始和结束位置,对实体的词向量进行最大池化得到实体特征向量,把池化后的实体特征向量拼接上实体长度特征向量进行实体识别;
45.step3.4.构建关系抽取模块的关系抽取模块:关系抽取模块用于实现如下功能:
46.把上一步识别的实体进行实体类型嵌入,得到实体类型特征向量,再把每一个实体对应的实体特征向量、长度特征向量、实体类型特征向量进行拼接;
47.再把每一个实体对应的实体特征向量、长度特征向量、实体类型特征向量拼接,把任意两个实体如实体a、实体b之间的词向量进行最大池化,再把最大池化后的结果拼接到实体a对应的实体特征向量、长度特征向量、实体类型特征向量拼接后的结果、实体分别对应的实体特征向量、长度特征向量、实体类型特征向量拼接后的结果之间,得到两个实体之间的关系向量,根据此关系向量进行关系分类;
48.step3.5.计算实体识别损失和关系抽取损失,在反向传递过程中寻找实体识别模型和关系抽取模块的最佳参数,得到训练好的联合抽取模型。
49.step3.6.计算模型抽取效果,模型评价指标使用准确率(precision)、召回率(recall)和f1值。
50.精确率(precision):表示正确预测为正的样本占全部预测为正的样本的比例。
51.召回率(recall):表示正确预测为正的样本占实际为正的样本的比例。
52.f1:表示在精确率和召回率之间的一个平衡指标。
53.表3模型效果对比
[0054][0055]
由表3可以看出,本发明在实体识别和关系抽取的效果上达到91%和93%。其中现有的模型采用的是在联合抽取模型上只融入位置编码,在原来词向量的基础上增加了相对位置信息的抽取方式;
[0056]
作为本发明的进一步方案,所述step4中,把抽取出来的实体和关系信息和caprini量表中每一项进行对比判断是否命中,把命中的项计算风险得分,根据得分判断caprini量表的风险等级。
[0057]
把经过医生评估的16687个患者关于caprini量表评估的数据来验证本发明的方法,其中有被正确分类的有12656个,准确率达到75.84%。
[0058]
本发明提出实体识别模块,对实体词向量进行最大池化,对实体长度进行特征嵌入,提高了实体识别效果,在表3中可以看出提高了2%。关系分类时加入了实体特征向量、长度特征向量、实体类型特征向量和两个实体之间的词向量进行最大池化的结果,提高了关系抽取的效果,在表3中可以看出提高了0.7%。最后把抽取的信息应用在caprini评估,经过与医生评估结果比对,达到了75.84%的准确率。
[0059]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1