一种融合交叉知识注意力的电子病历相似检索方法与流程

文档序号：30233117发布日期：2022-06-01 06:41阅读：来源：国知局

技术特征：
1.一种融合交叉知识注意力的电子病历相似检索方法，其特征在于，包括如下步骤：a)数据处理：将输入电子病历文本s0和n个电子病历判断文本{s1,s2,...,s
n
}，设定最大字符长度为l，将输入电子病历文本中文本长度超过l的部分截掉，不足的部分进行特定字符补全，其中l及n均为正整数；b)实体标记获取：利用现有实体库或利用神经网络模型抽取实体信息的方式进行实体标记；c)将电子病历文本s0及n个电子病历判断文本{s1,s2,...,s
n
}的构成的电子病历文本集合{s0,s1,s2,...,s
n
}经步骤b)中实体标记后得到文本实体标签信息；d)知识模型构建：将实体标记与电子病历文本s0、n个电子病历判断文本{s1,s2,...,s
n
}中原始字符进行拼接，拼接后一同输入到知识模型，输出文本集合{s1,s2,...,s
n
}中每一个文本相较于s0的相似度概率值；e)设定最大返回数量m，从n个电子病历判断文本{s1,s2,...,s
n
}内输出m条s0的相似文本序列，相似程度依次递减，其中m≤n。2.根据权利要求1所述的融合交叉知识注意力的电子病历相似检索方法，其特征在于：步骤a)中通过padding填充法对不足的部分进行补全。3.根据权利要求1所述的融合交叉知识注意力的电子病历相似检索方法，其特征在于：步骤a)中l的取值为250。4.根据权利要求1所述的融合交叉知识注意力的电子病历相似检索方法，其特征在于：步骤b)中现有的实体库为cmekg实体库、中文症状库。5.根据权利要求1所述的融合交叉知识注意力的电子病历相似检索方法，其特征在于,步骤c)包括如下步骤：d-1)将电子病历文本s0与一电子病历判断文本s
i
，(i＝1,...,n)输入到预训练语言模型，分别生成文本嵌入表示v0∈r
l
×
e
及v
i
∈r
l
×
e
，其中e为预训练语言模型的输出维度，r为实数空间；d-2)通过公式利用步骤c)中获得的文本实体标签信息的实体集合表示为e
n
＝{ent0,ent1,...,ent
k
}，k为文本集合{s0,s1,s2,...,s
n
}中最大实体数量，通过公式计算得到文本s
i
中的第j个单字w
i,j
与实体ent
k
之间的距离distance(w
i,j
,ent
k
)，得到文本s
i
中每个字的实体位置，其中j≤l，如w
i,j
∈ent
k
，w
i,j
与ent
k
之间距离为0，根据实体位置的最大数量entity_size初始化词嵌入权重矩阵，初始化权重矩阵维度为r
entity_size
×
e
的实体位置嵌入层entity_embedding，根据公式b
i
＝entity_embedding(s
i
)得到文本s
i
的实体位置嵌入b
i
，根据公式b0＝entity_embedding(s0)得到文本s0的实体位置嵌入b0，b
i
∈r
l
×
e
，b0∈r
l
×
e
；d-3)实体ent
j
中包含n
j
个单字符，其在文本s
i
中的位置为(l,l+n
j-1)，l为实体ent
j
在文本s
i
中的起始位置，在v
i
中截取经meanpooling层，通过公式ent
i,j
＝meanpooling(v
i
[l:l+n
j-1])∈r
e
计算得到文本实体嵌入ent
i,j
，通过公式p
i
＝{ent
i,1
；ent
i,2
；...；ent
i,k
}∈r
k
×
e
将k个实体嵌入进行拼接，得到整体文本的实体嵌入p
i
，通过公式ent
0,j
＝meanpooling(v0[l:l+n
j-1])∈r
e
计算得到实体嵌入ent
0,j
，通过公式p0＝{ent
0,1
；
ent
0,2
；...；ent
0,k
}∈r
k
×
e
将k个实体嵌入进行拼接，得到整体实体嵌入p0；d-4)通过公式将文本嵌入v0、文本嵌入v
i
、实体位置嵌入b0、实体位置嵌入b
i
、实体嵌入p0及实体嵌入p
i
进行拼接，输出维度v0∈r
(2l+k)
×
e
，v
i
∈r
(2l+k)
×
e
；d-5)将步骤d-4)中得到的v0与v
i
经过一层mlp网络进行维度变换后输出向量维度为v0∈r
(2l+k)
×
3e
，v
i
∈r
(2l+k)
×
3e
；d-6)构建交叉知识注意力网络，将v0∈r
(2l+k)
×
3e
，v
i
∈r
(2l+k)
×
3e
通过多头注意力机制处理后分别得到v0的交叉注意力表示crossattention(v0)∈r
(2l+k)
×
e
以及v
i
的交叉注意力表示crossattention(v
i
)∈r
(2l+k)
×
e
，crossattention(v0)∈r
(2l+k)
×
e
表示为a0，crossattention(v
i
)∈r
(2l+k)
×
e
表示为a
i
；d-7)将交叉注意力表示a0及a
i
导入transformer层；d-8)将步骤d-7)的输出在句长length维度分别进行maxpooling和meanpooling操作，得到将将四个张量进行拼接，输出维度出维度d-9)对步骤d-6)中交叉知识注意力网络采用随机梯度下降法，利用交叉熵损失函数进行逐步训练。6.根据权利要求5所述的融合交叉知识注意力的电子病历相似检索方法，其特征在于：步骤d-9)中训练时，通过两层mlp网络层，中间层激活函数使用relu激活函数，最后一层网络使用softmax激活函数，通过公式交叉熵函数l，y
i
为文本的真实标签，为模型预测出的标签数值，n为全部样本的数量。

技术总结
一种融合交叉知识注意力的电子病历相似检索方法，利用知识注意力的相互交叉的方式，提供了电子病历文本间知识信息传递的一种有效模式。知识信息来源两部分，一是文本内的实体信息，二是实体位置信息。电子病历中的实体是作为整体发挥作用的，传统方法只考虑实体内单字的作用，缺乏实体的整体交互作用，知识注意力机制可以很好的刻画实体间的相互关系，交互模式为文本间知识信息传递提供了通道，能够在多文本相似度量方面给出有效评估。在给定原始电子病历文本、若干个判断文本及相似文本标签的情况下，提高了电子病历文本间相似检索精度。度。

技术研发人员：樊昭磊吴军何彬彬张伯政张述睿
受保护的技术使用者：山东众阳健康科技集团有限公司
技术研发日：2020.12.07
技术公布日：2022/5/31

完整全部详细技术资料下载

当前第2页1 2