医学实体对齐方法及装置与流程

文档序号:29046944发布日期:2022-02-25 22:21阅读:来源:国知局

技术特征:
1.一种医学实体对齐方法,其特征在于,包括:获取待处理的目标医学实体和预设的标准医学实体数据集;确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度;确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度;基于所述文本结构相似度与所述语义相似度,确定所述文本结构相似度的权重系数和所述语义相似度的权重系数;基于所述文本结构相似度的权重系数、所述语义相似度的权重系数分别对所述文本结构相似度、所述语义相似度进行加权,确定所述目标医学实体与各标准医学实体之间的目标相似度,以根据所述目标相似度从所述标准医学实体数据集中确定与所述目标医学实体匹配的标准医学实体。2.如权利要求1所述的方法,其特征在于,所述确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度,包括:将所述标准医学实体输入预训练的词向量模型进行处理,生成所述标准医学实体的标准词向量;将所述目标医学实体输入所述词向量模型进行处理,生成所述目标医学实体的词向量;基于所述标准词向量和所述目标医学实体的词向量之间的相似度,确定所述语义相似度;所述将所述目标医学实体输入所述词向量模型进行处理,生成所述目标医学实体的词向量,包括:将所述目标医学实体输入word2vec模型进行处理,生成所述目标医学实体的第一词向量;将所述目标医学实体输入bert模型进行处理,生成所述目标医学实体的第二词向量;所述基于所述标准词向量和所述目标医学实体的词向量之间的相似度,确定所述语义相似度,包括:基于所述标准词向量和所述第一词向量,确定所述目标医学实体与标准医学实体之间的第一语义相似度;基于所述标准词向量和所述第二词向量,确定所述目标医学实体与标准医学实体之间的第二语义相似度。3.如权利要求1所述的方法,其特征在于,所述确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度,包括:对于每个标准医学实体,确定所述目标医学实体与该标准医学实体之间的最小编辑距离;基于所述最小编辑距离,确定所述目标医学实体与该标准医学实体之间的文本结构相似度,其中,所述最小编辑距离与所述文本结构相似度成反比。4.如权利要求2所述的方法,其特征在于,所述基于所述文本结构相似度与所述语义相似度,确定所述文本结构相似度的权重系数和所述语义相似度的权重系数,包括:
若所述第一语义相似度和所述第二语义相似度中的最小值大于所述文本结构相似度,且所述最小值大于第一阈值,则确定所述文本结构相似度的权重系数为0,并采用softmax公式确定所述第一语义相似度的权重系数和所述第二语义相似度的权重系数;若所述文本结构相似度大于所述第一语义相似度和所述第二语义相似度中的最大值,且所述文本结构相似度大于第二阈值、所述最大值小于所述第二阈值,则确定所述第一语义相似度的权重系数和所述第二语义相似度的权重系数均为0、所述文本结构相似度的权重系数为1;否则,采用softmax公式确定所述第一语义相似度的权重系数、所述第二语义相似度的权重系数和所述文本结构相似度的权重系数。5.如权利要求4所述的方法,其特征在于,所述第一语义相似度的权重系数、所述第二语义相似度的权重系数和所述文本结构相似度的权重系数之和为1。6.一种医学实体对齐装置,其特征在于,包括:获取模块,用于获取待处理的目标医学实体和预设的标准医学实体数据集;第一确定模块,用于确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度;第二确定模块,用于确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度;第三确定模块,用于基于所述文本结构相似度与所述语义相似度,确定所述文本结构相似度的权重系数和所述语义相似度的权重系数;匹配模块,用于基于所述文本结构相似度的权重系数、所述语义相似度的权重系数分别对所述文本结构相似度、所述语义相似度进行加权,确定所述目标医学实体与各标准医学实体之间的目标相似度,以根据所述目标相似度从所述标准医学实体数据集中确定与所述目标医学实体匹配的标准医学实体。7.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-5中任一所述的医学实体对齐方法。8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-5中任一所述的医学实体对齐方法。

技术总结
本公开涉及一种医学实体对齐方法及装置,其中,方法包括:确定目标医学实体与标准医学实体数据集中的每个标准医学实体之间的语义相似度和文本结构相似度;基于文本结构相似度与语义相似度,确定文本结构相似度的权重系数和语义相似度的权重系数;基于权重系数分别对文本结构相似度、语义相似度进行加权,确定目标医学实体与各标准医学实体之间的目标相似度,以根据目标相似度从所述标准医学实体数据集中确定与目标医学实体匹配的标准医学实体。根据本公开的技术方案能够提高医学实体对齐的准确度。的准确度。的准确度。


技术研发人员:李瑞瑞 吉龙 赵伟
受保护的技术使用者:北京富通东方科技有限公司
技术研发日:2021.11.25
技术公布日:2022/2/24
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1