医学实体对齐方法及装置与流程

文档序号:29046944发布日期:2022-02-25 22:21阅读:200来源:国知局
医学实体对齐方法及装置与流程

1.本公开涉及数据处理技术领域,尤其涉及一种医学实体对齐方法及装置。


背景技术:

2.在海量电子医疗信息中,对于同一医学实体存在不同的称谓方式,多种多样的称谓方式为医疗领域的本体构建和知识图谱的构建带来了阻碍。因此,需要将多称谓的医学实体映射到标准的术语中,实现融合利用多源数据知识。
3.目前,医学实体对齐的方法包括相同字符数、莱文斯坦距离、jaro距离、汉明距离、统计语言模型、n-gram模型、主题模型、基于实体属性标签的实体对齐方法等,然而实际应用中的医学实体词汇多种多样,基于单一方法进行医学实体对齐的准确度有待提高。
4.申请公布号为cn112948599a,名称为“一种基于医学知识图谱的路径推理的疾病诊断方法”的专利中,公开了采用levenshtein距离、相同字符比和语义向量距离的加权和作为实体相似度得分来进行实体对齐的技术方案,但该方案中所采用的距离计算方法仅能得到粗略的相似度结果,准确度仍具有提升空间。
5.申请公布号为cn113204710a,名称为“一种舆情分析方法、装置、终端设备及存储介质”的发明专利,公开了获取舆情信息的竞争力指标;若预存的多个标准指标中不包括竞争力指标,计算竞争力指标与每个标准指标的语义相似度;在语义相似度均小于第一预设阈值时,基于语义相似度,从标准指标中筛选出候选指标;计算候选指标和竞争力指标的字面相似度;若字面相似度中存在大于第二预设阈值的字面相似度,则将大于第二预设阈值的字面相似度中的最大值对应的候选指标作为与竞争力指标相匹配的标准指标的技术方案,但该方案是查询与语句中的关键词相近的标准词并替换,以降低舆情分析工作的数据量,应用场景有限。
6.申请公布号为cn111581960a,名称为“一种获取医学文本语义相似度的方法”的发明专利公开了计算基于医学文本之间三种不同特征的相似度;用回归模型学习基于不同特征的三种相似度在医学文本之间最终的相似度的权重,再用线性模型结合所述的三种相似度计算出最终的相似度的技术方案,但该方案需要提取与处理三种不同类型的文本特征,虽然能有效提升准确率但运算量过大,对运算设备有较高要求。
7.申请公布号为cn110674378a,名称为“基于余弦相似度和最小编辑距离的中文语义识别方法”的发明专利,公开了s5、结合语料知识库对中文语句进行中文分词,针对两段中文语义进行中文分词,将完整的中文语义分解为一个个单一的词语,根据配置的语义匹配规则对中文分词进行替换操作,计算词语出现的频率,针对两段中文语义分别构建两个词频向量,根据余弦相似度算法得出中文文字语义匹配率的数值;s6、中文拼音相似度计算:将中文文字转换为汉语拼音,根据拼音长度建立矩阵,按照删除、插入和替换三种编辑操作,循环计算整个矩阵,根据最小编辑距离算法得出中文拼音的匹配率数值;s7、语义总匹配度计算:根据步骤s5中计算得到的中文文字匹配度数值,步骤s6中拼音匹配度的数值,再结合步骤s4中配置的中文匹配和拼音匹配的权重,计算得出语义总匹配度的技术方案,
但由于医学领域实体的特殊性,简单的结合词频以及拼音并不能有效地解决医学实体对齐中存在的问题。


技术实现要素:

8.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种医学实体对齐方法及装置。
9.第一方面,本公开实施例提供了一种医学实体对齐方法,包括:获取待处理的目标医学实体和预设的标准医学实体数据集;确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度;确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度;基于所述文本结构相似度与所述语义相似度,确定所述文本结构相似度的权重系数和所述语义相似度的权重系数;基于所述文本结构相似度的权重系数、所述语义相似度的权重系数分别对所述文本结构相似度、所述语义相似度进行加权,确定所述目标医学实体与各标准医学实体之间的目标相似度,以根据所述目标相似度从所述标准医学实体数据集中确定与所述目标医学实体匹配的标准医学实体。
10.第二方面,本公开实施例提供了一种医学实体对齐装置,包括:获取模块,用于获取待处理的目标医学实体和预设的标准医学实体数据集;第一确定模块,用于确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度;第二确定模块,用于确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度;第三确定模块,用于基于所述文本结构相似度与所述语义相似度,确定所述文本结构相似度的权重系数和所述语义相似度的权重系数;匹配模块,用于基于所述文本结构相似度的权重系数、所述语义相似度的权重系数分别对所述文本结构相似度、所述语义相似度进行加权,确定所述目标医学实体与各标准医学实体之间的目标相似度,以根据所述目标相似度从所述标准医学实体数据集中确定与所述目标医学实体匹配的标准医学实体。
11.第三方面,本公开实施例提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面所述的医学实体对齐方法。
12.第四方面,本公开实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的医学实体对齐方法。
13.本公开实施例提供的技术方案与现有技术相比具有如下优点:通过确定目标医学实体与标准医学实体数据集中的每个标准医学实体之间的文本结构相似度和语义相似度,基于文本结构相似度与语义相似度,确定文本结构相似度的权重系数和语义相似度的权重
系数,进而,基于权重系数分别对文本结构相似度、语义相似度进行加权,确定目标医学实体与各标准医学实体之间的目标相似度,以根据目标相似度从标准医学实体数据集中确定与目标医学实体匹配的标准医学实体,综合考虑文本结构相似度与语义相似度两种特征,能够准确的确定与目标医学实体匹配的标准医学实体,提高医学实体对齐的准确度。
附图说明
14.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
15.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
16.图1为本公开实施例所提供的一种医学实体对齐方法的流程示意图;图2为本公开实施例所提供的一种医学实体对齐装置的结构示意图;图3为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
17.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
18.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
19.图1为本公开实施例所提供的一种医学实体对齐方法的流程示意图,本公开实施例提供的方法可以由医学实体对齐装置来执行,该装置可以采用软件和/或硬件实现,并可集成在任意具有计算能力的电子设备上,例如智能手机、平板电脑等用户终端。
20.如图1所示,本公开实施例提供的医学实体对齐方法可包括:步骤101,获取待处理的目标医学实体和预设的标准医学实体数据集。
21.本公开实施例中,构建标准医学实体数据集,标准医学实体数据集中包括多个标准医学实体。其中,标准医学实体可以采用国际疾病分类编码确定。可选地,可以采集相关医学语料数据,并对语料数据进行分词,进而提取医学实体作为目标医学实体,例如目标医学实体为“拉肚子”。
22.步骤102,确定目标医学实体与标准医学实体数据集中的每个标准医学实体之间的语义相似度。
23.本公开实施例中,构建词向量模型,词向量模型的输入为医学实体,输出为词向量。通过将标准医学实体输入词向量模型进行处理,生成标准医学实体的标准词向量,以及将目标医学实体输入词向量模型进行处理,生成目标医学实体的词向量,以基于标准词向量和目标医学实体的词向量之间的相似度,确定目标医学实体与标准医学实体之间的语义相似度。
24.在本公开的一个实施例中,词向量模型包括word2vec模型和bert模型。其中,将目
标医学实体输入word2vec模型进行处理,生成目标医学实体的第一词向量,以及将目标医学实体输入bert模型进行处理,生成目标医学实体的第二词向量。
25.举例而言,目标医学实体为“败血症”,得到第一词向量结果为[-2.6478383541107178, 1.2753132581710815,-2.6932482719421387,
ꢀ‑
1.756551742553711,
ꢀ…
, 1.968019962310791, 4.564311504364014,
ꢀ‑
0.3192666471004486]共100维,得到第二词向量结果为[0.3608335256576538, 0.6353740096092224,
ꢀ‑
0.03158513456583023,
ꢀ‑
0.1618153154850006,
ꢀ…
0.1750185489654541,
ꢀ‑
0.21023917198181152, 0.05894317477941513]共768维。
[0026]
其中,可以预先通过词向量模型对标准医学实体进行前向预测,即对于每个标准医学实体,基于word2vec模型生成对应的第一标准词向量,基于bert模型生成对应的第二标准词向量,保存第一标准词向量和第二标准词向量以作为对齐过程中使用的标准词向量集。
[0027]
可选地,可以采用word2vec模型的skip-gram,采集医学语料,对医学语料去除标点符号后进行分词,并转换one-hot向量,以训练模型,生成输入为实体词汇、输出为100维向量的word2vec模型。以及,可以采用bert-base,该模型共12层,768个隐单元,根据医学语料训练模型,以生成输入为实体词汇、输出为768维向量的bert模型。
[0028]
本公开实施例中,确定相似度的实现方式可以有多种。例如,可以采用余弦相似度确定标准词向量和目标医学实体的词向量之间的相似度,并将该相似度作为目标医学实体与标准医学实体之间的语义相似度。
[0029]
在本公开的一个实施例中,以词向量模型包括word2vec模型和bert模型为例,基于标准词向量和目标医学实体的词向量之间的相似度,确定语义相似度,包括:基于标准词向量和第一词向量,确定目标医学实体与标准医学实体之间的第一语义相似度,以及基于标准词向量和第二词向量,确定目标医学实体与标准医学实体之间的第二语义相似度。
[0030]
作为一种示例,对于相同的两个医学实体词,其具有相同的词向量,语义相似度为1。对于不同的医学实体词,医学实体词的语义越相似,词向量的相似度越大,例如“腹泻”和“拉肚子”,利用word2vec模型得到的第一语义相似度为0.637,利用bert模型得到的第二语义相似度为0.681。
[0031]
步骤103,确定目标医学实体与标准医学实体数据集中的每个标准医学实体之间的文本结构相似度。
[0032]
本公开实施例中,对于每个标准医学实体,确定目标医学实体与该标准医学实体之间的最小编辑距离,基于最小编辑距离,确定目标医学实体与该标准医学实体之间的文本结构相似度。其中,最小编辑距离与文本结构相似度成反比。
[0033]
作为一种示例,对于标准医学实体b和目标医学实体c,b的字符长度为m,c的字符长度为n,e[m][n]为编辑距离,则以b和c中最后一位字符为起始,若b的最后一位字符与c的最后一位字符相同,则e[m][n]=e[m-1][n-1],若不相同,则进行替换、删除、增加操作,其中,替换操作的情况下e[m][n]=e[m-1][n-1]+1,删除操作的情况下e[m][n]=e[m][n-1]+1,增加操作的情况下e[m][n]=e[m-1][n]+1。其中,当m=0时,e[0][n]=n,当n=0时,e[m][0]=m。通过迭代求解,确定标准医学实体b和目标医学实体c之间的最小编辑距离。
[0034]
作为一种示例,文本结构相似度通过如下公式得到:
s=1-e/max(len(b),len(c))其中,s为文本结构相似度,e为最小编辑距离,b和c分别为标准医学实体和目标医学实体。最小编辑距离与文本结构相似度成反比,标准医学实体b和目标医学实体c相同的情况下,最小编辑距离为0,文本结构相似度为1。
[0035]
需要说明的是,确定文本结构相似度的实现方式可以有多种,例如可采用相同字符数、莱文斯坦距离、jaro距离、汉明距离等,此处不作限制。
[0036]
步骤104,基于文本结构相似度与语义相似度,确定文本结构相似度的权重系数和语义相似度的权重系数。
[0037]
本公开实施例中,文本结构相似度大于语义相似度,且文本结构相似度大于预设阈值、语义相似度小于该预设阈值的情况下,确定文本结构相似度的权重系数为1,语义相似度的权重系数为0。语义相似度大于文本结构相似度,且语义相似度大于预设阈值、文本结构相似度小于设阈值的情况下,确定文本结构相似度的权重系数为0,语义相似度的权重系数为1。
[0038]
在实际应用中,存在名称较长且冷门的医学实体词汇,例如“慢性阻塞性呼吸暂停低通气综合征”和“阻塞性睡眠呼吸暂停低通气综合征”,上述两个医学实体词汇在语料中的出现频率较低,采用语义相似度匹配标准医学实体的准确度有待提高,而上述两个医学实体词汇采用文本结构相似度匹配的准确度较高,同样,存在语料中出现频率高但文本结构相似度较低的匹配词汇,因此,本实施例中对于不同的医学实体,融合了文本结构相似度与语义相似度,并基于阈值从文本结构相似度与语义相似度中确定相似度类型以计算权重系数,提高医学实体词汇的匹配准确度。
[0039]
在本公开的一个实施例中,以词向量模型包括word2vec模型和bert模型为例,通过如下步骤确定权重系数:若第一语义相似度和第二语义相似度中的最小值大于文本结构相似度,且最小值大于第一阈值,则确定文本结构相似度的权重系数为0,并采用softmax公式确定第一语义相似度的权重系数和第二语义相似度的权重系数;若文本结构相似度大于第一语义相似度和第二语义相似度中的最大值,且文本结构相似度大于第二阈值、最大值小于第二阈值,则确定第一语义相似度的权重系数和第二语义相似度的权重系数均为0、文本结构相似度的权重系数为1;否则,采用softmax公式确定第一语义相似度的权重系数、第二语义相似度的权重系数和文本结构相似度的权重系数。
[0040]
举例而言,第一阈值为0.6,第二阈值为0.5,w1、w2、w3分别为第一语义相似度的权重系数、第二语义相似度的权重系数、文本结构相似度的权重系数,w1、w2、w3之和为1。若min(第一语义相似度,第二语义相似度)>文本结构相似度,且min(第一语义相似度,第二语义相似度)>0.6,则目标相似度=w1
×
第一语义相似度+w2
×
第二语义相似度,其中,w1、w2采用softmax公式确定。若文本结构相似度>max(第一语义相似度,第二语义相似度),且文本结构相似度>0.5,max(第一语义相似度,第二语义相似度)<0.5,则目标相似度=文本结构相似度;否则,目标相似度=w1
×
第一语义相似度+w2
×
第二语义相似度+w3
×
文本结构相似度,其中,w1、w2、w3采用softmax公式确定。
[0041]
步骤105,基于文本结构相似度的权重系数、语义相似度的权重系数分别对文本结构相似度、语义相似度进行加权,确定目标医学实体与各标准医学实体之间的目标相似度,以根据目标相似度从标准医学实体数据集中确定与目标医学实体匹配的标准医学实体。
[0042]
作为一种示例,设置相似度阈值,若目标医学实体与标准医学实体之间的目标相似度大于相似度阈值,则确定该标准医学实体与目标医学实体匹配,进而,可以将该标准医学实体对文本中的目标医学实体进行替换,以实现医学实体对齐。
[0043]
作为另一种示例,确定目标医学实体与多个标准医学实体之间的多个目标相似度,从多个目标相似度中确定最大相似度,并确定该最大相似度对应的标准医学实体与目标医学实体匹配。
[0044]
根据本公开实施例的技术方案,通过确定目标医学实体与标准医学实体数据集中的每个标准医学实体之间的文本结构相似度和语义相似度,基于文本结构相似度与语义相似度,确定文本结构相似度的权重系数和语义相似度的权重系数,进而,基于权重系数分别对文本结构相似度、语义相似度进行加权,确定目标医学实体与各标准医学实体之间的目标相似度,以根据目标相似度从标准医学实体数据集中确定与目标医学实体匹配的标准医学实体,综合考虑文本结构相似度与语义相似度两种特征,能够准确的确定与目标医学实体匹配的标准医学实体,提高医学实体对齐的准确度。
[0045]
图2为本公开实施例所提供的一种医学实体对齐装置的结构示意图,如图2所示,该医学实体对齐装置包括:获取模块21,第一确定模块22,第二确定模块23,第三确定模块24,匹配模块25。
[0046]
其中,获取模块21,用于获取待处理的目标医学实体和预设的标准医学实体数据集。
[0047]
第一确定模块22,用于确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度。
[0048]
第二确定模块23,用于确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度。
[0049]
第三确定模块24,用于基于所述文本结构相似度与所述语义相似度,确定所述文本结构相似度的权重系数和所述语义相似度的权重系数。
[0050]
匹配模块25,用于基于所述文本结构相似度的权重系数、所述语义相似度的权重系数分别对所述文本结构相似度、所述语义相似度进行加权,确定所述目标医学实体与各标准医学实体之间的目标相似度,以根据所述目标相似度从所述标准医学实体数据集中确定与所述目标医学实体匹配的标准医学实体。
[0051]
在本公开的一个实施例中,第一确定模块22具体用于:将所述标准医学实体输入预训练的词向量模型进行处理,生成所述标准医学实体的标准词向量;将所述目标医学实体输入所述词向量模型进行处理,生成所述目标医学实体的词向量;基于所述标准词向量和所述目标医学实体的词向量之间的相似度,确定所述语义相似度。
[0052]
在本公开的一个实施例中,第二确定模块23具体用于:对于每个标准医学实体,确定所述目标医学实体与该标准医学实体之间的最小编辑距离;基于所述最小编辑距离,确定所述目标医学实体与该标准医学实体之间的文本结构相似度,其中,所述最小编辑距离与所述文本结构相似度成反比。
[0053]
在本公开的一个实施例中,第一确定模块22具体用于:将所述目标医学实体输入word2vec模型进行处理,生成所述目标医学实体的第一词向量;将所述目标医学实体输入bert模型进行处理,生成所述目标医学实体的第二词向量;
基于所述标准词向量和所述第一词向量,确定所述目标医学实体与标准医学实体之间的第一语义相似度;基于所述标准词向量和所述第二词向量,确定所述目标医学实体与标准医学实体之间的第二语义相似度。
[0054]
在本公开的一个实施例中,第三确定模块24具体用于:若所述第一语义相似度和所述第二语义相似度中的最小值大于所述文本结构相似度,且所述最小值大于第一阈值,则确定所述文本结构相似度的权重系数为0,并采用softmax公式确定所述第一语义相似度的权重系数和所述第二语义相似度的权重系数;若所述文本结构相似度大于所述第一语义相似度和所述第二语义相似度中的最大值,且所述文本结构相似度大于第二阈值、所述最大值小于所述第二阈值,则确定所述第一语义相似度的权重系数和所述第二语义相似度的权重系数均为0、所述文本结构相似度的权重系数为1;否则,采用softmax公式确定所述第一语义相似度的权重系数、所述第二语义相似度的权重系数和所述文本结构相似度的权重系数。
[0055]
本公开实施例所提供的医学实体对齐装置可执行本公开实施例所提供的任意医学实体对齐方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
[0056]
图3为本公开实施例提供的一种电子设备的结构示意图。如图3所示,电子设备 600 包括一个或多个处理器 601 和存储器 602。
[0057]
处理器 601 可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备600 中的其他组件以执行期望的功能。
[0058]
存储器 602 可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器 601 可以运行程序指令,以实现上文的本公开的实施例的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0059]
在一个示例中,电子设备 600 还可以包括:输入装置 603 和输出装置 604,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入装置 603 还可以包括例如键盘、鼠标等等。该输出装置 604 可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置 604 可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0060]
当然,为了简化,图3中仅示出了该电子设备 600 中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备 600 还可以包括任何其他适当的组件。
[0061]
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本公开实施例所提供的任意方法。
[0062]
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如 java、c++
等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0063]
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本公开实施例所提供的任意方法。
[0064]
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom 或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0065]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0066]
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1