医嘱分类模型的训练方法、装置、电子设备及存储介质与流程

文档序号:32481264发布日期:2022-12-09 22:47阅读:50来源:国知局
医嘱分类模型的训练方法、装置、电子设备及存储介质与流程

1.本技术涉及数据处理技术领域,尤其涉及一种医嘱分类模型的训练方法、装置、电子设备及存储介质。


背景技术:

2.在医疗环境中,医嘱单是医生对病人在饮食、用药、化验等方面的指示。随着如今就医人数的增加及疾病种类的多样化,利用人工对医嘱进行抽取分类无论在效率与准确率上都存在较大的局限性。


技术实现要素:

3.为了解决上述技术问题或者至少部分地解决上述技术问题,本技术提供了一种医嘱分类模型的训练方法、装置、电子设备及存储介质。
4.根据本技术实施例的一个方面,提供了一种医嘱分类模型的训练方法,包括:
5.获取用于训练医嘱分类模型对应的医疗术语集合,其中,所述医疗术语分类集合是依据目标医院对应的医嘱字典以及医疗实体得到的;
6.获取所述医疗术语集合中每个目标医疗术语对应的标注信息;
7.利用所述医疗术语集合以及所述标注信息训练初始医嘱分类模型,以使所述初始医嘱分类模型输出所述医疗术语集合中每个目标医疗术语对应的预测结果;
8.在所述预测结果与所述标注信息相匹配的情况下,将所述初始医嘱分类模型确定为所述目标医院对应的目标医嘱分类模型。
9.进一步的,所述获取用于训练医嘱分类模型对应的医疗术语集合,包括:
10.获取目标医院对应的医嘱字典以及当前医疗实体,其中,所述医嘱字典包括至少一个医疗术语;
11.将所述当前医疗实体存储至数据库,并从数据库中获取与所述当前医疗实体相匹配的候选医疗实体;
12.计算每个医疗术语与候选医疗实体之前的第一相似度,将所述第一相似度小于第一预设相似度的医疗术语确定为目标医疗术语;
13.利用目标医疗术语构建用于训练医嘱分类模型的医疗术语集合。
14.进一步的,所述从数据库中获取与所述医疗术语相匹配的候选医疗实体,包括:
15.计算所述数据库中的医疗实体与所述医嘱字典所包括医疗术语之间的第二相似度;
16.将所述第二相似度大于第二预设相似的医疗实体确定为所述候选医疗实体。
17.进一步的,所述利用目标医疗术语构建用于训练医嘱分类模型的医疗术语集合,包括:
18.从所述目标医疗术语中随机选择一个目标医疗术语作为第一目标医疗术语,并基于所述第一目标医疗术语构建非同质化术语集合;
19.从第二目标医疗术语中获取与所述第一目标医疗术语相对应的非同质化术语,其中,所述第二目标医疗术语为所述目标医疗术语中除所述第一目标医疗术语之外的医疗术语;
20.将所述非同质化术语加入所述非同质化术语集合,得到更新后的非同质化术语集合,并将所述更新后的同质化术语集合作为所述用于训练医嘱分类模型的医疗术语集合。
21.进一步的,所述从第二目标医疗术语中获取与所述第一目标医疗术语相对应的非同质化术语,包括:
22.计算所述第一目标医疗术语与所述第二目标医疗术语之间的余弦相似度;
23.将所述余弦相似度小于预设阈值的第二目标医疗术语确定为所述第一目标医疗术语对应的非同质化术语。
24.进一步的,所述方法还包括:
25.获取所述预测结果与所述标注信息不匹配的医疗术语进行实体识别,得到初始实体集合;
26.基于医疗知识图谱得到所述实体集合中每个实体的同义词以及下位实体,利用每个实体的同义词以及下位实体对所述初始实体集合进行扩充,得到目标实体集合;
27.利用所述目标实体集合继续训练所述目标医嘱分类模型。
28.进一步的,所述利用所述目标实体集合继续训练所述目标医嘱分类模型,包括:
29.对所述目标实体集合中嵌入利用医嘱模板生成的伪医疗术语,得到更新后的目标实体集合;
30.利用所述更新后的目标实体集合继续训练所述目标医嘱分类模型。
31.根据本技术实施例的再一个方面,还提供了一种医嘱分类模型的训练装置,包括:
32.第一获取模块,用于获取用于训练医嘱分类模型对应的医疗术语集合,其中,所述医疗术语分类集合是依据目标医院对应的医嘱字典以及医疗实体得到的;
33.第二获取模块,用于获取所述医疗术语集合中每个目标医疗术语对应的标注信息;
34.预测模块,用于利用所述医疗术语集合以及所述标注信息训练初始医嘱分类模型,以使所述初始医嘱分类模型输出所述医疗术语集合中每个目标医疗术语对应的预测结果;
35.处理模块,用于在所述预测结果与所述标注信息相匹配的情况下,将所述初始医嘱分类模型确定为所述目标医院对应的目标医嘱分类模型。
36.根据本技术实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
37.根据本技术实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
38.本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
39.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术实施例
提供的方法能够针对不同的医院训练不同的医嘱分类模型,以使各个医院能够快速的对医嘱内容进行分类,依据解决了人工分类在效率与准确率上存在较大的局限性的问题。
附图说明
40.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
41.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
42.图1为本技术实施例提供的一种医嘱分类模型的方法的流程图;
43.图2为本技术另一实施例提供的一种医嘱分类模型的方法的流程图;
44.图3为本技术实施例提供的一种医嘱分类模型的装置的框图;
45.图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
46.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
47.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
48.本技术实施例提供了一种医嘱分类模型的训练方法、装置、电子设备及存储介质质。本发明实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。
49.根据本技术实施例的一方面,提供了一种医嘱分类模型的训练方法的方法实施例,图1为本技术实施例提供的一种医嘱分类模型的训练方法的流程图,如图1所示,该方法包括:
50.步骤s11,获取用于训练医嘱分类模型对应的医疗术语集合,其中,医疗术语分类集合是依据目标医院对应的医嘱字典以及医疗实体得到的。
51.本技术实施例提供的方法应用于能够进行数据处理的智能终端,智能终端可以是电脑、智能手机、平板电脑等等。在本技术实施例中,步骤s11,获取用于训练医嘱分类模型对应的医疗术语集合,包括以下步骤a1-a4:
52.步骤a1,获取目标医院对应的医嘱字典以及目标医疗实体,其中,医嘱字典包括至
少一个医疗术语。
53.在本技术实施例中,智能终端获取用户上传的目标医院对应的医嘱字典,其中,医嘱字典中包括多个类别的医疗术语,例如:症状类的医疗术语、检验类的医疗术语、诊断类的医疗数据等等。而且每种类型的医疗术语可以包括多个医疗术语。
54.在本技术实施例中,智能终端在得到医嘱字典后,提取医嘱字典中的医疗术语,并对医疗术语进行实体识别,得到目标医疗实体。其中,医疗实体可以包括用于表示症状、手术、体征、科室、疾病、医疗器械、治疗装置、药物等与医疗相关的实体。如“发烧”、“头部发热”、“消化科”、“微创手术”等。
55.步骤a2,将目标医疗实体存储至数据库,并从数据库中获取与医疗术语相匹配的候选医疗实体。
56.在本技术实施例中,智能终端将得到的医疗实体存储至数据库,同时从数据库存储的全部医疗实体中获取与医疗术语相匹配多个候选医疗实体。需要说明的是,数据库中存储的医疗实体是通过各个医院对应医嘱字典中的医疗术语识别到的。获取目标医院对应的医嘱字典以及当前医疗实体,其中,医嘱字典包括至少一个医疗术语;
57.具体的,从数据库中获取候选医疗实体,包括:计算数据库中的医疗实体与医嘱字典所包括医疗术语之间的第二相似度;将第二相似度大于第二预设相似的n个医疗实体确定为候选医疗实体,n为大于0的整数。
58.步骤a3,计算每个医疗术语与候选医疗实体之前的第一相似度,将第一相似度小于第一预设相似度的医疗术语确定为目标医疗术语。
59.在本技术实施例中,计算每个医疗术语t
dict
与候选医疗实体之前的第一相似度的过程可以是:基于最长公共子序列相似度算法分别计算t
dict
与topn个候选医疗实体的第一相似度。如果存在第一相似度小于第一预设相似度的候选医疗实体,则将其保留并确定为目标医疗数据。最长公共子序列相似度计算方式如下:
60.医疗术语t
dict
和候选医疗实体e
train
可以表示成x=(x1,x2,x3...,xn)和y=(y1,y2,y3...,ym),其中,m大于0,n大于0。xi=(x0,x1,x3...,xi)和yj=(y0,y1,y2...,yj),x0,y0为空字符。0≤i≤n,0≤j小于等于m。
61.计算公式如下:
[0062][0063][0064]
式中,lcs表示最长公共子序列的长度,s(x,y)表示x和y之间的第一相似度。
[0065]
在本技术实施例中,基于上述公式计算每个医疗术语与候选医疗实体之间的第一相似度,将第一相似度小于第一预设相似度的医疗术语确定为目标医疗术语。
[0066]
步骤a4,利用目标医疗术语构建用于训练医嘱分类模型的医疗术语集合。
[0067]
在本技术实施例中,步骤a4,利用目标医疗术语构建用于训练医嘱分类模型的医疗术语集合,包括以下步骤a401-a403:
[0068]
步骤a401,从目标医疗术语中随机选择一个目标医疗术语作为第一目标医疗术语,并基于第一目标医疗术语构建非同质化术语集合。
[0069]
步骤a402,从第二目标医疗术语中获取与第一目标医疗术语相对应的非同质化术语,其中,第二目标医疗术语为目标医疗术语中除第一目标医疗术语之外的医疗术语。
[0070]
步骤a403,将非同质化术语加入非同质化术语集合,得到更新后的非同质化术语集合,并将更新后的同质化术语集合作为用于训练医嘱分类模型的医疗术语集合。
[0071]
在本技术实施例中,基于目标医疗术语构建初始医疗术语集合,使用同质化数据提取工具,对初始医疗术语集合中同质化数据进行分组,针对每个分组随机分配一个术语构成非同质化术语集合,即最终的医疗术语集合。
[0072]
具体的,从第二目标医疗术语中获取与第一目标医疗术语相对应的非同质化术语,包括:计算第一目标医疗术语与第二目标医疗术语之间的余弦相似度;将余弦相似度小于预设阈值的第二目标医疗术语确定为第一目标医疗术语对应的非同质化术语。
[0073]
需要说明的是,同质化数据提取工具的处理方法为首先基于词频的词袋模型获得两个医疗术语的向量表示,然后对两个医疗术语的向量基于余弦相似度计算相似度分值,若分值高于阈值,则两个医疗术语为同质化医疗术语。
[0074]
步骤s12,获取医疗术语集合中每个目标医疗术语对应的标注信息。
[0075]
在本技术实施例中,智能终端检测作用于医疗术语集合中每个目标医疗术语的编辑操作,基于编辑操作确定目标医疗术语对应的标注信息。需要说明的是,标注信息用于表示目标医疗术语对应类别。
[0076]
步骤s13,利用医疗术语集合以及标注信息训练初始医嘱分类模型,以使初始医嘱分类模型输出医疗术语集合中每个目标医疗术语对应的预测结果。
[0077]
在本技术实施例中,利用医疗术语集合以及标注信息训练初始医嘱分类模型,具体的,将医疗术语集合术语输入待训练的初始医嘱分类模型,初始医嘱分类模型提取医疗术语集合中每个目标医疗术语对应的术语特征,术语特征可以是术语关键词等等。然后基于术语特征预测术语特征对应的术语类别,将术语类别确定为预测结果。然后将预测结果与标注信息进行匹配,从而确定训练结果。
[0078]
步骤s14,在预测结果与标注信息相匹配的情况下,将初始医嘱分类模型确定为目标医院对应的目标医嘱分类模型。
[0079]
在本技术实施例中,预测结果与标注信息相匹配可以是:计算术语类别与标注信息中携带的术语类别之间的相似度。如果相似度落入预设相似度范围,则确定预测结果与标注信息相匹配。此时说明初始医嘱分类模型已训练完成。
[0080]
本技术实施例提供的方法能够针对不同的医院训练不同的医嘱分类模型,以使各个医院能够快速的对医嘱内容进行分类,依据解决了人工分类在效率与准确率上存在较大的局限性的问题。
[0081]
在本技术实施例中,如图2所示,方法还包括以下步骤b1-b3:
[0082]
步骤b1,获取预测结果与标注信息不匹配的医疗术语进行实体识别,得到初始实体集合。
[0083]
步骤b2,基于医疗知识图谱得到实体集合中每个实体的同义词以及下位实体,利用每个实体的同义词以及下位实体对初始实体集合进行扩充,得到目标实体集合。
[0084]
步骤b3,利用目标实体集合继续训练目标医嘱分类模型。
[0085]
在本技术实施例中,获取预测结果与标注信息不匹配的医疗术语(即预测异常的医疗术语),并对其进行实体识别,得到每个预测异常的医疗术语对应的实体,并构成初始实体集合e
badcase
。基于医疗知识图谱得到实体集合e
badcase
中每个实体e
badcase
的同义词以及下位实体,利用每个实体的同义词以及下位实体对初始实体集合进行扩充,得到目标实体集合e
bc_badcase
。最终利用目标实体集合继续训练目标医嘱分类模型。
[0086]
在本技术实时例中,在继续训练过程中,首先从数据库中查询与目标实体集合中实体e
bc_badcase
相似的n个相似实体,判断这些相似实体中是否包含实体e
bc_badcase
字符串,如果包含,则判断包含该字符串的医嘱内容的分类标签是否为实体e
bc_badcase
的标注信息,如果不是,则将相似实体的分类标签改为实体e
bc_badcase
的标注信息。通过将相似实体的标注信息进行修改,以此保证后续训练过程中,更准确的计算实体与属于之间的相似度。
[0087]
在本技术实施例中,利用目标实体集合继续训练目标医嘱分类模型,包括以下步骤c1-c2:
[0088]
步骤c1,对目标实体集合中嵌入利用医嘱模板生成的伪医疗术语,得到更新后的目标实体集合。
[0089]
步骤c2,利用更新后的目标实体集合继续训练目标医嘱分类模型。
[0090]
在本技术实施例中,首先将医嘱内容中的实体抽取出来,如“今日行阑尾切除术”,将手术“阑尾切除术”取出,生成模板“今日行____”。对医嘱分类的每个类别进行模板抽取。然后每个类别按照频次从高到低保留topn个模板。将实体e
bc_badcase
按照实体类别套入上述步骤中的模板形成一条伪数据,如将“胃癌根治术”套入手术模板“今日行____”,生成伪数据“今日行胃癌根治术”,且该伪数据的类别为“手术”。将伪数据加入目标实体集合。利用更新后的目标实体集合继续训练目标医嘱分类模型。
[0091]
需要说明的是,通过主动学习的方式从新领域数据中筛选出旧模型容易犯错的数据作为测试数据指导模型迭代;结合医疗知识图谱提升训练数据纠错和数据增强的范围,模板挖掘和填充生成伪数据的方法有效增加训练数据集的规模,提升模型在新领域的泛化能力。
[0092]
本技术实施例还提供了以下方法,该方法包括:获取待识别的医嘱信息,医嘱信息包括:医院标识以及医嘱内容;基于预设医院标识与医嘱分类模型之前的对应关系,获取当前医院标识相应的医嘱分类模型;将医嘱内容输入医嘱分类模型,以使医嘱分类模型检测医嘱内容的医嘱特征,并确定医嘱特征对应的医嘱类别。
[0093]
图3为本技术实施例提供的一种医嘱分类模型的训练装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示,该装置包括:
[0094]
第一获取模块31,用于获取用于训练医嘱分类模型对应的医疗术语集合,其中,医疗术语分类集合是依据目标医院对应的医嘱字典以及医疗实体得到的;
[0095]
第二获取模块32,用于获取医疗术语集合中每个目标医疗术语对应的标注信息;
[0096]
预测模块33,用于利用医疗术语集合以及标注信息训练初始医嘱分类模型,以使初始医嘱分类模型输出医疗术语集合中每个目标医疗术语对应的预测结果;
[0097]
处理模块34,用于将预测结果与标注信息相匹配的情况下,将初始医嘱分类模型确定为目标医院对应的目标医嘱分类模型。
[0098]
在本技术实施例中,第一获取模块,用于获取目标医院对应的医嘱字典以及医疗实体,其中,医嘱字典包括至少一个医疗术语;将医疗实体存储至数据库,并从数据库中获取与医疗术语相匹配的候选医疗实体;计算每个医疗术语与候选医疗实体之前的第一相似度,将第一相似度小于第一预设相似度的确定为目标医疗术语;利用目标医疗术语构建用于训练医嘱分类模型的医疗术语集合。
[0099]
在本技术实施例中,第一获取模块31,用于计算数据库中的医疗实体与医嘱字典所包括医疗术语之间的第二相似度;将第二相似度大于第二预设相似的医疗实体确定为候选医疗实体。
[0100]
在本技术实施例中,第一获取模块31,用于从目标医疗术语中随机选择一个目标医疗术语作为第一目标医疗术语,并基于第一目标医疗术语构建非同质化术语集合;
[0101]
从第二目标医疗术语中获取与第一目标医疗术语相对应的非同质化术语,其中,第二目标医疗术语为目标医疗术语中除第一目标医疗术语之外的医疗术语;将非同质化术语加入非同质化术语集合,得到更新后的非同质化术语集合,并将更新后的同质化术语集合作为用于训练医嘱分类模型的医疗术语集合。
[0102]
在本技术实施例中,第一获取模块31,用于计算第一目标医疗术语与第二目标医疗术语之间的余弦相似度;将余弦相似度小于预设阈值的第二目标医疗术语确定为第一目标医疗术语对应的非同质化术语。
[0103]
在本技术实施例中,医嘱分类模型的训练装置还包括:数据优化模块,用于获取预测结果与标注信息不匹配的医疗术语进行实体识别,得到初始实体集合;基于医疗知识图谱得到实体集合中每个实体的同义词以及下位实体,利用每个实体的同义词以及下位实体对初始实体集合进行扩充,得到目标实体集合;利用目标实体集合继续训练目标医嘱分类模型。
[0104]
在本技术实施例中,数据优化模块,用于对目标实体集合中嵌入利用医嘱模板生成的伪医疗术语,得到更新后的目标实体集合;利用更新后的目标实体集合继续训练目标医嘱分类模型。
[0105]
本技术实施例还提供一种电子设备,如图4所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
[0106]
存储器1503,用于存放计算机程序;
[0107]
处理器1501,用于执行存储器1503上所存放的计算机程序时,实现上述实施例的步骤。
[0108]
上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standardarchitecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0109]
通信接口用于上述终端与其他设备之间的通信。
[0110]
存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可
以是至少一个位于远离前述处理器的存储装置。
[0111]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0112]
在本技术提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的医嘱分类模型的训练方法。
[0113]
在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的医嘱分类模型的训练方法。
[0114]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk)等。
[0115]
以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本技术的保护范围内。
[0116]
以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1