一种基于药物组合进行诊断编码纠正的方法及系统与流程

文档序号：20835275发布日期：2020-05-22 16:47阅读：121来源：国知局

本发明属于数据挖掘技术领域，尤其涉及一种基于药物组合进行诊断编码纠正的方法及系统。

背景技术：

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

临床编码(ehr)是医疗信息领域一直关注的一个重要任务，ehr中存在的编码错误问题对于ehr数据的后续分析挖掘会产生巨大的影响。因此，如何建立一个模型去识别纠正ehr数据中的编码问题成为一个关键性问题。一方面，信息量和复杂的层次结构大大增加了编码难度。另一方面，由于某些疾病受到歧视，人们倾向于使用其他类似的疾病而不是这些被歧视的疾病作为编码结果。这些都会导致在ehr中出现大量的编码错误，并且这些错误率被报告在17.1％到76.9％之间。例如：癫痫是一种常见的慢性精神类疾病，患者通常会面对来自社会的歧视。国际癫痫局(ibe)的调查表明很多家长或者患者都倾向于隐瞒自己的患病情况，因此在ehr数据中会使用高热惊厥等代替癫痫作为诊断结果，这就是导致编码错误的一类因素。

针对这一问题，现有的大部分方法是通过使用出院病历来进行编码纠正，有的使用了机器学习方法，有的使用改进的支持向量机，有的使用改进的卷积神经网络，这些方法都是将临床数据作为分析依据，没有考虑如果医生帮助患者去掩盖某种精神类疾病会导致临床数据的不正确性。实际上，不同医生的描述习惯差异极大，临床记录里可能出现若干缩写、错字等，并且医生有可能帮助患者隐瞒癫痫疾病，对于疾病、症状描述都是模糊的，无法精准对应。

技术实现要素：

为克服上述现有技术的不足，本发明提供了一种基于药物组合进行诊断编码纠正的方法及系统。根据治疗信息与患者的疾病和个人状况的密切关联，利用药物组合来进行相应的预测，保证了数据的完整性，提高了数据的准确性。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于药物组合进行诊断编码纠正的方法，包括：

获取待判别就医信息，提取其中的疾病诊断结果和药物组合；

根据该类疾病的疾病判别模型，判断所述药物组合是否对应该类疾病，若否，该就医信息中的诊断编码需进行纠正。

进一步地，所述疾病判别模型构建方法包括：

获取诊断结果为指定疾病的多个就医信息，分别提取其中的用药组合；

对所述多个就医信息中的疾病诊断结果进行判别，确实患有该疾病的标记为1，否则为0，得到训练数据；

构建该类疾病的疾病判别模型，所述疾病判别模型包括：输入层、知识嵌入层、注意力机制层和输出层；

采用训练数据训练疾病判别模型。

进一步地，所述知识嵌入层，被配置为：

对于每一个药物组合，将每类药物均进行编码得到向量表示；

每类药物的向量表示均映射至解剖学治疗学及化学分类系统；

基于该药物及其兄弟节点的向量表示，生成父节点的向量表示；

将该药物及其父节点的向量表示作为双向门控循环层的输入，生成该药物的知识嵌入向量表示。

进一步地，对于每一个药物组合，将每类药物均进行编码得到向量表示包括：假设就医信息中包括cd种药物，则药物di编码为第i维为1，其余为0的cd维向量；若一个药物组合中包括n种药物，则表示为一个n×cd维的矩阵。

进一步地，所述注意力机制层，生成一个权重向量，基于该权重向量和知识嵌入向量，生成药物组合的矩阵表示。

进一步地，所述输出层，包括全连接层和sigmoid层，使用交叉熵计算判别结果。

进一步地，所述方法还包括：根据注意力机制层生成的权重向量，判断对于该类疾病的判别起关键作用的药物。

一个或多个实施例提供了一种基于药物组合进行诊断编码纠正的系统，包括：

就医信息获取模块，获取待判别就医信息，提取其中的疾病诊断结果和药物组合；

判断编码纠正模块，根据该类疾病的疾病判别模型，判断所述药物组合是否对应该类疾病，若否，该就医信息中的诊断编码需进行纠正。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于药物组合进行诊断编码纠正的方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的基于药物组合进行诊断编码纠正的方法。

以上一个或多个技术方案存在以下有益效果：

疾病、症状描述可能缺失或模糊不清，但药物信息是明确的，本发明基于根据治疗信息与患者的疾病和个人状况的密切关系，利用药物组合来进行疾病的判别，保证了数据的完整性，提高了数据的准确性。

本发明引入医学知识嵌入和注意力机制获得药物组合的嵌入表示，用于疾病判别结果的预测。通过知识嵌入能够避免融入过多的其他类型药物信息，保证了药物表示的特异性，提高了模型预测的准确性；通过通过注意力机制帮助找出重要的药物或药物组合，提供了很好的可解释性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中一种基于药物组合进行诊断编码纠正的方法流程图；

图2为本发明实施例中疾病判别模型的模型结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

鉴于患者的治疗信息通常与患者的疾病和个人状况密切，并且每种药物都可以被唯一识别，每一种药物组合都是针对患者本次疾病的，本实施例提供了一种基于药物组合进行诊断编码纠正的方法，所述方法具体包括模型训练阶段和诊断编码纠正阶段：

(一)模型训练阶段

针对每一类待纠正诊断编码的疾病，均构建疾病判别模型。

步骤1：获取诊断结果为指定疾病的多个就医信息，分别提取其中的用药组合；

步骤2：对所述多个就医信息中的疾病诊断结果进行判别，确实患有该疾病的标记为1，否则为0，得到训练数据；

对于多个就医信息的药物组合标记标签，确实患有癫痫则标记为1，未患有则为0，得到训练数据。

步骤3：构建该类疾病的疾病判别模型，所述疾病判别模型包括：输入层、知识嵌入层、注意力机制层和输出层。其中，

所述输入层，用于输入就医信息；

所述知识嵌入层，用于生成就医信息中药物组合的向量表示，并采用bi-gru生成药物组合的知识嵌入向量表示；

首先，对就医信息中的用药组合进行向量表示。具体地，假设cd是所有治疗药物的种类数目，按照one-hot编码方式，每种药物可以使用一个cd维的向量表示，所以一个药物di就可以表示为只有第i维为1，其余为0的向量。假设一次就医共有n种药物，则该次就医的药物信息可以表示成一个n×cd维的矩阵。

将每个药物代码映射到解剖学治疗学及化学分类系统(atc)的相应节点，由于atc是分层编码的，这意味着每一个药物都有一个“父类”。

然后，利用atc的内部结构以及父节点的信息来帮助叶子结点更好的学习嵌入向量表示，利用叶子结点和父节点信息作为双向门控循环层(bi-gru)的输入，避免融入过多的其他类型药物信息，保证了药物表示的特异性。

具体的，其计算步骤为：

(1)每个叶子节点的药物xi都有一个基本表示ri，可以通过如下公式获得：

ri＝wrxi+br

其中br∈r^m是待训练的参数。m表示模型嵌入向量的大小。

(2)其父节点pi的向量表示由药物xi和其兄弟节点计算得出，如下公式:

公式将属于父节点pi的所有向量表示求和取平均得到父节点pi的向量表示。其中公式的分子就表示求和操作，分母则计算pi共有几个子节点。

(3)将叶子节点表示ri和父节点表示pi共同作为bi-gru的输入生成xi的最终向量表示：

ei＝bi-gru[pi,ri]

其中ei是一个2u维的表示向量。

(4)在一次就医中，共有n种药物，所以可以得到一次就医的最后表示为：

e＝[e1,e2,...,en-1,en]

所述注意力机制层，生成一个权重向量，基于该权重向量和知识嵌入向量，生成药物组合的矩阵表示。

由于一次就医的药物多种多样，分别是针对不同的疾病或有不同的作用。因此使用矩阵的方式作为药物组合的嵌入表示，矩阵的每一行代表着本次就医的某一种类型的用药信息。主要目的就是把可变长度的用药编码成固定大小嵌入。使用注意力机制通过线性组合的方式将n个药物进行组合。

具体的，注意力机制以本次就医的所有药物代码的嵌入表示作为输入，输出权重向量a，计算过程如下：

(1)对于每种药物xi，可以得到其向量表示ai，包含属于不同类型药物的药物的权重信息。

ai＝wsei^t

其中ws∈r^l×2u是可以被学习到的参数，l表示药物相互作用的矩阵表示ws的行数。

(2)本次就医的全部药物信息可以通过下面公式得到：

a＝[a1,a2,...,an]，其中a∈r^r×2u是可以被学习到的参数，r表示药物组合的表示矩阵行数。

(3)将a和嵌入矩阵e相乘可以得到药物组合的表示矩阵：

m＝ae

注意力机制能够自动发现那些对于预测起到关键作用的药物，从而筛选出针对该类疾病的关键药物，在后续针对该类疾病进行预测时，非关键的药物不再进行知识嵌入。通过对所有的注意机制所得向量进行求和，然后对得到的权重向量进行归一化，总计为1，可以实现可视化的方式。由于其总结了药物的各个方面，我们可以找出那种药物在预测过程中考虑的较多，那种药物在预测过程中被略过。

所述输出层，用于根据药物组合的矩阵表示判断患有该疾病的概率。

使用药物组合表示矩阵预测患者本次就医是否患有癫痫病。主要结合全连接层和sigmoid层进行预测，并使用交叉熵计算所有病人的模型预测结果和真实结果之间的差别。

具体的计算过程如下：

(1)使用得到的矩阵m作为全连接层的输入，得到h维的输出向量p。然后将p作为sigmoid的输入，得到一个0-1之间的输出值。

其中，wp∈r^h，bp∈r是预测层的参数，由训练获得。

(2)损失函数可根据以下公式得到：

其中，表示模型的输出，而yi表示患者的实际标签。

步骤4：采用训练数据对疾病判别模型进行训练。

通过有监督的训练调整模型。按照损失函数计算预测值与真实值之间的差别，使用bp算法调整模型每层的参数。参数调整后重复这一过程直到得到一组最优的参数，并保留下来。

(二)诊断编码纠正阶段

步骤5：获取待判别就医信息，提取其中的疾病诊断结果和药物组合；

步骤6：根据该类疾病的疾病判别模型，判断所述药物组合是否对应该类疾病，若否，该就医信息中的诊断编码需进行纠正。

模型在预测时会输出一个患者本次就医患有癫痫病的概率当概率高于0.5，则被认为患有癫痫。

作为一种实现方式，预先训练针对多种疾病的判别模型；接收到待判别的就医信息后，根据其中的疾病诊断结果获取相应的疾病判别模型，判断诊断编码是否需要纠正。

本实施例提供了一种基于医学知识嵌入和注意力机制的诊断编码纠正模型(keam)，可以通过药物信息进行诊断代码的判断，该模型利用知识嵌入和注意力机制能够很好的获得药物组合的嵌入表示。模型通过注意力机制帮助找出重要的药物或药物组合，提供了很好的可解释性。

实施例二

一种基于药物组合进行诊断编码纠正的系统，包括：

训练数据获取模块，获取诊断结果为指定疾病的多个就医信息，分别提取其中的用药组合；对所述多个就医信息中的疾病诊断结果进行判别，确实患有该疾病的标记为1，否则为0，得到训练数据；

预测模型构建模块，包括：

所述预测模型包括输入层、知识嵌入层、注意力机制层和输出层。以上各层对数据的处理方法参见实施例一。

预测模型训练模块，采用训练数据对疾病判别模型进行训练；

诊断编码纠正模块，获取待纠正诊断编码的疾病相应的药物组合，根据预测模型得到疾病预测概率，判断是否需要纠正。当概率大于0.5时，认为该患者本次就医患有相关疾病，将预测结果与患病状况对比，判断是否需要纠正。

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

获取待判别就医信息，提取其中的疾病诊断结果和药物组合；

根据该类疾病的疾病判别模型，判断所述药物组合是否对应该类疾病，若否，该就医信息中的诊断编码需进行纠正。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

获取待判别就医信息，提取其中的疾病诊断结果和药物组合；

根据该类疾病的疾病判别模型，判断所述药物组合是否对应该类疾病，若否，该就医信息中的诊断编码需进行纠正。

以上实施例二-四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭伟;葛伟;闫中敏;鹿旭东;任艺琴;崔立真
技术所有人：山东大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。