一种基于病人与疾病二部图的再入院预测方法及系统

文档序号:26091480发布日期:2021-07-30 18:00阅读:230来源:国知局
一种基于病人与疾病二部图的再入院预测方法及系统

本公开属于计算机技术领域,尤其涉及一种基于病人与疾病二部图的再入院预测方法及系统。



背景技术:

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

基于医疗数据进行再入院预测模型研究属于当下的热点技术,即预测病人在未来一段时间内是否会因某种特定的疾病再次入院的行为模型。再入院事件经常发生且费用高昂,给病人和医疗系统都带来了巨大的负担。再入院率作为衡量医疗服务质量的重要指标,越来越受到政府、医疗保险公司、医疗机构和病人的关注。因此,从数据分析的角度来处理再入院预测问题在研究领域受到越来越多的关注。精准的再入院预测不仅有助于病人了解自己的身体健康情况,指导健康生活行为。因此,如何建立一个模型去更加精准的预测病人再入院成为一个关键性问题。

发明人在研究中发现,回顾以往关于再入院预测的研究,大多数早期研究使用各种回归技术建立预测模型,近十几年来,决策树、支持向量机等机器学习算法在再入院预测中的应用日益广泛。最近,随着深度学习的兴起,人们使用深度学习中的循环神经网络或其变体,利用序列化的医疗健康记录进行再入院行为预测。

总之,目前处理再入院预测问题的方法一般是使用传统的机器学习分类算法,或者利用深度学习中的循环神经网络及其变体。然而,现有的这些方法大都只是利用病人自己的特征信息进行预测,很少考虑病人之间的潜在关联关系,使得预测效果针对相似人群的鲁棒性并不好,尤其是对于就医历史较短,即病例数据较少的病人很难进行再入院预测,因此,针对就医历史数据短,病例数据少的情况,如何进行再住院的行为预测是本申请所解决的技术问题。



技术实现要素:

为克服上述现有技术的不足,本公开提供了一种基于病人与疾病二部图的再入院预测方法及系统,根据病人的医疗数据,构建病人与疾病二部图,基于嵌入生成算法进行再入院行为预测。

为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:

一方面,公开了一种基于病人与疾病二部图的再入院预测方法,包括:

获取病人的历史医疗数据,基于历史医疗数据,利用疾病的时间戳对每个病人的医疗事件进行序列化,得到所有病人的医疗事件序列集;

基于所有病人的医疗事件序列集,构造病人与医疗事件二部图,表达出病人的历史患病信息并建立患过同一疾病的病人之间的间接联系;

利用嵌入生成算法对病人与医疗事件二部图进行处理,得到每个病人的最终向量表示;

基于该最终向量表示预测病人的再入院行为。

进一步的技术方案,利用疾病的时间戳对每个病人的医疗事件进行序列化,每个疾病序列sn表示为:

其中ln是疾病序列sn的长度,dni表示的是第n个病人所确诊的第i个疾病,tni表示的是第n个病人确诊第i个疾病的时的时间戳,并且,对于所有的p<q,tnp≤tnq。

进一步的技术方案,构造病人与医疗事件二部图时,将所有病人作为二部图的病人节点集,将疾病集去重后作为二部图的疾病节点集,病人与疾病之间的边表明病人患过该疾病。

另一方面,公开了一种基于嵌入生成算法的再住院行为预测系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:

获取病人的历史医疗数据,基于历史医疗数据,利用疾病的时间戳对每个病人的医疗事件进行序列化,得到所有病人的医疗事件序列集;

基于所有病人的医疗事件序列集,构造病人与医疗事件二部图,表达出病人的历史患病信息并建立患过同一疾病的病人之间的间接联系;

利用嵌入生成算法对病人与医疗事件二部图进行处理,得到每个病人的最终向量表示;

基于该最终向量表示预测病人的再入院行为。

又一方面,公开了一种基于嵌入生成算法的再住院行为预测装置,包括:

数据序列化模块,被配置为:获取病人的历史医疗数据,基于历史医疗数据,利用疾病的时间戳对每个病人的医疗事件进行序列化,得到所有病人的医疗事件序列集;

二部图构建模块,被配置为:基于所有病人的医疗事件序列集,构造病人与医疗事件二部图,表达出病人的历史患病信息并建立患过同一疾病的病人之间的间接联系;

再入院行为预测模块,被配置为:利用嵌入生成算法对病人与医疗事件二部图进行处理,得到每个病人的最终向量表示;

基于该最终向量表示预测病人的再入院行为。

以上一个或多个技术方案存在以下有益效果:

本公开技术方案利用疾病的时间戳对每个病人的医疗事件进行序列化,得到所有病人的医疗事件序列集,基于所有病人的医疗事件序列集,构造病人与医疗事件二部图,二部图的表示形式压缩了原始数据使其更紧凑,从而有效解决了医疗数据的稀疏性问题,及就医历史数据短,病例数据少的问题,并且为每位病人的分散数据提供了一种病人与医疗事件二部图,能够全面的展示所有病人的病史情况。

以往的再入院预测方法大都只是利用病人自己的特征信息进行预测,并不好,尤其是对于就医历史较短,即病例数据较少的病人很难进行再入院预测。而本发明通过构建病人与疾病二部图,可以表达出病人的历史患病信息以及患同一疾病的病人之间的间接联系,从而利用其他潜在相关病人的特征信息来辅助进行再入院预测,提升预测效果。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。

图1为一种基于病人与疾病二部图的再入院预测方法流程图。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。

参见附图1所示,本实施例公开了一种基于病人与疾病二部图的再入院预测方法,根据病人的医疗数据构建病人与疾病二部图,通过病人与疾病二部图的嵌入生成算法得到病人最终向量表示,利用病人最终向量表示进行预测5。

具体包括:

步骤一:构建病人与疾病二部图,首先,从病人的就医历史中提取出所有疾病的名称与时间戳,根据疾病的时间戳对每个病人的病史进行序列化,得到疾病序列集合,形如{sn|n=1,2,3,...,n},其中n是疾病序列的数目。每个疾病序列sn可以表其中ln是疾病序列sn的长度,dni表示的是第n个病人所确诊的第i个疾病,tni表示的是第n个病人确诊第i个疾病的时的时间戳,并且,对于所有的p<q,tnp≤tnq。然后,基于所有病人的疾病序列集,构造了病人与疾病二部图。将所有病人作为二部图的病人节点集,将疾病集去重后作为二部图的疾病节点集。病人与疾病之间的边表明病人患过该疾病。然后,将时间间隔的倒数规格化后作为边的权值,此处的时间间隔,指的是病人预测患病时间与病人患病时间的时间差,边的加权在后面会用于表示某一种情况特征的重要程度,越高,最终分数越高,越容易发生。

具体的,计算边的权重公式如下:

eij表示病人i与疾病j之间边的权重;tip表示病人i的预测时间;tij表示病人i患疾病j的时间;ni表示病人i的所有邻居节点,即病人i患过的所有疾病。

步骤二:通过病人与疾病二部图的嵌入生成算法,为每个病人聚合来自疾病和潜在相关病人的信息,得到每个病人的最终向量表示。该算法逐层聚合每个节点的邻域信息,病人节点利用病人聚合模块聚合邻居节点特征信息,疾病节点利用疾病聚合模块聚合邻居节点特征信息,随着迭代的继续,病人节点和疾病节点将从病人与疾病二部图的更远处获得越来越多的信息。两类聚合模块的输入相同,都是两组节点特征,hp={hp1,hp2,...,hpm},是病人节点特征,其中m是病人节点的数量,fp是每个病人节点特征的维度。hd={hd1,hd2,...,hdn},是疾病节点特征,其中n是疾病节点的数量,fd是每个疾病节点特征的维度。它们会分别产生两组新的节点特征h′p={h′p1,h′p2,...,h′pm},和h′d={h′d1,h′d2,...,h′dm},作为其输出。

具体的,边的权重,病人聚合模块和疾病聚合模的公式如下:

1)边的权重更新公式:

其中,·t代表转置,||代表连接操作,npi表示病人节点i的邻居,hpi为病人节点特征,hdj为疾病节点特征,eij是当前的注意系数,它是上一层的注意系数,如果是在第一层,它就是边的初始权重。

2)病人聚合模块:

3)疾病聚合模块:

其中表示病人节点i在第l-1层的特征;代表了疾病节点j在第l-1层的特征;是连接节点j和节点i的边在第l-1层上的权值;wl-1是第l-1层对应的权值矩阵,用来在模型的不同层之间传播信息;α是之前讲过的注意系数计算函数;σ是一个非线性函数。

步骤三:利用聚合信息来预测病人的再入院情况。利用病人与疾病二部图嵌入生成算法,为每个病人聚合来自疾病和相关病人的信息,此步骤中,通过softmax层使用聚合信息来预测病人的再入院情况,softmax层为全连接层的最后一层,将相应的数据转化为范围在【0-1】之间的值并且和为一,可近似为概率,表示某种情况发生的可能性

具体的计算过程如下:

1)使用病人最终向量zp作为softmax的输入,得到一个0-1之间的输出值。所有结果和为1,形成类似概率的结果,值越大,越有可能。

y′=softmax(zp)

2)损失函数可根据以下公式得到:

此函数的功能为判别计算结果与真值的差距,损失函数越大,与真值的差距越大,反之越小。可以利用它放大与真值相近的值,让损失函数降低,接近真值

综上所述,通过本发明实施例,通过基于病人与疾病二部图的再入院预测方法来预测病人的再入院情况,考虑了病人之间的潜在关联关系,充分利用了病人的健康信息,提高了预测的准确性。

本实施例的目的是提供一种基于嵌入生成算法的再住院行为预测系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例子的具体步骤。

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述实施例子的具体步骤。

本实施例的目的是提供了一种基于嵌入生成算法的再住院行为预测装置,包括:

数据序列化模块,被配置为:获取病人的历史医疗数据,基于历史医疗数据,利用疾病的时间戳对每个病人的医疗事件进行序列化,得到所有病人的医疗事件序列集;

二部图构建模块,被配置为:基于所有病人的医疗事件序列集,构造病人与医疗事件二部图,表达出病人的历史患病信息并建立患过同一疾病的病人之间的间接联系;

再入院行为预测模块,被配置为:利用嵌入生成算法对病人与医疗事件二部图进行处理,得到每个病人的最终向量表示;

基于该最终向量表示预测病人的再入院行为。

以上实施例的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。

以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1