基于时序数据的因果发现与疾病发展轨迹预测系统及方法

文档序号:37822372发布日期:2024-04-30 17:31阅读:7来源:国知局
基于时序数据的因果发现与疾病发展轨迹预测系统及方法

本发明涉及了一种因果发现与疾病发展轨迹预测系统,涉及数据处理领域,具体涉及一种基于时序数据的因果发现与疾病发展轨迹预测系统及方法。


背景技术:

1、如果能够预测患病后的疾病发展情况,如一段时间后病种,数年后死亡,对于医生提前采取治疗措施很有帮助。在此假设下,最近的研究主要集中在利用机器学习方法来获得更准确的预测模型。

2、然而,采用机器学习的方法预测疾病发展往往不能给医生带来足够的指导,机器学习是一个黑箱模型,通过数学的方式进行拟合不能告诉医生哪些因素会导致疾病发生怎样的变化。类似阿尔茨海默病这样机理不明确的疾病,发掘人体在经历疾病时各种因素之间的因果关系对医生决策更有指导意义。

3、在轨迹预测方面,研究者们通常使用循环神经网络rnn和transformer来从序列化的病患数据中学习表征,并预测其疾病进展轨迹。但是,这两种方法都是设计用来建模具有固定时间间隔的离散轨迹,而实际上我们可能需要生成连续的病患轨迹。近期的研究通常采用两种方法来建模连续的轨迹。

4、第一种方法将轨迹预测问题建模为解决动力系统。通过神经ode求解器,可以优化一个神经网络参数化的动力系统,从而使连续的病患轨迹预测成为可能。第二种方法通过修改循环神经网络rnn或transformer的架构来建模连续的轨迹。虽然这些模型具有良好的性能,但通常不能应用于治疗效果分析,因为它们没有捕捉到数据中的因果信息。

5、关于因果发现,一般有两种方法可以从序列数据中发现因果关系。第一种方法是使用基于ode的线性动态系统来建模数据生成过程,并采用稀疏惩罚(例如岭损失)来消除不必要的特征交互。先前的研究已经证明,这种方法可以在给定观测数据的情况下正确重构因果结构。被称为物理信息网络pin的方法被广泛用于发现物理过程中的控制方程。第二种方法利用格兰杰因果性假设,假设每个采样变量只受早期观察的影响。然后,通过分析格兰杰因果信息来总结因果图。因果发现方法明显具有辅助预后分析的能力,然而目前并未被应用到包括线性和非线性关系的疾病轨迹预测中。

6、已有的模型dag-gnn(有向无环图神经网络)添加整体的非线性,没有考虑到线性和非线性结合的情况;数据驱动的模型则发掘现有参数的因果关系,考虑不到隐藏的影响因子;使用逆时间注意力机制的模型则无法发掘相关关系,无法判断直接相关性。


技术实现思路

1、为了解决背景技术中存在的问题,本发明所提供一种基于时序数据的因果发现与疾病发展轨迹预测系统及方法。本发明克服现有疾病发展轨迹预测方法性能与可解释性无法兼顾的缺陷,以医务人员可以理解的方式挖掘患者疾病时间序列数据中的因果关系,实现基于电子病历的因果发现和轨迹预测,从而使对因果关系中的子特征进行干预而祖先特征不受影响成为可能,辅助完成临床决策支持任务。

2、本发明采用的技术方案是:

3、一、一种基于时序数据的因果发现与疾病发展轨迹预测系统,包括:

4、数据预处理模块,用于预处理患者的时间序列疾病数据。

5、因果衍生模块,用于根据预处理后的患者的时间序列疾病数据预测获得患者的疾病特征导数量以及疾病特征间预测关系矩阵。

6、轨迹预测模块,用于根据预处理后的患者的时间序列疾病数据以及疾病特征导数量获得患者的疾病特征状态预测轨迹。

7、所述的患者的时间序列疾病数据包括以文本形式记录的不同时间点对应的患者的多项疾病特征数据。

8、二、一种因果发现与疾病发展轨迹预测系统的预测方法,包括:

9、1)将各个患者的电子病历真实疾病数据和预设模拟疾病数据输入因果发现与疾病发展轨迹预测系统中,同时不断优化因果发现与疾病发展轨迹预测系统,获得优化完成的因果发现与疾病发展轨迹预测系统;预设模拟疾病数据和电子病历真实疾病数据的形式一致。

10、2)将待预测的患者的电子病历真实疾病数据输入优化完成的因果发现与疾病发展轨迹预测系统中处理,处理后输出待预测的患者的疾病预测轨迹和疾病特征间预测关系矩阵,实现疾病的因果发现与发展轨迹的预测。

11、所述的步骤1)中,不断优化因果发现与疾病发展轨迹预测系统,具体为使用优化模块不断优化因果发现与疾病发展轨迹预测系统,在优化过程中使用因果图识别模块根据优化过程中获得的各个优化后的因果发现与疾病发展轨迹预测系统构建因果掩码矩阵,最终将因果掩码矩阵输入因果衍生模块中作为因果衍生模块的处理矩阵。保留的模型更有可能识别正确的因果关系。

12、因果图识别模块通过训练的多个系统的性能和稳定性来识别最可靠的因果关系,并返回因果关系矩阵,即因果掩码矩阵。

13、所述的优化模块具体使用增广拉格朗日方法进行优化,根据损失函数计算最终的损失保留损失小于预设损失阈值δ的各个优化后的因果发现与疾病发展轨迹预测系统,针对每个保留的优化后的因果发现与疾病发展轨迹预测系统,因果图识别模块获取因果发现与疾病发展轨迹预测系统的神经连接矩阵,具体如下:

14、

15、其中,mij表示第i个疾病特征是第j个疾病特征的原因;表示第i个疾病特征是第j个疾病特征的原因的确定性,当时则表示不确定,当时则表示确定;k表示疾病特征的总数;

16、当第i个疾病特征和第j个疾病特征的无效比例yij大于预设接受比例ρ,认为第i个疾病特征和第j个疾病特征之间的连接无效,则mij=0和当第i个疾病特征和第j个疾病特征的无效比例yij小于预设不可接受比例1-ρ,认为第i个疾病特征和第j个疾病特征之间的连接有效,则mij=1和其中,yij表示n个保留的优化后的系统中认为连接i→j无效的模型数量占总系统数量的比例,即无效比例,yij=eij/n,eij表示第i个疾病特征和第j个疾病特征连接有效的收敛系统数量。

17、直至因果发现与疾病发展轨迹预测系统中的各个疾病特征之间的因果关系均确定后构建获得因果掩码矩阵mk,此时

18、在开始时,初始化了矩阵m和每个因果关系都是不确定的。

19、所述的步骤2)中,将待预测的患者的电子病历真实疾病数据输入优化完成的因果发现与疾病发展轨迹预测系统中处理,具体如下:

20、2.1)将待预测的患者的电子病历真实疾病数据输入数据预处理模块中处理,处理后输出预处理真实疾病数据。

21、2.2)将预处理真实疾病数据和因果掩码矩阵mk输入因果衍生模块中处理,处理后输出患者的疾病特征导数量及疾病特征间预测关系矩阵。

22、2.3)将预处理真实疾病数据以及疾病特征导数量输入轨迹预测模块中处理,处理后输出患者的疾病特征状态预测轨迹。

23、所述的步骤2.1)中,数据预处理模块将待预测的患者的电子病历真实疾病数据按照时间序列整合为文本数据,然后依次进行格式统一处理、缺失数据处理和异常值处理后获得输出预处理真实疾病数据。

24、格式统一处理具体为将数据的单位进行统一;缺失数据处理具体为将缺失率高于30%的疾病特征进行筛除;异常值处理具体为将离散指标进行归一化映射处理。

25、所述的步骤2.2)中,因果衍生模块包括冈贝尔激活函数gumbel sigmoid、循环神经网络、前馈神经网络和稀疏惩罚,首先将预处理真实疾病数据中的离散变量使用冈贝尔激活函数gumbel sigmoid函数映射为连续变量,然后将映射后的预处理真实疾病数据输入循环神经网络中处理,处理后的输出和因果掩码矩阵mk相乘后输入前馈神经网络中处理,处理后输出患者的疾病特征导数量和邻接矩阵,将邻接矩阵构建为有向无环图dag(directed acyclic graph)后进行稀疏惩罚获得患者的疾病特征间预测关系矩阵。

26、因果衍生模块将连续变量和离散变量映射到相同的新变量空间,预测特征的导数,并引入前馈神经网络评估特征之间的连通性,对于离散变量,使用逻辑几率logit值代替真实值;通过构建邻接矩阵描述特征之间的预测关系,并使用稀疏惩罚去除虚假的因果连接;同时,考虑了因果图的有向无环图dag特性以保证模型的因果可解释性。

27、所述的步骤2.3)中,轨迹预测模块包括长短时记忆网络lstm(long short termmemory)、重参数化方法和数值ode(ordinary differential equation)求解器,将预处理真实疾病数据输入长短时记忆网络lstm中处理后输出患者的疾病特征统计量,然后使用重参数化方法对疾病特征统计量进行随机采样后获得患者的疾病初始状态,将患者的疾病初始状态和疾病特征导数量输入数值ode求解器中处理后输出患者的疾病特征状态预测轨迹。通过重参数化技巧引入随机性以更准确地模拟实际情况。

28、所述的数值ode求解器中使用变分自动编码器vae(variational auto-encoder)来估计患者的疾病初始状态的后验概率分布,根据患者的疾病特征导数量、疾病初始状态及其后验概率分布估计获得患者的疾病特征的变化速率,从而预测获得患者的疾病特征状态预测轨迹。

29、本发明结合变分自动编码器和lstm网络进行特征估计与统计量计算,通过常微分方程求解疾病进展轨迹;采用增广拉格朗日方法优化模型参数,保证因果关系的解释性;通过多模型训练与稀疏惩罚筛选可靠的因果关系,实现了疾病发展轨迹的准确预测与因果图的识别。本发明可基于患者慢性疾病的纵向数据挖掘出因果关系,给出因果可解释的疾病发展预测轨迹,解决深度学习进行轨迹预测不可解释和具有因果关系的父子特征互相影响的问题,从而辅助医生进行临床决策。

30、本发明的有益效果是:

31、本发明在达到与目前领先模型类似的疾病轨迹预测性能的前提下,额外具备因果发现功能;本发明通过引入ode解法以及变分自动编码器等先进技术,更准确地估计患者的疾病进展轨迹;本发明采用了因果衍生方法,将连续变量和离散变量映射到相同的新变量空间,并引入了神经网络连通性评估特征之间的关联性,从而提高了因果关系的可解释性;通过增广拉格朗日方法,本发明能够高效地解决优化问题,提升了模型训练的效率和收敛速度;通过训练多个模型并综合考虑它们的性能和稳定性,本发明的因果图识别算法具有更高的稳健性和可靠性,能够准确地识别特征之间的因果关系;对于离散变量,本发明使用了gumbel sigmoid函数进行映射,使得模型对离散变量的处理更加灵活和精确。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1