一种基于个性化状态空间进展模型的疾病辅助决策系统

文档序号:31443954发布日期:2022-09-07 11:27阅读:150来源:国知局
一种基于个性化状态空间进展模型的疾病辅助决策系统

1.本发明涉及医疗信息技术领域,尤其涉及一种基于个性化状态空间进展模型的疾病辅助决策系统。


背景技术:

2.心血管疾病、糖尿病、帕金森等慢性疾病进展缓慢,进程长,往往需要终生治疗,给患者本人、医护人员和医疗服务系统带来巨大的负担。现代电子健康记录(ehr)的出现为建立疾病进展模型提供了机会,该模型可以预测个体水平的疾病轨迹,并提取可理解和可操作的疾病动态表征。
3.构建疾病进展模型主要有三个任务:疾病轨迹建模、疾病进展预测、解释疾病异质性。疾病轨迹建模旨在挖掘疾病随时间的变化模式;疾病进展预测旨在预测患者未来的疾病特征变化,估计死亡率、再入院率、药物不良反应等;解释疾病异质性是构建疾病进展模型的一大难点。造成这种异质性的主要原因是,患者一方面拥有表型异质性(个体水平),另一方面还处于动态疾病过程的不同阶段,导致了疾病生物标志物在不同患者不同疾病阶段的显著差异,包括成像的体积测量、肿瘤特异性蛋白水平测量和行为测量评分等。构建一个能同时分离表型和时间异质性的疾病进展模型仍然是一个挑战。
4.现有技术基于患者的特征来预测特定患者的疾病进展。基于特定患者的预测疾病进展来执行优化以确定特定患者的最佳疗法类型和最佳疗法时机。主要步骤:1、获取时序数据2、构建动态系统(即轨迹建模,使用动态系统识别算法,神经网络等)3、轨迹聚类4、预测。现有技术有以下不足:1. 用于预测疾病进展的普通循环神经网络(rnn等)是黑箱模型,不关注疾病潜在的状态空间,不能解释疾病的隐藏状态,不能提供可理解的疾病进展模型,局限于预测某一目标,虽然rnn也有hidden state,但不能映射到有临床意义的疾病状态。
5.2. 经典的隐马尔可夫模型是一种过于简化的无记忆的概率模型,下一时间节点的状态仅取决于当前时间节点的状态,与之前时刻的状态无关。无法正确解释由于患者不同的临床病史或临床事件导致的患者的疾病进展轨迹的异质性。
6.3. 先进行轨迹建模后进行轨迹聚类的结构框架,在轨迹建模时不能充分利用同一亚组中的数据(因为还不知道类别),当出现离群点时聚类是不可靠的。且这种结构框架无法确定聚类的类别数目。


技术实现要素:

7.本发明目的在于针对现有技术的不足,提出一种基于个性化状态空间进展模型的疾病辅助决策系统,能够完成疾病进展模型的三个任务:疾病轨迹建模、疾病进展预测、解释疾病异质性。本发明的目标是将若干患者分为具有相同疾病轨迹的若干类,同时可以获得患者分型和疾病隐藏状态。本发明采用状态空间模型(深度概率模型)进行疾病轨迹建模,能够映射到有临床意义的疾病状态,且能够对疾病进展进行预测。本发明基于中餐馆过
程将若干患者分为具有相同疾病轨迹的若干类。患者聚类和轨迹建模同时进行,并不断互相修正。不需要定义类别数目。
8.本发明的目的是通过以下技术方案来实现的:一种基于个性化状态空间进展模型的疾病辅助决策系统,该系统包括数据获取模块、个性化状态空间进展模型模块和辅助决策模块;所述数据获取模块用于获取患者的电子病历记录,第一次就诊获得的基线数据和之后多次就诊获得的随访记录数据;所述个性化状态空间进展模型模块用于将患者聚类和疾病进展轨迹识别嵌套在一起,更新迭代直至收敛得到个性化状态空间进展模型,包括解释患者异质性子模块和构建疾病进展模型子模块;所述解释患者异质性子模块用于将疾病进展轨迹相似的患者聚类到同一亚型;所述构建疾病进展模型子模块用于通过构建状态空间对疾病发展轨迹建模,状态空间中状态变量为患者的健康状态,状态空间中观测变量为患者的随访记录数据;由对应患者健康状态的观测变量的概率分布得到疾病进展模型的发射分布,并由当前时刻前所有就诊时的观测变量和状态变量得到疾病进展模型的状态转移分布;所述辅助决策模块用于基于个性化状态空间进展模型预测患者未来的疾病进展,帮助临床医生进行辅助决策。
9.进一步地,随访记录数据包含人口统计学数据、生物标志物和临床事件信息。
10.进一步地,所述数据获取模块获取的数据经过预处理后再输入个性化状态空间进展模型模块,数据预处理包括特征筛选、时序对齐、填充缺失值和数据标准化。
11.进一步地,所述解释患者异质性子模块将所有患者分为若干个亚型,如果新的患者被分配到现有的亚型中,则更新对应亚型的疾病进展模型参数,假设疾病进展模型参数在每个亚型上满足高斯分布,采用蒙特卡洛采样方法计算每个患者属于某亚型的概率,完成患者聚类。
12.进一步地,患者的随访记录数据为状态空间的观测变量,包括连续变量和分类变量,假设连续变量为高斯分布,分类变量为伯努利分布,基于两类观测变量,得到疾病进展模型的发射分布。
13.进一步地,基于注意力机制计算权重获得状态转移分布,注意力权重通过线性动力学模拟过去状态对未来状态的影响,通过注意力机制将每个时间步中患者的观测变量映射到一组注意力权重,用隐马尔可夫模型中的t时刻的状态转移分布乘以映射的注意力权重并求和后表示疾病进展模型的状态转移分布。
14.进一步地,注意力机制通过序列对序列seq2seq模型实现,seq2seq模型使用lstm编码器-解码器体系结构,将每个时间步患者的观测变量输入lstm编码器,lstm编码器的最终状态和最终输出一起被传递到lstm解码器;在lstm解码器中使用lstm编码器的最终状态作为lstm解码器的初始状态,使用lstm解码器的最终输出作为下一个时间步seq2seq模型的输入,在t-1时刻的解码迭代后,通过softmax输出层收集t时刻前所有时刻的注意力权重。
15.进一步地,使用变分推断得到疾病进展模型参数的后验分布,用于学习疾病进展模型参数并估计患者的实时健康状态。
16.进一步地,使用最大化证据下界的方法进行变分推断,将疾病进展模型参数的后验分布推断问题转变为优化问题,优化问题的模型参数使用随机梯度下降法进行学习。
17.进一步地,辅助决策包括基于个性化状态空间进展模型预测患者未来的各项指标变化情况,预测未来疾病发生、复发或死亡的风险,以及协助临床医生对新的患者进行分型,针对不同分型的患者给予不同的对症治疗手段。
18.本发明的有益效果:1)本发明没有使用缺乏可解释性的神经网络黑箱模型挖掘疾病进展轨迹,而是使用了深度概率模型(状态空间模型),关注疾病潜在的状态空间,有效解释了疾病的隐藏状态,提供了可供理解的疾病进展模型。
19.2)本发明采用了迭代聚类的方法,充分利用了同一类别中的患者数据,在挖掘疾病进展轨迹的同时将患者分为若干个亚型,且随着亚型内患者丰富不断修正该亚型的疾病进展轨迹。
20.3)本发明可以基于个性化状态空间进展模型直接估计出最佳的聚类数目。
附图说明
21.图1为本发明实施例提供的整体系统框图。
22.图2为本发明实施例提供的构建个性化状态空间进展模型过程的示意图。
23.图3为本发明实施例提供的疾病进展模型的结构图。
具体实施方式
24.以下结合附图对本发明具体实施方式作进一步详细说明。
25.如图1所示,本发明提供的一种基于个性化状态空间进展模型的疾病辅助决策系统,包含数据获取模块、个性化状态空间进展模型模块和辅助决策模块三个部分。
26.所述数据获取模块用于获取真实世界的电子病历记录,将所有患者在医院多次就诊期间收集的连续随访记录数据的集合记为。将患者s的随访记录数据集合表示为,其中是患者s第t次就诊的随访记录数据,t为患者s总就诊次数。随访记录是一个多维向量,包含人口统计学数据(年龄、性别、家族史等)、生物标志物(在细胞、组织、器官、系统等级别上的各种测量结果)和临床事件信息(icd-10诊断代码和治疗手段等)。
27.具体地,以帕金森病为例,收集的数据集合包括第一次就诊获得的基线数据和之后多次就诊获得的随访记录数据。随访记录数据包括每一次就诊时通过mri或pet/ct获得的影像报告数据、阶段性服药记录和通过医生问诊或其他方式获得的开关期量表评分(帕金森病统一评分量表、爱泼沃斯嗜睡量表、老年抑郁量表、蒙特利尔认知评估量表、冲动-强迫障碍问卷、自主神经量表、hoehn-yahr分级表等)。基线数据除以上随访检查项目外还包括人口统计学信息如患者的年龄、性别、帕金森病家族史、起病侧、接受教育时间等。
28.所述数据获取模块获取的数据经过预处理后再输入个性化状态空间进展模型模块,数据预处理主要包括特征筛选、时序对齐、填充缺失值和数据标准化。
29.特征筛选:由于纳入特征维度较高,需要进行特征筛选以降低特征冗余,排除噪声
干扰。可以使用主成分分析、潜变量模型等降维方法提取特征的有效信息。
30.时序对齐:不同患者的随访频次不一致,要将所有患者的时序对齐到相同的频次。以帕金森病为例,一般患者在确诊第一年内每三个月随访一次,确诊第二年内每六个月随访一次,确诊第三年之后每年随访一次。
31.填充缺失值:在时序对齐后会出现大量缺失值,可以采用前向插值的方法填充缺失值。
32.数据标准化:为了使各项特征处于同一量纲级别,可以采用z-score标准化法或极差标准化法进行数据标准化。
33.所述个性化状态空间进展模型包括解释患者异质性子模块和构建疾病进展模型子模块两个部分,如图2所示:总的来说,将患者聚类和疾病进展轨迹识别两个过程嵌套在一起,不断进行更新和迭代直至收敛。具体地,从一个空的聚类开始,对于第一个患者,以一个随机概率被分配到第一个亚型中,并得到该亚型的疾病进展模型。基于这个亚型,之后的患者聚类分配取决于它们疾病进展轨迹上的相似性,如果新的患者被分配到现有的亚型中,则更新该亚型的疾病进展模型参数,这个过程将在所有患者被聚类完成后结束。
34.所述解释患者异质性子模块用于将疾病进展轨迹相似或相同的患者聚类到同一亚型,本发明利用中餐馆过程(chinese restaurant process, crp)作为个性化状态空间进展模型构建框架。crp是一个离散事件的随机过程,由狄利克雷过程扩展获得。在这个过程中,一个顾客坐在一张桌子旁的概率是由已经坐在这张桌子旁的其他顾客的数量计算出来的。本发明将患者s认为是一个顾客,共有n个顾客,表示第s个顾客选择的桌子,表示坐在第k张桌子旁的顾客数量。假设前s-1个顾客共占据了k张桌子,第s个顾客选择桌子的概率可以描述为:其中a是一个给定的参数。在本发明中,被分配到同一桌子的患者代表拥有相同的疾病进展轨迹。因此,第s个患者被划分到第k个亚型的概率可以描述为:其中基于疾病进展模型获得,其中包含了疾病进展轨迹信息,通过估计可以将所有患者分为q个亚型。假设θ为疾病进展模型的所有参数集合,由于同一亚型中不同患者的疾病进展轨迹是相同或相似的,令为第k个亚型的疾病进展模型的参数集合。考虑到亚型间的差异及同一亚型中患者的相似性,假设参数在每个亚型上满足高斯分布,即其中,表示高斯分布,表示第k个亚型中所有患者数据的均值和方差;因此,根据下式可以计算每个患者属于第k个亚型的概率:
由于上式积分没有解析解,可以采用蒙特卡洛采样等方法计算积分。
35.所述构建疾病进展模型子模块通过构建状态空间对目标疾病的发展轨迹建模,将患者第t次就诊认为是一个时间步,即假设在t时刻的患者的健康状态处于,其中状态变量可以通过随访记录数据体现,表示所有患者在t时刻的随访记录数据,如图3所示,状态空间是疾病发展的所有可能疾病阶段的离散集合,m表示第m个疾病阶段。一般来说,病程的发展阶段与不同的疾病表型相对应。例如,阿尔兹海默症的进展一般分为7个阶段,每个阶段对应了不同程度的认知能力衰退和痴呆症状。且由于患者的真实健康状态是未知的,可以用表示,假设是隐藏状态,将在无监督的情况下学习到。将疾病进展模型表示为状态和观测变量的联合分布:其中,表示所有患者状态变量的集合,疾病进展模型的发射分布表示在t时刻,当患者的健康状态处于时,观测变量(即随访记录)为的概率分布。观测变量既包含连续变量(如生物标志物、年龄等)又包含分类变量(例如临床事件、icd-10代码等)。为了同时得到两类观测变量,将发射分布分解为:其中即假设连续变量为高斯分布,表示当患者健康状态处于时的均值和方差,分类变量为伯努利分布,用逻辑斯蒂分布表示伯努利分布取1的概率,表示当患者健康状态处于时的逻辑斯谛分布的散布程度。
36.疾病进展模型的状态转移分布表示t时刻的状态分布由之前所有时刻的观测变量和状态变量决定。该状态转移分布可以使用隐马尔可夫模型的转移矩阵,即当前时刻的状态只与前一时刻的状态有关。隐马尔可夫模型(及其变体)的缺点是无记忆性,使得患者的疾病进展轨迹的异质性无法被正确解释。本发明中选择使用一种基于注意力机制计算权重的方法来获取状态转移分布:其中,为t时刻状态变量的注意力权重:注意力权重通过线性动力学模拟了过去状态对未来状态的影响,因此状态转移分布可以表示为:
其中是隐马尔可夫模型中的t时刻的状态转移分布,将该状态转移分布乘以t-1个权重并求和后用于表示疾病进展模型的状态转移分布。通过注意力机制a分配t时刻前所有状态的注意力权重,即。其中,表示t时刻之前的所有患者观测变量集合。
37.注意力机制a是一个确定性算法,它生成了一个函数序列,将每个时间步中患者的t时刻之前的观测变量集合映射到一组注意力权重。由于注意力机制a在每个时间步中输出一个完整的注意力权重序列,本发明中通过一个序列对序列(seq2seq)模型实现注意力机制a。seq2seq模型可以使用lstm编码器-解码器体系结构,对于时间步t,患者的t时刻之前的观测变量集合被输入lstm编码器,lstm编码器的最终状态和最终输出一起被传递到lstm解码器。在lstm解码器中使用lstm编码器的最终状态作为lstm解码器的初始状态,使用lstm解码器的最终输出作为下一个时间步seq2seq模型的输入,在t-1时刻的解码迭代后,通过softmax输出层收集t时刻前所有时刻的注意力权重。
38.为了得到状态和观测变量的联合分布的模型参数(疾病进展模型参数),使用变分推断或其他贝叶斯推断算法推断后验分布,得到疾病进展模型参数集合θ并估计患者的健康状态。具体来说,在变分推断中最大化数据似然的证据下界(evidence lower bound, elbo),即:其中是近似后验分布的一个变分分布,表示求分布的期望。
39.将后验分布推断问题转变为以下优化问题,对变分分布进行建模:其中,表示求解后的疾病进展模型参数集合,表示求解后的分布的参数集合。
40.该优化问题中的模型参数可以使用随机梯度下降法进行学习。随机梯度下降法的基本步骤可以概括为:1、从中随机采样获得分布下的患者的实时健康状态;2、估计n个患者的elbo值:其中,表示优化问题的目标函数,即;
3、估计参数θ和参数的梯度和;4、更新数θ和参数。可以使用自适应动量估计(adaptive moment estimation, adam)或其他优化算法对参数进行更新。
41.所述辅助决策模块用于基于个性化状态空间进展模型可以预测未来的疾病进展并输出给临床医生进行辅助决策。辅助决策模块包含以下几个方面:

基于个性化状态空间进展模型预测某一患者未来的各项指标变化情况:对已有公认进展指标的疾病,可以基于个性化状态空间进展模型预测某一患者未来该进展指标的值。以帕金森病为例,帕金森病统一评分量表第三部分评分是公认的评估帕金森病运动症状的指标,基于该个性化状态空间进展模型可以预测未来一段时间内的评分值。
42.②
可以预测未来疾病(并发症)发生、复发或死亡的风险,对临床医生及患者起到警示作用。以帕金森病为例,基于该个性化状态空间进展模型可以预测患者何时出现认知功能障碍,提示用药或使用其他能够改善症状的治疗手段。
43.③
可以协助临床医生对(新的)患者进行分型,针对不同分型的患者给予不同的对症治疗手段。以帕金森病为例,根据疾病进展速度不同可以将患者划分为进展快和进展慢两组,预测新确诊的帕金森病患者进展速度可以有效辅助医生对其病情进行干预。
44.以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1