一种基于注意力机制的多模态异步时序预测方法及装置

文档序号:34945333发布日期:2023-07-29 01:07阅读:77来源:国知局
一种基于注意力机制的多模态异步时序预测方法及装置

本发明涉及人工智能辅助诊疗,具体涉及一种基于注意力机制的多模态异步时序预测方法及装置。


背景技术:

1、近年来,深度学习在处理时序数据方面获得了极大的进步,如自然语言处理、语音识别等领域,但临床场景中的时序数据处理仍处于探索阶段。在临床实践中,由于需要多次且不定期进行多种检查以关注病情进展,会源源不断地产生多模态、异构且在时间上不对齐的时序数据。这些时序数据通常与病情密切相关,除了临床检测结果本身,其中包含的做检测的时间点、时间间隔信息等均能在一定程度上反映患者的相关病情情况。因此对临床多模态异步时序数据进行建模与深度挖掘,能够有效实现临床早期诊断与预防,具有极大的现实意义。

2、在临床实践中,多模态异步时序数据的建模任务是一项艰巨的挑战,这是由现实世界种临床时序数据的特性决定的:首先,它总是时序性的,并且由于相同指标测量时间间隔不一致、不同指标测量频率不一致等原因,它在时间序列上总是异步的;另外,它总是多模态的,包括但不限于影像数据、临床检验指标、实验室值等。

3、随着深度学习的快速发展,对异步时序数据分析建模的方法越来越多。其中,最经典的方法之一是递归神经网络。传统的神经网络只会关注当前时刻的处理,不会关注上一时刻的处理会有什么信息可以用于下一时刻。但递归神经网络带有一个指向自身的环,用来传递当前时刻处理的信息给下一时刻使用,实现了记忆功能。其中长短期记忆网络还解决了原始递归神经网络中可能出现的梯度消失、梯度爆炸问题,并实现了“长时”记忆。然而递归神经网络本质为某一过程的离散近似,并且默认时序数据的时间间隔是同步的,当数据是不规则采样时,这种离散化方法通常会失效。

4、神经微分方程是目前对某一过程连续建模的常用选择,它描述了一个过程连续的变化。其中,神经常微分方程描述了某些由一个变量决定的过程随时间的变化,如果以恰当的形式给出微分方程,即可通过解析法对其进行求解。神经常微分方程把时序数据建模从离散世界带到了连续世界,但是,它存在一个基本问题:常微分方程的解是由其初始条件决定的,缺乏根据后续观察调整轨迹的机制。然而现实情况中,临床数据包含各种各样的模态,如影像数据、临床检验指标、实验室值等等,并且几乎总是不定期采样的,不同时间点的数据都对预测结果有不同程度的影响,故而神经常微分方程的特点限制了其临床预测性能。有研究提出神经受控微分方程的概念,解决了神经常微分方程的解由初始值决定的问题,使得后续产生的时序数据可以得到进一步利用,同时又保证隐藏状态是连续变化的。然而它没有考虑到不同时间点对预测的权重影响,现实情况中,距离预测时间越久远的临床数据信息,通常情况下对临床预测结果影响越小。

5、因此,需要一种能有效权衡待预测时间点前不同时刻临床信息的多模态异步时序预测方法,该方法能够统一不同模态的临床数据,更好地利用临床异步时序数据,并结合患者静态人口统计信息,得到更加准确的临床预测结果,实现早诊断、早预防,降低患病率。


技术实现思路

1、针对现有技术中存在的缺陷,本发明的目的在于提供一种基于注意力机制的多模态异步时序预测方法及装置;用以解决临床场景中出现的时序预测任务,填补了临床场景中异步时序建模的空白,有助于实现疾病的早期筛查与预防,提出了一种简单的非线性注意力机制,能够有效利用异步时序数据中时序信息和数据本身信息,简单高效地生成时序注意力与自注意力,从而提高异步时序预测精度,并保证模型的简单轻量。

2、为达到以上目的,本发明采取的技术方案是:

3、获取医疗实践中的多模态数据,并对获取的多模态数据进行预处理以实现格式统一和时间上的对齐;

4、构建非线性的时序注意力矩阵和基于简单注意力机制的异步时序预测模块;

5、基于异步时序预测模块,将时序注意力矩阵以及多模态数据的静态特征和时序特征输入,得到输出的静态特征和时序特征,并将输出的静态特征和时序特征进行拼接,基于最大池化操作得到预测结果;

6、根据得到的预测结果与多模态数据标签之间的交叉熵损失,对时序注意力矩阵和异步时序数据预测模块进行迭代训练;

7、基于训练完成的异步时序数据预测模块实现多模态异步时序预测。

8、在上述技术方案的基础上,所述多模态数据包括放射学、实验室和临床检验数据。

9、在上述技术方案的基础上,所述构建非线性的时序注意力矩阵,具体步骤包括:

10、构建非线性时序注意力矩阵生成模块,并将时间点序列转置作差,得到初始化的线性时序注意力矩阵;

11、将初始化的线性时序注意力矩阵输入非线性时序注意力生成模块,得到非线性的时序注意力矩阵;

12、所述得到非线性的时序注意力矩阵,具体实现过程为:

13、t=[t1,t2,...,tt]

14、temporal_attn=mlp(repeat_t-t′)

15、其中,t为1*t的时间间隔序列,tt为第个t时间间隔,repeat_t为t重复t次的结果,t′为t的转置,temporal_attn为时序注意力矩阵,mlp为多层感知器。

16、在上述技术方案的基础上,在得到非线性的时序注意力矩阵的同时,还包括:

17、根据损失函数的回传训练非线性时序注意力生成模块。

18、在上述技术方案的基础上,在构建非线性的时序注意力矩阵之后,还包括:对于对齐后的多模态数据中的稀疏数据,对稀疏数据添加观测强度;

19、所述对于对齐后的多模态数据中的稀疏数据,对稀疏数据添加观测强度,具体为:

20、基于稀疏数据的时序数据中每个位置的实际记录,得到针对时序数据的mask,并在时间纬度进行累加操作,得到当前时序数据对应的时刻之前每个特征的记录次数,作为观测强度。

21、在上述技术方案的基础上,所述异步时序数据预测模块包括多个非线性简单异步时序注意层、一个全连接层和一个池化层;

22、所述非线性简单异步时序注意层,具体为:

23、simta_plus(x,t)=softmax(a)σ(f(x))

24、其中,simta_plus为非线性简单异步时序注意层,x为输入变量,t为时间间隔序列,softmax为激活函数,σ为激活函数,f为全连接层,a为注意力矩阵。

25、在上述技术方案的基础上,所述基于异步时序预测模块,将时序注意力矩阵以及多模态数据的静态特征和时序特征输入,得到输出的静态特征和时序特征,具体步骤包括:

26、将多模态数据的静态特征和时序特征作为输入,输入当前非线性简单异步时序注意层;

27、将输入的静态特征通过全连接层,得到当前非线性简单异步时序注意层的输出静态特征;

28、拼接输入的静态特征与时序特征并生成自注意力矩阵,将生成的自注意力矩阵与时序注意力矩阵相加,得到总注意力矩阵;

29、将输入的时序特征自通过全连接层,得到处理后时序特征,并将处理后时序特征与总注意力矩阵相乘,得到当前非线性简单异步时序注意层的输出时序特征;

30、将当前非线性简单异步时序注意层的输出静态特征与输出时序特作为输入,输入下一非线性简单异步时序注意层,依此循环,直至最后一非线性简单异步时序注意层输出静态特征和时序特征。

31、在上述技术方案的基础上,所述将输出的静态特征和时序特征进行拼接,基于最大池化操作得到预测结果,具体步骤包括:

32、将最后一非线性简单异步时序注意层输出的静态特征和时序特征进行拼接,得到拼接结果;

33、将拼接结果输入分类器,得到不同时间点的预测概率,并且在时间纬度上对拼接结果进行最大池化操作,得到预测结果。

34、在上述技术方案的基础上,所述根据得到的预测结果与多模态数据标签之间的交叉熵损失,对时序注意力矩阵和异步时序数据预测模块进行迭代训练,具体步骤包括:

35、基于损失函数计算预测结果与多模态数据标签之间的交叉熵损失,对所述时序注意力矩阵以及异步时序数据预测模块进行迭代训练;

36、其中,损失函数为:

37、

38、其中,l为损失程度,n为多模态数据的数量,yi为第i个多模态数据的标签,pi为第i个多模态数据预测为正类的概率。

39、本发明还提供一种基于注意力机制的多模态异步时序预测装置包括:

40、获取模块,其用于获取医疗实践中的多模态数据,并对获取的多模态数据进行预处理以实现格式统一和时间上的对齐;

41、构建模块,其用于构建非线性的时序注意力矩阵和基于简单注意力机制的异步时序预测模块;

42、执行模块,其用于基于所述构建模块构建的异步时序预测模块,将时序注意力矩阵以及多模态数据的静态特征和时序特征输入,得到输出的静态特征和时序特征,并将输出的静态特征和时序特征进行拼接,基于最大池化操作得到预测结果,根据得到的预测结果与标签之间的交叉熵损失,对时序注意力矩阵和异步时序数据预测模块进行迭代训练,并基于训练完成的异步时序数据预测模块实现多模态异步时序预测。

43、与现有技术相比,本发明的优点在于:

44、(1)本发明提出了一种基于注意力机制的多模态异步时序数据预测方法及装置,用以解决临床场景中出现的时序预测任务,填补了临床场景中异步时序建模的空白,有助于实现疾病的早期筛查与预防。

45、(2)本发明提出了一种简单的非线性注意力机制,能够有效利用异步时序数据中时序信息和数据本身信息,简单高效地生成时序注意力与自注意力,从而提高异步时序预测精度,并保证模型的简单轻量。

46、(3)本发明针对稀疏记录的数据集,加入观测强度指标,充分挖掘数据本身携带的信息,有效利用不同时序特征的发生频率信息,提升异步时序预测准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1