一种针对异构时间序列数据的信息挖掘方法

文档序号:35053112发布日期:2023-08-06 06:25阅读:95来源:国知局
一种针对异构时间序列数据的信息挖掘方法

本发明属于医疗预测领域,特别是涉及一种针对异构时间序列数据的信息挖掘方法。


背景技术:

1、电子健康档案(ehr),全称为electronichealthrecord,指的是一个纵向的患者电子医疗信息搜集系统,可以记录患者在所有医疗机构产生的数据。这种通过数字化方式存储的信息需要能够在不同的医疗机构之间共享,以便于让患者在不同的医生、医院、诊所,甚至不同国家的时候都能够得到良好的医疗服务,也可以让医生以及其他医疗服务人员、保险公司等在不同的设备之间共享该患者的医疗记录。

2、在ehr中,医生和其他医护人员通常使用文本来记录患者的健康信息和医疗历史。这些文本数据包括病历、实验室结果、放射学报告、医嘱、处方等,它们都以自然语言的形式存储。nlp技术可以分析这些文本信息,从中提取有用的信息,帮助医生和其他医护人员做出更准确的诊断和治疗决策。

3、以下是一些常见的nlp应用:

4、实体提取:该技术可以识别文本中的实体,并将它们与特定的类别相关联,例如疾病、药品、手术、实验室测试结果等。医护人员可以通过实体提取功能快速获取关于患者的有用信息,例如病史、治疗计划和过敏反应等。

5、自动摘要:该技术可以使用自然语言处理算法来自动生成文本的摘要或概述。对于大量的医疗记录,自动摘要可以帮助医生更快地了解患者的病情和诊断结果。

6、文本分类:该技术可以将文本数据自动分类到不同的类别中,例如疾病和症状、临床实验室、药品等。这可以帮助医生更好地理解患者的健康状况,并快速找到有关病情的相关信息。

7、情感分析:该技术可以分析文本中包含的情感色彩,例如患者的疼痛程度或病人对某种治疗方案的反应。这可以帮助医生更好地评估患者的病情和医疗需求,从而提供更好的护理和治疗计划。

8、语音识别:该技术可以将医护人员的口头指示转换为文本格式,并存储在ehr系统中。这可以帮助医护人员更快地记录患者信息,同时也可以帮助减少输入错误。综上所述,nlp技术可以帮助医护人员更好地利用ehr系统中的大量文本信息。通过实体提取、自动摘要、文本分类、情感分析等功能,nlp技术可以帮助医护人员更快地访问和分析患者的健康信息,从而提高医疗保健的质量和效率。

9、电子健康档案(ehr)属于时间序列数据,时间序列数据在数据挖掘中是一种常见的数据类型。其通常由多个时间状态下的数据组成,蕴含着丰富的时间信息,从中我们可以挖掘数据的演变规律,并进行合理的推测,这对于很多预测任务非常重要。

10、而异构的时间序列数据则更加复杂。一方面,现实世界的图远非同质的,异构信息网络普遍存在,如药物靶向生物医学网络和推荐网络;另一方面,异构时间序列数据可能具有不同的采样率、不同的时间跨度或不同的时间戳,也可能在不同的时间间隔内测量不同的变量或者属性。如何更好地挖掘异构时间序列数据中的各种信息,已成为近年来学术界广泛关注的问题。

11、在现有技术中,没有全面考虑ehr数据的各个特征,因此不能充分挖掘出隐藏在医疗代码与患者之间的潜在信息,这将影响模型的性能以及可解释性。现有模型虽然可以一定程度上处理不规则时间间隔的问题,但是都没有将时间信息视为一种“新”类型的医疗事件,以统一的方式学习每次访问的信息衰减率和每次访问中医疗事件之间的相关性,且不具有具有任务自适应性。


技术实现思路

1、本发明的目的是提供一种针对异构时间序列数据的信息挖掘方法,以解决上述现有技术存在的问题。

2、为实现上述目的,本发明提供了一种针对异构时间序列数据的信息挖掘方法,包括:

3、获取电子病历数据,基于所述电子病历数据构建超图,通过多层感知机和注意力机制对所述超图进行分析计算,得到嵌入表示数据;基于注意力机制构建任务自适应模型,通过所述任务自适应模型对所述嵌入表示数据进行分类加权,得到嵌入序列数据,

4、构建序列学习模型,通过所述序列学习模型对所述嵌入序列数据进行隐藏状态访问分析,得到所述嵌入序列数据的隐藏表示数据;

5、获取隐藏表示数据的权重数据,基于所述权重数据对所述嵌入序列数据进行加权,得到嵌入序列隐藏数据;

6、获取时间训练参数数据,通过所述时间训练参数数据对所述序列学习模型进行训练,通过训练后的序列学习模型对所述嵌入序列隐藏数据进行加权,得到所述嵌入序列数据的时间维度隐藏数据,构建全连接网络,通过所述全连接网络对所述时间维度隐藏数据进行预测分析,得到医疗事件预测数据。

7、可选的,所述电子病历数据包括:患者信息数据和医疗代码数据。

8、可选的,所述构建超图的过程包括:将所述患者信息数据作为超边集e,将所述医疗代码数据作为节点集c,基于所述超边集e和所述节点集c构建超图gh;

9、其中,所述构建超图gh的计算公式为:

10、

11、gh=(c,e)

12、式中,表示层l中的第i个患者或超边表示,np表示患者数量。

13、可选的,获取嵌入表示数据的过程包括:

14、基于所述注意力机制对所述超图gh进行分析,得到所述超图gh的重要数据,通过多层感知机对所述重要数据进行迭代分析,得到嵌入表示数据node;

15、其中,所述获取嵌入表示数据node的计算公式为:

16、

17、

18、其中,φ(c)=pj|c∈pj表示包含节点c的超边表示集,w是可学习的参数矩阵,ψ是由mlp实现的节点和超边嵌入之间的兼容性度量函数。

19、可选的,所述任务自适应模型包括任务已知注意力模型和任务未知注意力模型

20、其中,所述任务已知注意力模型为:

21、

22、所述任务未知注意力模型为:

23、

24、所述任务已知注意力模型的输出ot与任务未知注意力模型的输出为:

25、

26、

27、式中,其中为主要事件的嵌入表示,为次要事件的嵌入表示,n为事件的种类数:m,d,l,p为医疗事件类型event的一种,分别代表药物,诊断,实验室测试与手术;

28、基于所述任务已知注意力模型的输出ot和所述任务未知注意力模型的输出构建访问嵌入序列数据;

29、所述访问嵌入序列数据为[o1,o2,…,ot]。

30、可选的,获取所述隐藏表示数据的过程包括:

31、选取任意序列建模网络backbone作为骨干网络,基于所述骨干网络构建序列学习模型,通过所述序列学习模型对所述访问嵌入序列数据进行分析计算,得到隐藏表示数据h;

32、其中,所述获取隐藏状态访问数据h的计算公式为:

33、h=[h1,h2,…,ht]=backbone[o1,o2,…,ot]。

34、可选的,获取嵌入序列隐藏数据的过程包括:通过访问级别注意力机制获取所述隐藏表示数据h的权重数据[α1,…,αt],基于所述权重数据[α1,…,αt]对所述嵌入序列数据进行加权,得到嵌入序列隐藏数据

35、其中,所述获取嵌入序列隐藏数据的计算公式为:

36、

37、

38、其中,为从1到t的访问的隐藏状态矩阵。

39、可选的,获取时间维度隐藏数据的过程包括:

40、所述时间训练参数数据包括:wδgt1、bδgt1、wδgt2和bδgt2;

41、基于所述时间训练参数数据对所述序列学习模型进行训练;

42、所述对所述序列学习模型进行训练的计算过程为:

43、

44、其中,wδgt1∈rb,bδgt1∈rb,wδgt2∈rm×b,bδgt2∈rm;

45、模型训练完成后利用sigmoid函数获取全局时间衰减得分数据[β1,...,βt],基于所述全局时间衰减得分数据[β1,...,βt]对所述嵌入序列隐藏数据进行加权,得到时间维度隐藏数据

46、其中,所述获取时间维度隐藏数据的计算过程为:

47、

48、

49、可选的,获取医疗事件预测数据y′的过程包括:

50、y′=σ(wu[h′,es]+bu)

51、其中,wu∈rρ×(b+g),为训练参数。本发明的技术效果为:

52、本发明提供的一种针对异构时间序列数据的信息挖掘方法将超图结构融入到异构时间序列数据建模过程中,这种做法可以在超图结构中保留患者的概念,并且与真实医生就诊过程非常相近,即通过对比相似症状的病人的治疗方案以对病情进行更合理的诊断以及防治工作。这为人工智能模型进行医疗工作提供了非常重要的可解释性,并且辅助医生就诊。同时针对下游任务调整不同的attention方式,以统一的方式学习每次访问的信息衰减率和每次访问中医疗事件之间的相关性,这种注意力机制是时间感知和任务自适应的。这种模式可以在多种下游任务中获得性能提升,在提高准确率的同时不失泛化性,这使得本发明可以应对更多更复杂的实际医疗情况,从多角度辅助医护人员工作;本技术的技术方案能够根据任务类型动态调整学习模式以更新嵌入,随后进入序列学习模块,利用时间步信息学习时间维度上的复杂信息,能够得到精确的医疗事件预测结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1