基于多源异构数据的疾病分析方法及系统

文档序号:35625948发布日期:2023-10-05 22:33阅读:47来源:国知局
基于多源异构数据的疾病分析方法及系统

本发明涉及疾病分析领域,尤其涉及基于多源异构数据的疾病分析方法及系统。


背景技术:

1、随着信息化的不断深入,电子病例已经替代了纸质病例,众多的医院经年累月产生了海量的电子病例,而且这些临床数据每天都在不断增加。疾病是人体的一种状态,由于人体结构复杂,疾病或者患病也是一个复杂的过程,疾病这一人体状态是受到多方面的影响的,例如环境、遗传、人体免疫系统等,对于疾病的分析也需要从多个方面着手。医院中海量的临床数据是真实的人体患病数据,由于不同的人生活习惯、生活环境以及遗传和自身免疫不同,甚至疾病之间也会相互影响,需要通过多个方面对医院临床数据的分析,找到引起疾病的主要原因,并且可以获得药物对于疾病的影响,通过对医院临床数据的分析可以得到患者画像、疾病、药物等这些相关内容的关联关系。

2、但是不同的医院采用的信息系统不同,相同格式的文件的内容、数据单位等不同,而且还会涉及到不同的格式文件,例如电子病例为文档文件,ct图像、b超图像为图像文件等,根据这些数据对疾病进行分析是一项困难的任务,如果仅仅对某一个医院的电子病例进行分析,则对疾病的分析不够充分,如何快速的对不同医院、不同格式的临床数据进行分析是疾病分析中要重点解决的问题。


技术实现思路

1、针对不同医院的临床数据格式以及处理方式不同的问题,本发明提供了一种多源异构数据的疾病分析方法,所述方法包括以下步骤:

2、设置与待分析疾病对应的关键词,根据所述关键词对医院的数据库进行检索,得到特定字段含有所述关键词的用户临床数据,对所述临床数据进行数据脱敏,构建用户画像;

3、获取与每个医院的用户画像对应的分析程序,建立医院与分析程序的对应关系,基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的pod种类,并基于医院对应的用户画像数量确定每种pod的个数;所述分析程序包括至少一个分析子程序;

4、在pod的容器中运行与pod对应的子程序以处理与pod对应的用户画像的数据并得到分析结果;

5、将每个pod的所述分析结果写入数据库中,利用spark对数据库中的所述分析结果进行数据分析,得到与所述待分析疾病相关的统计信息。

6、优选地,所述基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的pod种类,并基于医院对应的用户画像数量确定每种pod的个数,具体为:

7、若所述分析程序包括m个文本分析子程序和n个图像分析子程序,则要创建的pod的种类为m+n,每个所述文本分析子程序对应pod的个数为k;

8、图像分析子程序对应的pod的个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定;

9、其中,m、k为正整数,n为自然数。

10、优选地,所述k的计算方式为:

11、设置文本分析子程序基本pod个数l,具有最少用户画像个数的医院对应的文本分析子程序的pod个数k=l,其他医院对应的文本分析子程序的pod个数其中β为其他医院用户画像个数与所述最少用户画像个数的比值;其中l为正整数。

12、优选地,所述图像分析子程序对应的pod个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定,具体为:

13、获取k个文本分析子程序处理完一个用户画像对应数据的平均用时t1和图像分析子程序处理完一个用户画像对应数据的用时t2,则图像分析子程序对应的pod个数为

14、优选地,所述将每个pod的所述分析结果写入数据库中,具体为:

15、在pod所在的节点的内存中存储pod对应的分析结果,当一个用户画像对应的pod中的分析子程序都处理完毕后,从pod所在节点的内存中获取结果,并组合成一条记录插入到数据库中。

16、此外,本发明还提供了一种多源异构数据的疾病分析系统,所述系统包括以下模块:

17、检索模块,用于设置与待分析疾病对应的关键词,根据所述关键词对医院的数据库进行检索,得到特定字段含有所述关键词的用户临床数据,对所述临床数据进行数据脱敏,构建用户画像;

18、环境构建模块,用于获取与每个医院的用户画像对应的分析程序,建立医院与分析程序的对应关系,基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的pod种类,并基于医院对应的用户画像数量确定每种pod的个数;所述分析程序包括至少一个分析子程序;

19、处理模块,用于在pod的容器中运行与pod对应的子程序以处理与pod对应的用户画像的数据并得到分析结果;

20、分析模块,用于将每个pod的所述分析结果写入数据库中,利用spark对数据库中的所述分析结果进行数据分析,得到与所述待分析疾病相关的统计信息。

21、优选地,所述基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的pod种类,并基于医院对应的用户画像数量确定每种pod的个数,具体为:

22、若所述分析程序包括m个文本分析子程序和n个图像分析子程序,则要创建的pod的种类为m+n,每个所述文本分析子程序对应pod的个数为k;

23、图像分析子程序对应的pod的个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定;

24、其中,m、k为正整数,n为自然数。

25、优选地,所述k的计算方式为:

26、设置文本分析子程序基本pod个数l,具有最少用户画像个数的医院对应的文本分析子程序的pod个数k=l,其他医院对应的文本分析子程序的pod个数其中β为其他医院用户画像个数与所述最少用户画像个数的比值;其中l为正整数。

27、优选地,所述图像分析子程序对应的pod个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定,具体为:

28、获取k个文本分析子程序处理完一个用户画像对应数据的平均用时t1和图像分析子程序处理完一个用户画像对应数据的用时t2,则图像分析子程序对应的pod个数为

29、优选地,所述将每个pod的所述分析结果写入数据库中,具体为:

30、在pod所在的节点的内存中存储pod对应的分析结果,当一个用户画像对应的pod中的分析子程序都处理完毕后,从pod所在节点的内存中获取结果,并组合成一条记录插入到数据库中。

31、最后,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的方法。

32、医院的接诊人数较多,产生的数据也较多,不同的医院采用的信息系统不同,电子病历、影像系统等也不同,数据量大、格式不同等多源异构数据是对疾病分析的难点。本发明针对上述问题,首先针对不同的医院的数据构建用户画像,由于不同医院的数据不同,构建的用户画像不同,则采用的分析程序也不同,而且有些医院的数据量较大,进一步设置不同数量的pod运行分析程序的子程序,得到结果后进一步利用spark进行数据的统计分析,分析出疾病的相关信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1