一种基于Spark平台的阿尔茨海默病早期辅助诊断系统的制作方法

文档序号:10697682阅读:539来源:国知局
一种基于Spark平台的阿尔茨海默病早期辅助诊断系统的制作方法
【专利摘要】本发明公开了一种基于Spark平台的阿尔茨海默病早期辅助诊断系统,属于医疗大数据应用领域。该系统包括影像存储模块,影像预处理模块,模型训练模块,预测诊断模块。通过影像存储模块在集群上建立原始sMRI影像数据库,采用HDFS分布式存储;由影像预处理模块对原始影像预处理,获取有效数据并发送给模型训练模块;模型训练模块调用MLlib的机器学习算法,对有效数据进行降维分类,得到最佳分类模型;最后预测诊断模块通过Spark Streaming实时处理受试者的sMRI影像,由分类模型对其分类,给出诊断结果。本发明将大数据技术与sMRI技术相结合,在处理海量影像数据的基础上,自动高效的对受试者的sMRI影像数据做出客观诊断,为医生诊断阿尔茨海默病提供辅助支持,具有实际应用价值。
【专利说明】
一种基于Spark平台的阿尔茨海默病早期辅助诊断系统
技术领域
[0001]本发明涉及医疗大数据应用领域,尤其涉及一种基于Spark平台的阿尔茨海默病早期辅助诊断系统。
【背景技术】
[0002]阿尔茨海默病(Alzheimer’s Disease,AD)通常被称为老年痴呆症,表现为语言、记忆、判断力等认知能力下降,属于神经渐退性疾病,一般常见于老年人。由于阿尔茨海默病尚无法彻底治愈,故及时诊断AD病变,从而进行早期干预治疗,减轻病变至关重要。目前AD的早期诊断方法主要包括四种:早期临床症状判断,神经心理学测验,神经生物学检测,神经影像学检查。其中神经影像学中的磁共振成像(structural magnetic resonanceimaging,sMRI)技术能够客观记录不同脑组织的结构三维影像,测量脑萎缩变化,进而反映AD病变程度。由于sMRI技术对于人脑没有任何危害、安全、有效,从而被广泛用于AD病变的早期辅助诊断。
[0003]然而传统的手工测量sMRI方法耗时长,工作量繁重,并需要使用者具备一定的先验知识,专业要求较高,易受主观因素影响;并且随着医学条件的改善与经济水平的发展,正常人与AD患者脑组织的sMRI影像数据爆炸式增长,海量数据中隐藏着巨大的应用价值,但目前临床还无法有效利用这些数据;故借助大数据处理技术与机器学习方法自动、客观、高效的处理sMRI影像,统计分析,从而为诊断AD早期病变提供辅助支持,具有重要的研究意义。
[0004]诞生于加州大学伯克利分校AMPLab的Spark大数据处理和计算框架,以其基于内存运算,适合机器学习迭代计算的优势,成为目前大数据领域主流的处理工具,以Spark为核心的伯克利数据分析软件桟,包括了 Spark Streaming,SQL,MLl ib,Graphx等应用模块,可以应用于各种大数据场景。基于Spark平台,建立针对海量sMRI影像数据的阿尔茨海默病早期辅助诊断系统,能够挖掘大数据中的潜在价值,提高诊断效率。

【发明内容】

[0005]针对AD辅助诊断的传统sMRI手工测量方法的不足与海量sMIR影像数据无法有效处理的问题,本发明提出一种基于Spark平台的阿尔茨海默病早期辅助诊断系统。本发明将Spark大数据处理平台与医疗系统中的sMRI技术相结合,实现一种阿尔茨海默病早期辅助诊断系统,该系统在处理海量sMRI影像数据的基础上,提取正常人与不同程度AD患者的脑组织sMRI影像的有效数据特征,采用分布式分类算法对提取的数据特征进行分类学习,训练最佳分类模型,进而对未知的受试者的影像进行分类判断,根据分类结果诊断该受试者是否为AD患者,为医生提供一种自动高效的客观辅助诊断技术支持。
[0006]为实现上述目的,本发明提出如下技术方案:
[0007]—种基于Spark平台的阿尔茨海默病早期辅助诊断系统,该系统包括影像存储模块、影像预处理模块、模型训练模块以及预测诊断模块,其特征在于:
[0008]所述影像存储模块用于建立原始正常人和AD患者脑组织的sMRI影像库,以分布式文件系统存储影像大数据;
[0009]所述影像预处理模块用于对sMRI影像进行预处理,从影像数据中提取特征,获得有效数据,保存到HDFS存储层上,以供后续模块进行数据分析;
[0010]所述模型训练模块用于训练最佳分类模型,通过采用分布式的分类算法对提取的有效数据进行分类训练,设置算法不同参数而获得最佳分类模型,能够区分正常人与AD患者的影像数据;
[0011 ]所述预测诊断模块用于实时对未知受试者的影像进行分类判断,根据分类结果诊断受试者是否为AD患者;
[0012]所述系统建立于Spark集群之上,在Spark大数据平台上将批处理与流处理相结合,对海量数据进行运算,采用分布式机器学习算法对sMRI影像数据处理分析,实现依据sMRI影像诊断AD病变的功能。
[0013]特别地,影像存储模块利用Hadoop分布式文件系统HDFS对海量的sMRI影像数据进行存储,在集群中部署HDFS系统。
[0014]特别地,影像预处理模块利用Thunder对sMRI影像数据进行预处理,来获得有效的特征数据,将三维数据转为一维数据,以供后续模块处理。
[0015]特别地,模型训练模块利用主成分分析PCA算法对数据降维,利用分布式支持向量机SVM算法对数据进行训练从而得到分类模型,把影像数据分为正常和AD两类,为诊断AD病变提供依据。
[0016]特别地,预测诊断模块利用Spark Streaming来进行数据流式处理,实时处理受试者的sMRI影像数据,并且即时给出诊断结果。
[0017]本发明的有益效果:
[0018]1.系统构建于Spark分布式处理计算框架,将大数据平台应用于医疗应用中,能够高效处理海量影像数据,解决了传统技术无法处理医疗大数据的弊端;
[0019]2.采用HDFS分布式存储方案,存储日益增多的影像数据,安全高效;
[0020]3.系统将大数据流处理与批处理相结合,通过对已有影像数据学习建立分类模型,并能实时处理新的受试者的sMRI影像数据,实时给出诊断结果;
[0021]4.利用分布式的机器学习算法对sMRI影像数据进行挖掘学习,有效分析正常人与AD患者脑组织的sMRI影像之间的特征,自动建立分类模型,做出客观诊断结果,弥补了手工测量,主观判断的不足。
【附图说明】
[0022]图1是本发明基于Spark平台的阿尔茨海默病早期辅助诊断系统的整体架构;
[0023]图2是本发明基于Spark平台的阿尔茨海默病早期辅助诊断系统的整体流程。
【具体实施方式】
[0024]为了能够更清楚地描述本发明的技术内容,下面结合附图与实施例对本发明作进一步说明。
[0025]本发明的一种基于Spark平台的阿尔茨海默病早期辅助诊断系统,将Spark的数据处理能力与利用脑组织的sMRI影像诊断AD病变技术相结合,在Spark大数据平台上,以海量sMRI影像数据为基础,利用机器学习算法构建了正常人与AD病人脑组织sMRI影像数据的分类模型,以训练的最佳分类模型对受试者的sMRI影像的做出分类,根据分类结果做出诊断,为医生诊断受试者是否存在AD病变提供客观支持。
[0026]图1给出了本发明所述系统的整体架构,整个系统分为五层:硬件层,HDFS存储层,Spark分布式处理层,Spark组件层,辅助诊断系统应用程序层。各层具体功能为:
[0027](I)硬件层位于系统架构最底层,主要为系统提供基础硬件设施,包括搭建Spark集群所需的计算机设备(工作站、服务器)与网络设备(路由器、交换机),以及用于采集受试者脑组织的sMRI的影像采集设备;
[0028](2)HDFS存储层采用HDFS分布式文件存储系统,负责存储管理海量的脑组织sMRI影像数据,包括不同年龄段的正常人与AD患者的脑部sMRI影像,以及对影像预处理后的有效数据;
[0029](3)Spark分布式处理层是系统的核心数据处理层,执行用户编写的应用程序代码,依靠Spark集群的分布式数据处理能力对数据进行具体的运算处理,并为用户返回运算结果;
[0030](4)Spark组件层主要包括Spark Streaming与MLlib,MLlib为上层应用程序提供具体的算法接口,被上层应用程序所调用,设置算法参数,再与Spark集群交互,交由集群执行运算,Spark Streaming为系统提供实时的数据流式处理,用于实时诊断;
[0031](5)辅助诊断系统应用程序层是用户根据系统需求编写的具体代码,包括系统各模块的具体实现,主要包括影像存储模块,影像预处理模块,模型训练模块以及预测诊断模块。
[0032]本发明所述的一种基于Spark平台的阿尔茨海默病早期辅助诊断系统主要流程如图2所示。具体步骤为:
[0033](I)建立sMRI影像数据库;整合已有的正常人和AD患者的脑组织的sMRI影像,将其存储到HDFS存储层,并利用影像采集设备不断获取新的影像,并将其存储。
[0034](2)影像预处理;利用Thunder工具,从HDFS存储层读取sMRI影像,将三维矩阵一维化,并利用特定的特征提取方法获取有效数据,然后将有效数据保存到HDFS存储层中。
[0035](3)模型训练;利用分布式SVM算法在训练有效数据的基础上,构建最佳分类模型,详细描述为:
[0036]a.加载有效数据,从HDFS层加载预处理得到的有效影像数据;
[0037]b.格式转化,将有效数据转变为MLlib支持的分布式矩阵格式,得到训练数据;
[0038]c.降维处理,由于有效数据的维数过大,利用PCA算法对数据进行主成分分析,达到降维目的;
[0039]d.加标签,根据数据取自的影像是否属于AD患者,为数据加上标签,正常人的数据标为O,AD患者的数据标为I ;
[0040]e.划分数据集,将数据划分为训练集,验证集与测试集。
[0041]f.分类模型训练,采用分布式的SVM算法在训练集上进行分类模型的训练,通过设置算法的不同参数得到不同的分类模型,在验证集上计算不同分类模型的评价指标,根据最好的评价指标确定最佳分类模型,并在测试集上测试最佳分类模型的分类效果,将最佳分类模型保存。
[0042](4)预测诊断,利用Spark Streaming实时处理受试者的脑组织的sMRI影像,并通过最佳分类模型对数据做出分类判断,实时返回诊断结果,详细描述为:
[0043]a.获取受试者脑组织sMRI影像,由影像采集设备对受试者进行检测,获取其脑组织的sMRI影像,并通过Spark Streaming将该影像实时传送到诊断系统;
[0044]b.对sMRI影像预处理,按照步骤(2)对受试者的影像进行预处理,获得特征数据;
[0045]c.分类,调用最佳分类模型对受试者的影像数据做出分类;
[0046]d.诊断,根据分类结果做出诊断,并实时将诊断结果返给医生,为医生提供辅助支持。
【主权项】
1.一种基于Spark平台的阿尔茨海默病早期辅助诊断系统,该系统包括影像存储模块、影像预处理模块、模型训练模块以及预测诊断模块,其特征在于: 所述影像存储模块用于建立原始正常人和AD患者脑组织的sMRI影像库,以分布式文件系统存储影像大数据; 所述影像预处理模块用于对sMRI影像进行预处理,从影像数据中提取特征,获得有效数据,保存到HDFS存储层上,以供后续模块进行数据分析; 所述模型训练模块用于训练最佳分类模型,通过采用分布式的分类算法对提取的有效数据进行分类训练,设置算法不同参数而获得最佳分类模型,能够区分正常人与AD患者的影像数据; 所述预测诊断模块用于实时对未知受试者的影像进行分类判断,根据分类结果诊断受试者是否为AD患者; 所述系统建立于Spark集群之上,在Spark大数据平台上将批处理与流处理相结合,对海量数据进行运算,采用分布式机器学习算法对sMRI影像数据处理分析,实现依据sMRI影像诊断AD病变的功能。2.根据权利要求1所述的基于Spark平台的阿尔茨海默病早期辅助诊断系统,其特征在于:影像存储模块利用Hadoop分布式文件系统HDFS对海量的sMRI影像数据进行存储,在集群中部署HDFS系统。3.根据权利要求1所述的基于Spark平台的阿尔茨海默病早期辅助诊断系统,其特征在于:影像预处理模块利用Thunder对sMRI影像数据进行预处理,来获得有效的特征数据,将三维数据转为一维数据,以供后续模块处理。4.根据权利要求1所述的基于Spark平台的阿尔茨海默病早期辅助诊断系统,其特征在于:模型训练模块利用主成分分析PCA算法对数据降维,利用分布式支持向量机SVM算法对数据进行训练从而得到分类模型,把影像数据分为正常和AD两类,为诊断AD病变提供依据。5.根据权利要求1所述的基于Spark平台的阿尔茨海默病早期辅助诊断系统,其特征在于:预测诊断模块利用Spark Streaming来进行数据流式处理,实时处理检测者的sMRI影像数据,并且即时给出诊断结果。
【文档编号】G06F19/00GK106066934SQ201610363245
【公开日】2016年11月2日
【申请日】2016年5月27日 公开号201610363245.X, CN 106066934 A, CN 106066934A, CN 201610363245, CN-A-106066934, CN106066934 A, CN106066934A, CN201610363245, CN201610363245.X
【发明人】刘琚, 李迅, 肖依凡, 董贤光
【申请人】山东大学苏州研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1