一种基于Spark平台的阿尔茨海默病早期辅助诊断系统的制作方法

文档序号：10697682阅读：539来源：国知局

一种基于Spark平台的阿尔茨海默病早期辅助诊断系统的制作方法
【专利摘要】本发明公开了一种基于Spark平台的阿尔茨海默病早期辅助诊断系统，属于医疗大数据应用领域。该系统包括影像存储模块，影像预处理模块，模型训练模块，预测诊断模块。通过影像存储模块在集群上建立原始sMRI影像数据库，采用HDFS分布式存储；由影像预处理模块对原始影像预处理，获取有效数据并发送给模型训练模块；模型训练模块调用MLlib的机器学习算法，对有效数据进行降维分类，得到最佳分类模型；最后预测诊断模块通过Spark Streaming实时处理受试者的sMRI影像，由分类模型对其分类，给出诊断结果。本发明将大数据技术与sMRI技术相结合，在处理海量影像数据的基础上，自动高效的对受试者的sMRI影像数据做出客观诊断，为医生诊断阿尔茨海默病提供辅助支持，具有实际应用价值。
【专利说明】
一种基于Spark平台的阿尔茨海默病早期辅助诊断系统
技术领域
[0001]本发明涉及医疗大数据应用领域，尤其涉及一种基于Spark平台的阿尔茨海默病早期辅助诊断系统。
【背景技术】
[0002]阿尔茨海默病(Alzheimer’s Disease，AD)通常被称为老年痴呆症，表现为语言、记忆、判断力等认知能力下降，属于神经渐退性疾病，一般常见于老年人。由于阿尔茨海默病尚无法彻底治愈，故及时诊断AD病变，从而进行早期干预治疗，减轻病变至关重要。目前AD的早期诊断方法主要包括四种:早期临床症状判断，神经心理学测验，神经生物学检测，神经影像学检查。其中神经影像学中的磁共振成像(structural magnetic resonanceimaging，sMRI)技术能够客观记录不同脑组织的结构三维影像，测量脑萎缩变化，进而反映AD病变程度。由于sMRI技术对于人脑没有任何危害、安全、有效，从而被广泛用于AD病变的早期辅助诊断。
[0003]然而传统的手工测量sMRI方法耗时长，工作量繁重，并需要使用者具备一定的先验知识，专业要求较高，易受主观因素影响;并且随着医学条件的改善与经济水平的发展，正常人与AD患者脑组织的sMRI影像数据爆炸式增长，海量数据中隐藏着巨大的应用价值，但目前临床还无法有效利用这些数据;故借助大数据处理技术与机器学习方法自动、客观、高效的处理sMRI影像，统计分析，从而为诊断AD早期病变提供辅助支持，具有重要的研究意义。
[0004]诞生于加州大学伯克利分校AMPLab的Spark大数据处理和计算框架，以其基于内存运算，适合机器学习迭代计算的优势，成为目前大数据领域主流的处理工具，以Spark为核心的伯克利数据分析软件桟，包括了 Spark Streaming，SQL，MLl ib，Graphx等应用模块，可以应用于各种大数据场景。基于Spark平台，建立针对海量sMRI影像数据的阿尔茨海默病早期辅助诊断系统，能够挖掘大数据中的潜在价值，提高诊断效率。

【发明内容】

[0005]针对AD辅助诊断的传统sMRI手工测量方法的不足与海量sMIR影像数据无法有效处理的问题，本发明提出一种基于Spark平台的阿尔茨海默病早期辅助诊断系统。本发明将Spark大数据处理平台与医疗系统中的sMRI技术相结合，实现一种阿尔茨海默病早期辅助诊断系统，该系统在处理海量sMRI影像数据的基础上，提取正常人与不同程度AD患者的脑组织sMRI影像的有效数据特征，采用分布式分类算法对提取的数据特征进行分类学习，训练最佳分类模型，进而对未知的受试者的影像进行分类判断，根据分类结果诊断该受试者是否为AD患者，为医生提供一种自动高效的客观辅助诊断技术支持。
[0006]为实现上述目的，本发明提出如下技术方案:
[0007]—种基于Spark平台的阿尔茨海默病早期辅助诊断系统，该系统包括影像存储模块、影像预处理模块、模型训练模块以及预测诊断模块，其特征在于:
[0008]所述影像存储模块用于建立原始正常人和AD患者脑组织的sMRI影像库，以分布式文件系统存储影像大数据；
[0009]所述影像预处理模块用于对sMRI影像进行预处理，从影像数据中提取特征，获得有效数据，保存到HDFS存储层上，以供后续模块进行数据分析；
[0010]所述模型训练模块用于训练最佳分类模型，通过采用分布式的分类算法对提取的有效数据进行分类训练，设置算法不同参数而获得最佳分类模型，能够区分正常人与AD患者的影像数据；
[0011 ]所述预测诊断模块用于实时对未知受试者的影像进行分类判断，根据分类结果诊断受试者是否为AD患者；
[0012]所述系统建立于Spark集群之上，在Spark大数据平台上将批处理与流处理相结合，对海量数据进行运算，采用分布式机器学习算法对sMRI影像数据处理分析，实现依据sMRI影像诊断AD病变的功能。
[0013]特别地，影像存储模块利用Hadoop分布式文件系统HDFS对海量的sMRI影像数据进行存储，在集群中部署HDFS系统。
[0014]特别地，影像预处理模块利用Thunder对sMRI影像数据进行预处理，来获得有效的特征数据，将三维数据转为一维数据，以供后续模块处理。
[0015]特别地，模型训练模块利用主成分分析PCA算法对数据降维，利用分布式支持向量机SVM算法对数据进行训练从而得到分类模型，把影像数据分为正常和AD两类，为诊断AD病变提供依据。
[0016]特别地，预测诊断模块利用Spark Streaming来进行数据流式处理，实时处理受试者的sMRI影像数据，并且即时给出诊断结果。
[0017]本发明的有益效果:
[0018]1.系统构建于Spark分布式处理计算框架，将大数据平台应用于医疗应用中，能够高效处理海量影像数据，解决了传统技术无法处理医疗大数据的弊端；
[0019]2.采用HDFS分布式存储方案，存储日益增多的影像数据，安全高效；
[0020]3.系统将大数据流处理与批处理相结合，通过对已有影像数据学习建立分类模型，并能实时处理新的受试者的sMRI影像数据，实时给出诊断结果；
[0021]4.利用分布式的机器学习算法对sMRI影像数据进行挖掘学习，有效分析正常人与AD患者脑组织的sMRI影像之间的特征，自动建立分类模型，做出客观诊断结果，弥补了手工测量，主观判断的不足。
【附图说明】
[0022]图1是本发明基于Spark平台的阿尔茨海默病早期辅助诊断系统的整体架构；
[0023]图2是本发明基于Spark平台的阿尔茨海默病早期辅助诊断系统的整体流程。
【具体实施方式】
[0024]为了能够更清楚地描述本发明的技术内容，下面结合附图与实施例对本发明作进一步说明。
[0025]本发明的一种基于Spark平台的阿尔茨海默病早期辅助诊断系统，将Spark的数据处理能力与利用脑组织的sMRI影像诊断AD病变技术相结合，在Spark大数据平台上，以海量sMRI影像数据为基础，利用机器学习算法构建了正常人与AD病人脑组织sMRI影像数据的分类模型，以训练的最佳分类模型对受试者的sMRI影像的做出分类，根据分类结果做出诊断，为医生诊断受试者是否存在AD病变提供客观支持。
[0026]图1给出了本发明所述系统的整体架构，整个系统分为五层:硬件层，HDFS存储层，Spark分布式处理层，Spark组件层，辅助诊断系统应用程序层。各层具体功能为:
[0027](I)硬件层位于系统架构最底层，主要为系统提供基础硬件设施，包括搭建Spark集群所需的计算机设备(工作站、服务器)与网络设备(路由器、交换机)，以及用于采集受试者脑组织的sMRI的影像采集设备；
[0028](2)HDFS存储层采用HDFS分布式文件存储系统，负责存储管理海量的脑组织sMRI影像数据，包括不同年龄段的正常人与AD患者的脑部sMRI影像，以及对影像预处理后的有效数据；
[0029](3)Spark分布式处理层是系统的核心数据处理层，执行用户编写的应用程序代码，依靠Spark集群的分布式数据处理能力对数据进行具体的运算处理，并为用户返回运算结果；
[0030](4)Spark组件层主要包括Spark Streaming与MLlib，MLlib为上层应用程序提供具体的算法接口，被上层应用程序所调用，设置算法参数，再与Spark集群交互，交由集群执行运算，Spark Streaming为系统提供实时的数据流式处理，用于实时诊断；
[0031](5)辅助诊断系统应用程序层是用户根据系统需求编写的具体代码，包括系统各模块的具体实现，主要包括影像存储模块，影像预处理模块，模型训练模块以及预测诊断模块。
[0032]本发明所述的一种基于Spark平台的阿尔茨海默病早期辅助诊断系统主要流程如图2所示。具体步骤为:
[0033](I)建立sMRI影像数据库;整合已有的正常人和AD患者的脑组织的sMRI影像，将其存储到HDFS存储层，并利用影像采集设备不断获取新的影像，并将其存储。
[0034](2)影像预处理;利用Thunder工具，从HDFS存储层读取sMRI影像，将三维矩阵一维化，并利用特定的特征提取方法获取有效数据，然后将有效数据保存到HDFS存储层中。
[0035](3)模型训练;利用分布式SVM算法在训练有效数据的基础上，构建最佳分类模型，详细描述为:
[0036]a.加载有效数据，从HDFS层加载预处理得到的有效影像数据；
[0037]b.格式转化，将有效数据转变为MLlib支持的分布式矩阵格式，得到训练数据；
[0038]c.降维处理，由于有效数据的维数过大，利用PCA算法对数据进行主成分分析，达到降维目的；
[0039]d.加标签，根据数据取自的影像是否属于AD患者，为数据加上标签，正常人的数据标为O，AD患者的数据标为I ；
[0040]e.划分数据集，将数据划分为训练集，验证集与测试集。
[0041]f.分类模型训练，采用分布式的SVM算法在训练集上进行分类模型的训练，通过设置算法的不同参数得到不同的分类模型，在验证集上计算不同分类模型的评价指标，根据最好的评价指标确定最佳分类模型，并在测试集上测试最佳分类模型的分类效果，将最佳分类模型保存。
[0042](4)预测诊断，利用Spark Streaming实时处理受试者的脑组织的sMRI影像，并通过最佳分类模型对数据做出分类判断，实时返回诊断结果，详细描述为:
[0043]a.获取受试者脑组织sMRI影像，由影像采集设备对受试者进行检测，获取其脑组织的sMRI影像，并通过Spark Streaming将该影像实时传送到诊断系统；
[0044]b.对sMRI影像预处理，按照步骤(2)对受试者的影像进行预处理，获得特征数据；
[0045]c.分类，调用最佳分类模型对受试者的影像数据做出分类；
[0046]d.诊断，根据分类结果做出诊断，并实时将诊断结果返给医生，为医生提供辅助支持。
【主权项】
1.一种基于Spark平台的阿尔茨海默病早期辅助诊断系统，该系统包括影像存储模块、影像预处理模块、模型训练模块以及预测诊断模块，其特征在于: 所述影像存储模块用于建立原始正常人和AD患者脑组织的sMRI影像库，以分布式文件系统存储影像大数据；所述影像预处理模块用于对sMRI影像进行预处理，从影像数据中提取特征，获得有效数据，保存到HDFS存储层上，以供后续模块进行数据分析；所述模型训练模块用于训练最佳分类模型，通过采用分布式的分类算法对提取的有效数据进行分类训练，设置算法不同参数而获得最佳分类模型，能够区分正常人与AD患者的影像数据；所述预测诊断模块用于实时对未知受试者的影像进行分类判断，根据分类结果诊断受试者是否为AD患者；所述系统建立于Spark集群之上，在Spark大数据平台上将批处理与流处理相结合，对海量数据进行运算，采用分布式机器学习算法对sMRI影像数据处理分析，实现依据sMRI影像诊断AD病变的功能。2.根据权利要求1所述的基于Spark平台的阿尔茨海默病早期辅助诊断系统，其特征在于:影像存储模块利用Hadoop分布式文件系统HDFS对海量的sMRI影像数据进行存储，在集群中部署HDFS系统。3.根据权利要求1所述的基于Spark平台的阿尔茨海默病早期辅助诊断系统，其特征在于:影像预处理模块利用Thunder对sMRI影像数据进行预处理，来获得有效的特征数据，将三维数据转为一维数据，以供后续模块处理。4.根据权利要求1所述的基于Spark平台的阿尔茨海默病早期辅助诊断系统，其特征在于:模型训练模块利用主成分分析PCA算法对数据降维，利用分布式支持向量机SVM算法对数据进行训练从而得到分类模型，把影像数据分为正常和AD两类，为诊断AD病变提供依据。5.根据权利要求1所述的基于Spark平台的阿尔茨海默病早期辅助诊断系统，其特征在于:预测诊断模块利用Spark Streaming来进行数据流式处理，实时处理检测者的sMRI影像数据，并且即时给出诊断结果。
【文档编号】G06F19/00GK106066934SQ201610363245
【公开日】2016年11月2日
【申请日】2016年5月27日公开号201610363245.X, CN 106066934 A, CN 106066934A, CN 201610363245, CN-A-106066934, CN106066934 A, CN106066934A, CN201610363245, CN201610363245.X
【发明人】刘琚, 李迅, 肖依凡, 董贤光
【申请人】山东大学苏州研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘琚;李迅;肖依凡;董贤光;
技术所有人：山东大学苏州研究院;
我是此专利的发明人

上一篇：损伤等级模型的性能分析方法及系统的制作方法
上一篇：获取房颤识别人工神经网络权重值矩阵的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。