一种海量医学影像数据挖掘系统及其实现方法

文档序号:6504917阅读:182来源:国知局
一种海量医学影像数据挖掘系统及其实现方法
【专利摘要】本发明提供一种海量医学影像数据挖掘系统及其实现方法,所述系统包括业务应用层,影像挖掘层以及数据层,其中,影像挖掘层包括数据预处理模块,与数据预处理模块连接的影像特征提取模块以及与影像特征提取模块连接的数据挖掘模块。所述方法包括如下步骤:用户在业务应用层提出请求;影像挖掘层的数据预处理模块从数据层获得医学影像数据,并对医学影像数据进行预处理;影像特征提取模块对所述医学影像数据进行分析,并获取所述医学影像数据的集成特征;根据所述集成特征,所述数据挖掘模块对所述医学影像数据进行挖掘,并将所述挖掘的结果反馈给所述业务应用层。本技术方案能快速、准确地从海量医学影像数据集中挖掘出有用的知识。
【专利说明】一种海量医学影像数据挖掘系统及其实现方法

【技术领域】
[0001]本发明涉及数据处理领域,尤其涉及一种海量医学影像数据挖掘系统及其实现方法。

【背景技术】
[0002]随着医学影像技术和计算机技术的发展,X光成像、计算机断层扫描、磁共振成像、超声成像和正子发射断层扫描等成像技术和设备在医疗机构的临床和研发工作中发挥着相当重要的作用。为了实现医学影像资源的共享,国内许多医疗机构已实现了信息化管理,使用影像存档与传输系统(Picture Archiving And Communicat1n System, PACS)对医学影像资料进行采集、存储、处理及传输。
[0003]PACS系统存储了海量的医学影像数据集。但是,医疗机构目前对于PACS系统的操作仅限于日常的录入、查询和删除等基本操作,不便于准确、高效地获取有价值的医学影像资源,使得海量医学影像资源无法得到充分的利用,造成了极大的资源浪费。因此,如何高效、准确地从海量医学影像数据中获取有潜在价值的信息,为临床诊断和医学科研工作提供支持,成为当前迫切需要解决的问题。
[0004]在医疗行业的实际应用中,数据挖掘技术存在以下瓶颈。一方面,数据挖掘技术主要应用于结构化数据(例如,可以用二维表结构来逻辑表达实现的数字或符号),而医学影像数据大多是非结构化数据,蕴含的信息十分复杂,无法直接用于数据挖掘;另一方面,现有商业软件的数据处理方式一般采用集中式处理,可挖掘的数据量及挖掘的效率依赖于单一计算机平台的性能,无法经济、高效地从爆炸式增长的医学影像数据库中挖掘出医务人员需要的fe息。


【发明内容】

[0005]本发明解决的问题是提供方法一种海量医学影像数据挖掘系统及其实现方法,能快速、准确地从海量医学影像数据集中挖掘出有用的知识。
[0006]为了解决上述问题,本发明提供了一种海量医学影像数据挖掘系统,包括业务应用层,与所述业务应用层连接的影像挖掘层以及与所述业务应用层和影像挖掘层连接的数据层,其中,所述影像挖掘层包括数据预处理模块,与所述数据预处理模块连接的影像特征提取模块以及与所述影像特征提取模块连接的数据挖掘模块。
[0007]上述所述一种海量医学影像数据挖掘系统,其中,所述业务应用层包括用户界面以及与所述用户界面连接的影像挖掘应用程序接口。
[0008]上述所述一种海量医学影像数据挖掘系统,其中,所述影像挖掘应用程序接口包括数据预处理应用程序接口、影像特征提取应用程序接口和数据挖掘应用程序接口。
[0009]上述所述一种海量医学影像数据挖掘系统,其中,所述影像挖掘层还包括Map Reduce分布式计算模块。
[0010]上述所述一种海量医学影像数据挖掘系统,其中,所述数据预处理模块包括格式转换子模块、归一化子模块、图像去噪子模块和图像分割子模块。
[0011]上述所述一种海量医学影像数据挖掘系统,其中,所述影像特征提取模块包括内容特征提取子模块、语义特征提取子模块和特征集成子模块。
[0012]上述所述一种海量医学影像数据挖掘系统,其中,所述数据层包括数据访问接口以及与所述数据访问接口连接的数据存储和管理模块。
[0013]为了解决上述问题,本发明还提供了一种海量医学影像数据的挖掘方法,包括如下步骤:用户在所述业务应用层提出请求;所述影像挖掘层的数据预处理模块从所述数据层获得医学影像数据,并对所述医学影像数据进行预处理;所述影像特征提取模块对所述医学影像数据进行分析,并获取所述医学影像数据的集成特征;根据所述集成特征,所述数据挖掘模块对所述医学影像数据进行挖掘,并将所述挖掘的结果反馈给所述业务应用层。
[0014]上述所述的医学影像数据挖掘方法,其中,通过所述MapReduce分布式计算模块,实现所述数据预处理模块、影像特征提取模块和数据挖掘模块的操作。
[0015]上述所述的医学影像数据挖掘方法,其中,所述数据挖掘模块通过加权投票法对所述医学影像数据进行挖掘。
[0016]上述所述的医学影像数据挖掘方法,其中,所述加权投票方法为:
[0017]I)为所述数据挖掘模块中的任一子模块中的N种挖掘方法设置权重,N^l;
[0018]2)分别使用所述N种挖掘方法对所述医学影像数据进行挖掘,并记录所述每一种挖掘方法的挖掘结果;
[0019]3)计算所述每一种挖掘方法的挖掘结果的加权结果,并根据所述加权结果对所述医学影像数据进行决策。
[0020]上述所述的医学影像数据挖掘方法,其中,根据所述挖掘结果,调整所述N种挖掘方法的权重。
[0021]与现有技术相比,本发明引入影像特征提取模块,可以提取出医学影像的集成特征,综合利用了医学影像的多种特征,具有全面性,并避免了单一特征无法完整得描述医学影像内容的缺陷,能够更加充分、精确地表达图像内容的属性,提高了医学影像挖掘结果的准确性;
[0022]进一步地,数据挖掘模块中引入多种数据挖掘算法,采用加权投票法做出决策,充分利用了不同数据挖掘算法之间的互补性,提高了数据挖掘结果的准确性,而且还能根据决策结果实时调整不同算法的权重;
[0023]进一步地,以MapReduce分布式计算模块为基础,仅需由廉价、低端的服务器组成的集群,集群的大小可以根据用户的实际负载来选择,在保证医学影像数据挖掘系统高效性的同时,也为用户节约了成本;
[0024]进一步地,影像挖掘层解耦成三个独立运行的模块,每个模块又由多个完全独立的子模块组成,具有良好的可扩充性,可以根据用户的数据挖掘需求,方便、快捷地添加新的功能模块。

【专利附图】

【附图说明】
[0025]图1所示为本发明实施例一种海量医学影像数据挖掘系统的结构示意图;
[0026]图2所示为本发明实施例一种海量医学影像数据挖掘方法的流程示意图;
[0027]图3所示为本发明实施例加权投票法的流程示意图。

【具体实施方式】
[0028]在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
[0029]其次,本发明利用示意图进行详细描述,在详述本发明实施例时,为便于说明,所述示意图只是实例,其在此不应限制本发明保护的范围。
[0030]下面结合附图和实施例对本发明一种海量医学影像数据挖掘系统及其实现方法进行详细描述。本发明实施例的海量医学影像数据挖掘系统如图1所示,所述数据挖掘系统包括业务应用层1,与所述业务应用层1连接的影像挖掘层2以及与所述业务应用层1和影像挖掘层2连接的数据层3。其中,所述业务应用层1包括用户界面11以及与所述用户界面11连接的影像挖掘应用程序接口,通过应用程序接口,用户可以调用影像挖掘层2的各个子模块,所述影像挖掘应用程序接口包括数据预处理应用程序接口 12、影像特征提取应用程序接口 13和数据挖掘应用程序接口 14 ;所述影像挖掘层2是所述医学影像数据挖掘系统的核心层,包括数据预处理模块21,与所述数据预处理模块连接的影像特征提取模块22以及与所述影像特征提取模块22连接的数据挖掘模块23,还包括MapReduce分布式计算模块24 ;所述数据层3包括数据访问接口 31以及与所述数据访问接口 31连接的数据存储和管理模块32,其中,所述数据访问接口 31包括医学影像数据访问接口和专家知识数据访问接口。
[0031]需要说明的是,影像挖掘层的三个模块独立运行,每个模块用于实施医学影像挖掘中的不同流程,而且每个模块由多个完全独立的子模块组成,子模块用于实施不同的数据处理算法。其中,所述数据预处理模21块包括格式转换子模块、归一化子模块、图像去噪子模块和图像分割子模块;所述影像特征提取模块22包括内容特征提取子模块、语义特征提取子模块和特征集成子模块。数据挖掘模块23包括多个子模块,子模块之间完全独立,每个子模块用于实现一种数据挖掘功能,比如,分类子模块用于对医学影像进行分类,聚类分析子模块用于对医学影像进行聚类,关联分析子模块用于发现医学影像内部的关联规则。
[0032]医学影像数据挖掘系统对所述医学影像数据进行挖掘的方法如图2所示,首先,执行步骤S201,用户在所述业务应用层提出请求。具体地,在本实施例中,用户通过所述业务应用层中的用户界面选择和提交医学影像数据挖掘的任务,即挖掘数据库中所有病人患乳腺癌的情况。
[0033]接着,执行步骤S202,所述影像挖掘层的数据预处理模块从所述数据层获得医学影像数据,并对所述医学影像数据进行预处理。具体地,数据处理模块从数据层中的数据存储和管理模块获取医学影像数据。所述数据存储和管理模块通过医学影像数据访问接口从医疗影像数据源(医疗机构的PACS系统、区域医学影像数据中心以及其它存储医学影像的数据库)中加载结构化的病人信息数据和非结构化的医学影像数据,或通过专家知识数据访问接口从医疗专家知识库中获取非结构化的医疗领域知识(如肺癌、乳腺癌的影像诊断规则)。数据存储和管理模块除了提供数据存储和管理功能之外,还可对影像挖掘层产生的中间数据和结果数据、业务应用层产生的用户反馈数据进行存储和管理。在本实施例中,数据预处理模块从数据层中获取区域医学影像数据中心中所有病人的乳腺钥靶X射线影像。
[0034]数据预处理模块对所述医学影像数据进行预处理,从而消除数据中的噪声,提高数据的质量,提升影像处理和数据挖掘的准确性和效率。数据预处理模块包括多个子模块,如格式转换子模块、归一化子模块、图像去噪子模块和图像分割子模块,每个子模块独立工作,实现不同的数据预处理功能。格式转换子模块可把医学影像转换为统一的格式,以便于批量处理医学影像数据,因为从区域数据中心中获取到的医学影像可能具有多种格式,如BMP、JPG、DICOM等。归一化子模块可以对医学影像的尺度、色彩进行归一化处理,以便消除量纲对影像特征的影像特征的影响,因为通过不同PACS系统采集的医学影像的尺寸、色彩各不相同,在提取影像特征时,特征量值差别会很大,从而影响基于影像特征的数据挖掘结果。图像去噪子模块可以对医学影像进行去噪、平滑和增强处理,提高医学影像的质量,这是由于从PACS系统中获取到的医学影像一般来自于X射线机、CT机、核磁共振成像仪等数字医疗影像设备,在成像过程(数字化过程)中,由于图像传感器的工作情况易受成像环境条件、传感器自身各元件质量等因素的影响,生成的医学影像带有噪声,如果不将噪声去掉,将影响影像特征的提取和数据挖掘结果。图像分割子模块用于对医学图像中感兴趣区域进行分割,例如,用户从数据源加载了 10000张乳腺钥靶X射线影像,希望对乳房肿块的局域特征进行挖掘,判断病人是否患有恶性乳腺癌,那么,用户可以通过图像分割子模块选择阈值法、区域生长法、聚类分析等图像分割方法,将乳房肿块从乳腺钥靶X射线影像中分割出来,以减少数据集的冗余,提高挖掘效率。以上所有数据预处理的算法均通过MapReduce分布式计算模块实现。MapReduce分布式计算模块支持由大量低端服务器组成的集群,通过映射(map)函数,把海量数据的处理任务自动分配给集群的各个节点上,各节点并行地执行任务,并产生多个中间结果输出;再通过归约(reduce)函数收集中间结果输出,并对中间结果输出集合进行合并操作。例如,在本实施例中,对所有X射线影像进行去噪,则将所有X射线影像分成十个子集,通过映射函数,把每个子集的去噪任务自动地分配给集群的各个节点上(即分配给各个计算机),各个节点并行地对分配到的影像进行去噪,并产生多个中间结果输出(即图像去噪过程中各个步骤产生的结果);再通过归约函数,将所有节点产生的去噪结果进行收集、合并操作,即完成了对所有X射线影像的去噪。
[0035]需要说明的是,用户可以通过用户界面接口查看和控制数据预处理模块的情况,也可以通过业务应用层中的数据预处理应用程序接口调用所述数据预处理模块,实现对数据的清洗和压缩等。而且数据预处理模块中的子模块可以根据实际需要进行添加。
[0036]接着,执行步骤S203,所述影像特征提取模块对所述医学影像数据进行分析,并获取所述医学影像数据的集成特征。影像特征提取模块用来提取医学影像的特征,这些特征可以是医学影像中人类视觉可鉴别的自然特征,也可以是对医学影像认为定义的某些参数。具体地,在本实施例中,影像特征提取模块包括内容特征提取子模块、语义特征提取子模块和特征集成子模块,内容特征提取子模块和语义特征提取子模块分别用来提取医学影像的各种特征,而特征集成子模块将提取出来的各种特征进行集合。内容特征提取子模块用于通过多种图像分析技术,提取医学影像的颜色、纹理和形状等自然特征。例如,通过分析灰度直方图的均值、方差、倾斜度和陡峭度提取医学影像的颜色特征;通过分析灰度共生矩阵的对比度、相关度和熵提取出医学影像的纹理特征;通过矩不变量、傅里叶描绘子提取出医学影像的形状特征。语义特征提取子模块用于提取医学影像的语义特征,主要分为以上两种情形。一是医学影像带有文本标签(如医生、专家添加的关键词和标题),这种情形下可以将文本标签直接作为医学影像的语义特征;二是医学影像不带有文本标签,这种情形下可根据机器学习方法建立语义模型,自动为医学影像生成语义特征。特征集成子模块用于根据用户在业务应用层的影像挖掘应用程序接口中设定的参数,集成用户指定的多种影像特征。例如,用户在应用程序接口中选择了颜色、纹理和形状三种特征,特征集成子模块会对三种特征分别进行标准化处理,并通过数据集成方法,如主成分分析(principalcomponent analysis, PCA),提取出医学影像的集成特征。在本实施例中,通过内容特征子模块提取所有X射线影像的颜色、纹理和形状,并通过特征集成子模块将这些特征进行集合,提取出X射线影像的集成特征。
[0037]需要说明的是,以上所有影像特征提取的算法均通过MapReduce分布式计算模块实现,实现过程如上述对影像进行去噪的过程。而且,用户可以通过影像特征提取应用程序接口调用影像特征提取子模块。
[0038]接着,执行步骤S204,根据所述集成特征,所述数据挖掘模块对所述医学影像数据进行挖掘,并将所述挖掘的结果反馈给所述业务应用层。其中,数据挖掘模块包括多个子模块,子模块之间完全独立,每个子模块用于实现一种数据挖掘功能。例如,分类子模块用于对医学影像进行分类,聚类分析子模块用于对医学影像进行聚类,关联分析子模块用于发现医学影像内部的关联规则。每一个数据挖掘子模块,都对应着多种实施方法。例如,分类子模块包括了决策树、朴素贝叶斯、神经网络、支持向量机和粗糙集五种方法。
[0039]数据挖掘模块通过加权投票法对所述医学影像数据进行挖掘,所述加权投票法如图3所示,首先,执行步骤S301,为所述数据挖掘模块中的任一子模块中的N种挖掘方法设置权重,权重和为1,N ^ 1。具体地,用户通过业务应用层的影像挖掘应用程序接口选择用于做出决策的子模块中的方法。在本实施例中,对于已提取出集成特征的医学影像(X射线影像)进行分类,用户选择了决策树、朴素贝叶斯、神经网络、支持向量机和粗糙集五种分类方法,那么,对医学影像进行分类时,将综合考虑五种方法的结果做出决策,上述五种方法的初始权重设置为相同的值,均为0.2。
[0040]接着,执行步骤S302,分别使用所述N种挖掘方法对所述医学影像数据进行挖掘,并记录所述每一种挖掘方法的挖掘结果。具体地,在本实施例中,分别使用步骤S301中五种分类方法对医学影像进行挖掘,并记录每一种分类方法的挖掘结果,决策树、朴素贝叶斯、神经网络、支持向量机和粗糙集的挖掘结果分别为1,0,1,1,1。其中,0表示病人影像检查结果为阴性,1表示病人的影像检查结果为阳性。
[0041]接着,执行步骤S303,计算所述每一种挖掘方法的挖掘结果的加权结果,并根据所述加权结果对所述医学影像数据进行决策。具体地,在本实施例中,计算五种方法的加权分类结果,得到该结果为0.8,与指定阈值(指定阈值v = 0.75)进行比较可知,加权分类结果大于指定阈值,则对所述医学影像进行决策,即病人的医学影像检查结果为阳性,即完成对数据库中所有病人患乳腺癌情况的挖掘。
[0042]需要说明的是,根据所述挖掘结果,可以调整所述N种挖掘方法的权重。具体地,根据上述五种分类算法的实施情况,对其对应的权重实时做出调整。例如,从步骤S302和步骤S303可知,朴素贝叶斯分类器做出了错误的判断,因此,朴素贝叶斯分类器的权重下降0.02,而其余四中分类器做出了正确的判断,则每种分类器的权重分别增加0.005,并将调整过的权重应用到下一次的挖掘过程中,使得挖掘过程能够更好地匹配医学影像数据集,进一步提高医学影像挖掘结果的准确性。
[0043]本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
【权利要求】
1.一种海量医学影像数据挖掘系统,其特征在于,包括业务应用层,与所述业务应用层连接的影像挖掘层以及与所述业务应用层和影像挖掘层连接的数据层,其中,所述影像挖掘层包括数据预处理模块,与所述数据预处理模块连接的影像特征提取模块以及与所述影像特征提取模块连接的数据挖掘模块。
2.如权利要求1所述一种海量医学影像数据挖掘系统,其特征在于,所述业务应用层包括用户界面以及与所述用户界面连接的影像挖掘应用程序接口。
3.如权利要求2所述一种海量医学影像数据挖掘系统,其特征在于,所述影像挖掘应用程序接口包括数据预处理应用程序接口、影像特征提取应用程序接口和数据挖掘应用程序接口。
4.如权利要求1所述一种海量医学影像数据挖掘系统,其特征在于,所述影像挖掘层还包括MapReduce分布式计算模块。
5.如权利要求1所述一种海量医学影像数据挖掘系统,其特征在于,所述数据预处理模块包括格式转换子模块、归一化子模块、图像去噪子模块和图像分割子模块。
6.如权利要求1所述一种海量医学影像数据挖掘系统,其特征在于,所述影像特征提取模块包括内容特征提取子模块、语义特征提取子模块和特征集成子模块。
7.如权利要求1所述一种海量医学影像数据挖掘系统,其特征在于,所述数据层包括数据访问接口以及与所述数据访问接口连接的数据存储和管理模块。
8.如权利要求1所述一种海量医学影像数据的挖掘方法,其特征在于,包括如下步骤: 用户在所述业务应用层提出请求;所述影像挖掘层的数据预处理模块从所述数据层获得医学影像数据,并对所述医学影像数据进行预处理;所述影像特征提取模块对所述医学影像数据进行分析,并获取所述医学影像数据的集成特征;根据所述集成特征,所述数据挖掘模块对所述医学影像数据进行挖掘,并将所述挖掘的结果反馈给所述业务应用层。
9.如权利要求8所述的医学影像数据挖掘方法,其特征在于,通过所述MapReduce分布式计算模块,实现所述数据预处理模块、影像特征提取模块和数据挖掘模块的操作。
10.如权利要求8所述的医学影像数据挖掘方法,其特征在于,所述数据挖掘模块通过加权投票法对所述医学影像数据进行挖掘。
11.如权利要求10所述的医学影像数据挖掘方法,其特征在于,所述加权投票方法为: 1)为所述数据挖掘模块中的任一子模块中的N种挖掘方法设置权重,N^ I ; 2)分别使用所述N种挖掘方法对所述医学影像数据进行挖掘,并记录所述每一种挖掘方法的挖掘结果; 3)计算所述每一种挖掘方法的挖掘结果的加权结果,并根据所述加权结果对所述医学影像数据进行决策。
12.如权利要求11所述的医学影像数据挖掘方法,其特征在于,根据所述挖掘结果,调整所述N种挖掘方法的权重。
【文档编号】G06T5/00GK104252570SQ201310264654
【公开日】2014年12月31日 申请日期:2013年6月28日 优先权日:2013年6月28日
【发明者】陈文娟 申请人:上海联影医疗科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1