一种基于堆叠降噪自编码器的乳腺超声图像特征自学习提取方法及系统与流程

文档序号:11134722阅读:872来源:国知局
一种基于堆叠降噪自编码器的乳腺超声图像特征自学习提取方法及系统与制造工艺

本发明涉及特征工程技术领域,尤其涉及一种基于堆叠降噪自编码器的乳腺超声图像特征自学习提取方法及系统。



背景技术:

乳腺癌是世界各地女性最为常见的一种恶性肿瘤,每年约40万人死于该病。中国是乳腺癌发病率增长最快的国家之一,尤其近年来乳腺癌已经成为我国女性发病率排名第一位的恶性肿瘤。早期乳腺癌的治疗效果好,能在很大程度上挽救患者的生命,因此提高乳腺癌的早期诊断的精度和准确性变得越来越有意义。

目前,乳腺癌临床诊断主要应用乳腺超声、钼靶等影像检查,诊断者通过肿块、钙化、血流信号等影像特征来对图像进行分析。乳腺超声检查已广泛应用于我国的临床工作中,其具有操作方便,无放射性、无创伤、对肿块定位准确以及经济适用等优点。但是超声检查仍存在着许多不足,如早期乳腺癌的图像常不典型难以分辨,特别是由于诊断者视觉感知的差异,视觉疲劳,不同的特征和诊断标准的使用,缺乏图像特征的定量度量,导致了不同医生诊断结果的不同,使得早期乳腺癌的误诊和漏诊仍时常发生。

随着医学影像技术和计算机技术的不断发展,利用计算机进行辅助诊断提高诊断的准确性成为可能;比如:利用数字图像处理技术,提取乳腺超声图像中病理相关的的特征,运用SVM等机器学习方法根据这些特征对乳腺肿块良恶性进行分类识别等。

从计算机辅助诊断乳腺癌的应用现状来看,计算机辅助诊断的准确度很大程度取决于提取到B超图像病理相关特征是否有效。目前,用于计算机辅助诊断的医学图像特征提取基本上采用手工定位病灶感兴趣区域,并通过基本图像处理的方法提取的一些基础的常规特征,如:灰度直方图特征、形状特征、灰度共生矩阵特征、小波特征等。但上述方法有以下几个方面的不足:第一、上述基础常规特征的逐一提取耗时费力;第二、上述单个基础常规特征本身并非领域相关,和乳腺癌的特定应用关联度不大;第三、设计有效的可用于计算机辅助诊断乳腺癌的基础常规特征组合具有严重的不确定性。存在上述局限性的本质原因是特征筛选后的特征仍然是医学图像的低层特征,与医学图像整体上的病理语义高层特征间并无直接的映射关系,因此,最好的解决机制是提供一种可以根据以往乳腺癌B超图像自动学习出与病理有关且可用于辅助诊断的图像特征的方法。



技术实现要素:

为此,需要提供一种基于堆叠降噪自编码器的乳腺超声图像特征自学习提取方案,解决如何根据以往乳腺癌B超图像自动学习出与病理有关且可用于辅助诊断的图像特征的问题。

为实现上述目的,发明人提供了一种基于堆叠降噪自编码器的乳腺超声图像特征自学习提取方法,包括以下步骤:

步骤S1:给定一个中等规模以上的乳腺超声病灶区域图像集,所述中等规模表示该图像集至少含有200幅以上的乳腺超声诊断图像;

步骤S2:手动提取步骤S1中图像集里每一张乳腺超声诊断图像的病灶区域图像ROI;

步骤S3:从每一张乳腺超声病灶区域图像ROI中提取手工浅层特征作为一个训练样本,构成训练样本集set_unlabeled={x(1),x(2),…,x(n)},第i个样本x(i)∈[0,1]d,i=1,2,…,n;其中d表示样本的特征维度,n表示训练集样本个数;

步骤S4:基于训练样本集,训练第一个降噪自编码器DAE1;

步骤S5:训练完第一个降噪自编码器后,重新输入训练样本集,根据步骤S4训练好的编码器提取所有样本的隐层学习得到的特征表示,构成新的样本{y(1),y(2),…,y(n)},将其作为第二个降噪自编码器的输入,训练第二个降噪自编码器DAE2;

步骤S6:将完成训练的两个降噪自编码器DAE1和DAE2堆叠得到三层的SDAE结构,对应第一层为输入层,维度为d;第二层为DAE1中的隐层,维度为dh1;第三层为DAE2中对应的隐层,维度为dh2;通过该SDAE结构,给定乳腺钼靶图像的手工浅层特征,前向反馈后得到基于堆叠降噪自编码器的高层抽象的语义特征表示

进一步地,所述步骤S3为:分别提取每个ROI图像的GLCM、小波、小波包、MPEG-7四种手工浅层特征,级联为一个d维的特征向量作为一个样本。

进一步地,所述步骤S4中,第一个降噪自编码器由三层网络构成,对应输入层x、隐层y、输出层z的神经元个数分别为d、dh1、d,其中输入层的输入为训练样本集中的某个样本x(i)∈[0,1]d,i=1,2,…,n;输入层人为地引入了噪声;参数θ1={W1,b1},θ2={W2,b2},b1、b2为分别为隐层和输出层的偏置向量,大小分别为dh1和d维,W1、W2分别为输入层到隐层的权值连接矩阵和隐层到输出层的权值连接矩阵,大小分别为d×dh1、dh1×d;激活函数均采用sigmoid函数;

步骤S4包括以下步骤:

步骤S41:对训练样本集进行分割,具体步骤为:将超声图像的训练样本集随机分割为num个batch,每个batchi∈[0,1]batch_size×d,i=1,2,…,num;

步骤S42:网络参数初始化;具体设置为:

learningrate=1;

b1=0,b2=0;

其中,leanningrate表示学习率,rand(m,n)函数为随机生成[0,1]的m×n阶矩阵;

步骤43:设置最大循环次数NN;

步骤44:外重循环t=1 to NN;

内重循环s=1 to num;

步骤441:腐蚀数据:通过二进制掩蔽噪声方式,以一定概率将输入特征向量x中某些值随机地重设为0;具体为:

batchs=batchs×(rand(batch_size,d)>threashold),一个batchs构成batch_size×d阶矩阵,threashold为设定的阈值,具体设定为0.2;如果随机生成的矩阵A=rand(batch_size,d)中的元素Aij小于threashold,则矩阵batchs中对应位置的元素重设为0;定义batchs中第i个样本为x(i),腐蚀后为

步骤442:前向反馈:

z(i)=sigmoid(W2Ty(i)+b2),i=1,2,…,batch_size;

步骤443:反向传输:

步骤444:更新参数

其中,分别表示第i个样本对应输出层和隐层第j个节点的残差。

本发明提供一种基于堆叠降噪自编码器的乳腺超声图像特征自学习提取系统,包括以下模块:

图像集给定模块:用于给定一个中等规模以上的乳腺超声病灶区域图像集,所述中等规模表示该图像集至少含有200幅以上的乳腺超声诊断图像;

病灶区域提取模块:用于手动提取步骤S1中图像集里每一张乳腺超声诊断图像的病灶区域图像ROI;

样本训练模块:用于从每一张乳腺超声病灶区域图像ROI中提取手工浅层特征作为一个训练样本,构成训练样本集set_unlabeled={x(1),x(2),…,x(n)},第i个样本x(i)∈[0,1]d,i=1,2,…,n;其中d表示样本的特征维度,n表示训练集样本个数;

第一编码器训练模块:用于基于训练样本集,训练第一个降噪自编码器DAE1;

第二编码器训练模块:用于训练完第一个降噪自编码器后,重新输入训练样本集,根据步骤S4训练好的编码器提取所有样本的隐层学习得到的特征表示,构成新的样本{y(1),y(2),…,y(n)},将其作为第二个降噪自编码器的输入,训练第二个降噪自编码器DAE2;

语义特征生成模块:用于将完成训练的两个降噪自编码器DAE1和DAE2堆叠得到三层的SDAE结构,对应第一层为输入层,维度为d;第二层为DAE1中的隐层,维度为dh1;第三层为DAE2中对应的隐层,维度为dh2;通过该SDAE结构,给定乳腺钼靶图像的手工浅层特征,前向反馈后得到基于堆叠降噪自编码器的高层抽象的语义特征表示

进一步地,所述样本训练模块:还用于分别提取每个ROI图像的GLCM、小波、小波包、MPEG-7四种手工浅层特征,级联为一个d维的特征向量作为一个样本。

进一步地,所述第一编码器训练模块中,第一个降噪自编码器由三层网络构成,对应输入层x、隐层y、输出层z的神经元个数分别为d、dh1、d,其中输入层的输入为训练样本集中的某个样本x(i)∈[0,1]d,i=1,2,…,n;输入层人为地引入了噪声;参数θ1={W1,b1},θ2={W2,b2},b1、b2为分别为隐层和输出层的偏置向量,大小分别为dh1和d维,W1、W2分别为输入层到隐层的权值连接矩阵和隐层到输出层的权值连接矩阵,大小分别为d×dh1、dh1×d;激活函数均采用sigmoid函数;

第一编码器训练模块包括以下单元:

样本分割单元:用于对训练样本集进行分割,具体步骤为:将超声图像的训练样本集随机分割为num个batch,每个batchi∈[0,1]batch_size×d,i=1,2,…,num;

网络参数初始化单元:用于网络参数初始化;具体设置为:

learningrate=1;

b1=0,b2=0;

其中,leanningrate表示学习率,rand(m,n)函数为随机生成[0,1]的m×n阶矩阵;

循环次数设置单元:用于设置最大循环次数NN;

内外重循环设置单元:用于设置外重循环t=1 to NN;

用于设置内重循环s=1 to num;

腐蚀数据单元:用于腐蚀数据:通过二进制掩蔽噪声方式,以一定概率将输入特征向量x中某些值随机地重设为0;具体为:

batchs=batchs×(rand(batch_size,d)>threashold),一个batchs构成batch_size×d阶矩阵,threashold为设定的阈值,具体设定为0.2;如果随机生成的矩阵A=rand(batch_size,d)中的元素Aij小于threashold,则矩阵batchs中对应位置的元素重设为0;定义batchs中第i个样本为x(i),腐蚀后为

前向反馈单元:用于前向反馈:

z(i)=sigmoid(W2Ty(i)+b2),i=1,2,…,batch_size;

反向传输单元:用于反向传输:

更新参数单元:用于更新参数

其中,分别表示第i个样本对应输出层和隐层第j个节点的残差。

区别于现有技术,上述技术方案基于中等规模的腺钼靶病灶区域图像,训练得到两个自编码器,并根据两个自编码器得到SDAE结构,并最终得到语义特征,实现了乳腺超声图像特征的提取,从而为临床诊断提供有价值的“参考意见”,提高乳腺癌诊断的准确率和效率。

附图说明

图1为本发明实施例中乳腺超声图像特征深度学习的单个降噪自编码器训练过程;

图2为本发明实施例中堆叠降噪自编码器训练过程。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。

请参阅图1到图2,本实施例本实施例提供了一种基于堆叠降噪自编码器的乳腺超声图像特征自学习提取方法,具体如下:

步骤S1:给定一个中等规模以上的乳腺超声病灶区域图像集,所述中等规模表示该图像集至少含有200幅以上的乳腺钼靶诊断图像;

步骤S2:手动提取步骤S1中图像集里每一张乳腺超声诊断图像的乳腺钼靶病灶区域图像ROI(Region of interest,感兴趣区域);其中所述乳腺超声病灶区域图像ROI的大小为150×150;

步骤S3:从每一张乳腺超声病灶区域图像ROI中提取手工浅层特征作为一个训练样本,构成训练样本集set_unlabeled={x(1),x(2),…,x(n)},第i个样本x(i)∈[0,1]d,i=1,2,…,n。其中d表示样本的特征维度,n表示训练集样本个数。

步骤S4:基于训练样本集,训练第一个降噪自编码器DAE1,其中DAE为Denoising Autoencoder,降噪自编码器。

步骤S5:训练完第一个降噪自编码器后,重新输入set_unlabeled样本即训练样本集,根据步骤S4训练好的模型DAE1提取所有样本的隐层学习得到的特征表示,构成新的样本{y(1),y(2),…,y(n)},将其作为第二个降噪自编码器的输入,训练第二个降噪自编码器DAE2。

步骤S6:将完成训练的两个降噪自编码器(DAE1、DAE2)堆叠得到三层的SDAE(stacked Denoising Autoencoder)结构,如图2所示。对应第一层为输入层,维度为d;第二层为DAE1中的隐层,维度为dh1;第三层为DAE2中对应的隐层,维度为dh2。通过该模型,给定乳腺超声图像的手工浅层特征,前向反馈后即可以得到基于堆叠降噪自编码器的高层抽象的语义特征表示这样得到语义特征,实现了乳腺超声图像特征的提取,从而为临床诊断提供有价值的“参考意见”,提高乳腺癌诊断的准确率和效率。

进一步地,所述步骤S3为:分别提取每个ROI图像的GLCM((灰度共生矩阵,Gray-level co-occurrence matrix)、小波、小波包、MPEG-7(Moving Picture Experts Group,动态图像专家组)四种手工浅层特征,级联为一个d维的特征向量作为一个样本。考虑到某些特征属性实际最大值和最小值是未知的,并且存在离群点的可能性,首先采取z-score的规范化方法,规范化公式如下:

其中x表示某一维度特征的观测值,mean为该维度特征观测值的均值,std为该维度特征观测值的标准差,x'为x进行z-score规范后的结果。考虑到训练自编码过程中神经元是以概率形式存在,继续进行Min-Max规范化到[0,1]区间。规范化公式如下:

其中x'表示某一维度特征的观测值,min为该维度特征观测值的最小值,max为该维度特征观测值的最大值,x”为x'进行Min-Max规范后的结果。

在步骤S3中,其重点在于其中的级联,一般来说,GLCM、小波、小波包、MPEG-7这四种浅层特征都只提取了图像的部分物理特征,不够全面,为了保证后续可以从全面的物理特征中学习出更好的高层特征,将这四种不同的浅层特征级联在一起做为后续工作的学习基础,以最大程度地包含ROI图像的物理信息。

进一步地,所述步骤S4为:如图1所示,整个降噪自编码器由三层网络构成,对应输入层x、隐层y、输出层z的神经元个数分别为d、dh1、d,其中输入层的输入为训练集set_unlabeled中的某个样本x(i)∈[0,1]d,i=1,2,…,n。输入层人为地引入了噪声。参数θ1={W1,b1},θ2={W2,b2},b1、b2为分别为隐层和输出层的偏置向量,大小分别为dh1和d维,W1、W2分别为输入层到隐层的权值连接矩阵和隐层到输出层的权值连接矩阵,大小分别为d×dh1、dh1×d。激活函数均采用sigmoid函数。

具体包括以下步骤:

步骤S41:对训练样本集进行分割,具体步骤为:将超声图像的训练样本集set_unlabeled随机分割为num个batch(块),每个batchi∈[0,1]batch_size×d,i=1,2,…,num;

步骤S42:网络参数初始化;具体设置为:

learningrate=1;

b1=0,b2=0;

其中,leanningrate表示学习率,rand(m,n)函数为随机生成[0,1]的m×n阶矩阵;

步骤43:设置最大循环次数NN;

步骤44:外重循环t=1 to NN;

内重循环s=1 to num;

步骤441:腐蚀数据:通过二进制掩蔽噪声方式,以一定概率将输入特征向量x中某些值随机地重设为0;具体为:

batchs=batchs×(rand(batch_size,d)>threashold),一个batchs构成batch_size×d阶矩阵,threashold为设定的阈值,具体设定为0.2;如果随机生成的矩阵A=rand(batch_size,d)中的元素Aij小于threashold,则矩阵batchs中对应位置的元素重设为0;定义batchs中第i个样本为x(i),腐蚀后为

步骤442:前向反馈:

z(i)=sigmoid(W2Ty(i)+b2),i=1,2,…,batch_size;

步骤443:反向传输:

步骤444:更新参数

其中,分别表示第i个样本对应输出层和隐层第j个节点的残差。本实施例的好处在于,传统的GLCM、小波、小波包、MPEG-7这些浅层特征其实都只是常规的图像物理特征,和超声图像做为医学图像来进行辅助诊断时候需要的病理特征并没有直接关联,所以用GLCM、小波、小波包、MPEG-7这些浅层特征做为超声图像病理上的描述表征具有不可靠性。而通过学习器学习所得的特征比物理特征更高一层,更加接近图像的语义特征,与超声图像的病理关联度更大,更加适合做为超声图像病理上的描述表征。

本发明提供一种基于堆叠降噪自编码器的乳腺超声图像特征自学习提取系统,包括以下模块:

图像集给定模块:用于给定一个中等规模以上的乳腺超声病灶区域图像集,所述中等规模表示该图像集至少含有200幅以上的乳腺超声诊断图像;

病灶区域提取模块:用于手动提取步骤S1中图像集里每一张乳腺超声诊断图像的病灶区域图像ROI;

样本训练模块:用于从每一张乳腺超声病灶区域图像ROI中提取手工浅层特征作为一个训练样本,构成训练样本集set_unlabeled={x(1),x(2),…,x(n)},第i个样本x(i)∈[0,1]d,i=1,2,…,n;其中d表示样本的特征维度,n表示训练集样本个数;

第一编码器训练模块:用于基于训练样本集,训练第一个降噪自编码器DAE1;

第二编码器训练模块:用于训练完第一个降噪自编码器后,重新输入训练样本集,根据步骤S4训练好的编码器提取所有样本的隐层学习得到的特征表示,构成新的样本{y(1),y(2),…,y(n)},将其作为第二个降噪自编码器的输入,训练第二个降噪自编码器DAE2;

语义特征生成模块:用于将完成训练的两个降噪自编码器DAE1和DAE2堆叠得到三层的SDAE结构,对应第一层为输入层,维度为d;第二层为DAE1中的隐层,维度为dh1;第三层为DAE2中对应的隐层,维度为dh2;通过该SDAE结构,给定乳腺钼靶图像的手工浅层特征,前向反馈后得到基于堆叠降噪自编码器的高层抽象的语义特征表示这样得到语义特征,实现了乳腺超声图像特征的提取,从而为临床诊断提供有价值的“参考意见”,提高乳腺癌诊断的准确率和效率。

进一步地,所述样本训练模块:还用于分别提取每个ROI图像的GLCM、小波、小波包、MPEG-7四种手工浅层特征,级联为一个d维的特征向量作为一个样本。样本训练模块重点在于其中的级联,一般来说,GLCM、小波、小波包、MPEG-7这四种浅层特征都只提取了图像的部分物理特征,不够全面,为了保证后续可以从全面的物理特征中学习出更好的高层特征,将这四种不同的浅层特征级联在一起做为后续工作的学习基础,以最大程度地包含ROI图像的物理信息。

进一步地,所述第一编码器训练模块中,第一个降噪自编码器由三层网络构成,对应输入层x、隐层y、输出层z的神经元个数分别为d、dh1、d,其中输入层的输入为训练样本集中的某个样本x(i)∈[0,1]d,i=1,2,…,n;输入层人为地引入了噪声;参数θ1={W1,b1},θ2={W2,b2},b1、b2为分别为隐层和输出层的偏置向量,大小分别为dh1和d维,W1、W2分别为输入层到隐层的权值连接矩阵和隐层到输出层的权值连接矩阵,大小分别为d×dh1、dh1×d;激活函数均采用sigmoid函数;

第一编码器训练模块包括以下单元:

样本分割单元:用于对训练样本集进行分割,具体步骤为:将超声图像的训练样本集随机分割为num个batch,每个batchi∈[0,1]batch_size×d,i=1,2,…,num;

网络参数初始化单元:用于网络参数初始化;具体设置为:

learningrate=1;

b1=0,b2=0;

其中,leanningrate表示学习率,rand(m,n)函数为随机生成[0,1]的m×n阶矩阵;

循环次数设置单元:用于设置最大循环次数NN;

内外重循环设置单元:用于设置外重循环t=1 to NN;

用于设置内重循环s=1 to num;

腐蚀数据单元:用于腐蚀数据:通过二进制掩蔽噪声方式,以一定概率将输入特征向量x中某些值随机地重设为0;具体为:

batchs=batchs×(rand(batch_size,d)>threashold),一个batchs构成batch_size×d阶矩阵,threashold为设定的阈值,具体设定为0.2;如果随机生成的矩阵A=rand(batch_size,d)中的元素Aij小于threashold,则矩阵batchs中对应位置的元素重设为0;定义batchs中第i个样本为x(i),腐蚀后为

前向反馈单元:用于前向反馈:

z(i)=sigmoid(W2Ty(i)+b2),i=1,2,…,batch_size;

反向传输单元:用于反向传输:

更新参数单元:用于更新参数

其中,分别表示第i个样本对应输出层和隐层第j个节点的残差。本实施例的好处在于,传统的GLCM、小波、小波包、MPEG-7这些浅层特征其实都只是常规的图像物理特征,和超声图像做为医学图像来进行辅助诊断时候需要的病理特征并没有直接关联,所以用GLCM、小波、小波包、MPEG-7这些浅层特征做为超声图像病理上的描述表征具有不可靠性。而通过学习器学习所得的特征比物理特征更高一层,更加接近图像的语义特征,与超声图像的病理关联度更大,更加适合做为超声图像病理上的描述表征。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。

本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1