融合注意力机制的U-Net医学影像轮廓自动提取网络

文档序号:31798366发布日期:2022-10-14 18:08阅读:313来源:国知局
融合注意力机制的U-Net医学影像轮廓自动提取网络
融合注意力机制的u-net医学影像轮廓自动提取网络
技术领域
1.本发明涉及医学图像处理技术领域,具体为一种融合注意力机制的u-net医学影像轮廓自动提取网络。


背景技术:

2.医学图像能够对人体内的解剖结构或功能组织进行反映。根据医学图像中某种相似性特征将医学图像划分为若干个互不相交的区域,即医学图像分割,是医学图像分析中最重要的基础。准确、鲁棒和快速的图像分割,是定量分析、三维可视化等后续环节之前的最重要步骤,也为图像引导手术、放疗计划和治疗评估等重要临床应用奠定了最根本的基础。
3.近年来,随着深度神经网络在医学图像处理领域的发展,深度学习己成为医学图像分割任务中的主流方法,众多研究者的实践证明,基于深度学习的分割方法在医学图像分割领域具有很强的应用潜力。深度学习分割方法是通过对像素进行分类来实现医学图像的分割。与传统的像素或超像素分类方法使用手工制作的特征不同,深度学习的方法能够自动从医学图像中学习到与任务相关的特征,并根据这些特征来对像素进行分类,进而实现了端到端的分割。其中,u-net是目前医学图像分割领域中应用最广泛的框架。
4.现有技术:u-net网络结构在编码器部分能够获取图像的细节信息和轮廓信息;然后,通过跳跃连接阶段将提取到的特征传递至解码器部分;最后,由解码器部分结合多个尺度的特征进行特征恢复。由于具有u型结构,u-net可以用较少的图片训练得到效果不错的模型。u-net网络可分为特征提取网络和特征融合网络,特征提取网络使用卷积层和池化层,实现下采样操作,特征融合网络则为上采样操作,可以恢复图像分辨率的同时,网络逐渐收敛到目标区域。在特征融合阶段,再次融合同层次中提取的特征,避免细节丢失。
5.虽然基于u-net的医学图像分割方法获得了令人瞩目的成绩,但由于噪声问题的影响,获得准确的分割结果仍然十分困难,多数方法仍然存在边缘模糊,细节被忽略、需人工调参等问题。为此,我们推出一种融合注意力机制的u-net医学影像轮廓自动提取网络。


技术实现要素:

6.本发明的目的在于提供一种融合注意力机制的u-net医学影像轮廓自动提取网络,以解决上述背景技术中提出的问题。
7.为实现上述目的,本发明提供如下技术方案:一种融合注意力机制的u-net医学影像轮廓自动提取网络,包括rgb图像输入模块,所述rgb图像输入模块的输出端连接于特征提取模块的输入端,所述特征提取模块包括特征编码模块、特征解码模块和注意力模块;
8.所述特征提取模块的输出端连接于mlp的输入端,所述注意力模块包括空间注意力和通道注意力,用于抑制非关注区域的神经元;
9.所述mlp用于分类提取出来的特征,其输出元设定为2个神经元,分别表示前景和背景的概率,并在其后依次接上softmax和marching square。
10.所述rgb图像输入模块用于输入一张rgb图像。
11.所述特征提取模块用于提取rgb图像的特征,特征提取模块得到rgb图像的特征后,对于每个像素都有c维的特征表示,融合局部和全局的信息,因此只需要对每个像素的c维特征进行一次mlp推理,由于该阶段任务是二分类,最后得到2维的信息,分别表示目标和非目标的概率,通过比较目标和非目标,即可得到一张二值图片,最后采用二值化图片轮廓提取的算法。
12.所述注意力模块用于去除rgb图像中的干扰信息。
13.所述特征编码模块采用的是resnet18。
14.所述通道注意力为下式所示:
15.mc(f)=f*sigmoid(mlp(avgpool(f))+mlp(maxpool(f)));
16.所述空间注意力的计算如下式所示,其中表示将a和b按通道拼接;
[0017][0018]
结合通道注意力和空间注意力,得到cbam的计算公式:
[0019]
m(f)=ms(mc(g(f)))+f;其中:g(f)=conv2(conv1(f))。
[0020]
所述mlp采用含3层隐藏层的多层感知器。
[0021]
与现有技术相比,本发明的有益效果是:本发明通过以一定的方式融合注意力模块,提高了边缘轮廓提取精度,初步解决传统框架产生模糊边缘的问题,并减少了背景噪声的干扰,从而基本满足了医疗领域对医学影像轮廓提取的精度要求。
[0022]
本发明简化了传统框架的流程,使得训练和推断所用的时间相对较少,大大节约得到目标模型的时间和成本。
[0023]
本发明通过marching square算法,对轮廓进行最后的提取,算法实现简单快速,而且可以进行并行处理。
附图说明
[0024]
图1为本发明融合注意力机制的u-net医学影像轮廓自动提取网络的框架结构示意图;
[0025]
图2为backbone框架结构示意图;
[0026]
图3为mlp框架结构示意图;
[0027]
图4为mlp调用过程示意图;
[0028]
图5为marching squares的第一种基本情况示意图;
[0029]
图6为marching squares的第二种基本情况示意图;
[0030]
图7为marching squares的第三种基本情况示意图;
[0031]
图8为marching squares的第四种基本情况示意图;
[0032]
图9为marching squares的第五种基本情况示意图;
[0033]
图10为marching squares的第六种基本情况示意图。
具体实施方式
[0034]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0035]
请参阅图1-10,本发明提供一种技术方案:一种融合注意力机制的u-net医学影像轮廓自动提取网络,包括rgb图像输入模块,所述rgb图像输入模块的输出端连接于特征提取模块的输入端,所述特征提取模块包括特征编码模块、特征解码模块和注意力模块;
[0036]
所述特征提取模块的输出端连接于mlp的输入端,所述注意力模块包括空间注意力和通道注意力,用于抑制非关注区域的神经元;
[0037]
所述mlp用于分类提取出来的特征,其输出元设定为2个神经元,分别表示前景和背景的概率,并在其后依次接上softmax和marching square。
[0038]
输入一张rgb图像,首先对其进行特征提取。特征提取模块类似于u-net,一部分是编码网络(即特征编码模块),另一部分是解码网络(特征解码模块),同时融合了注意力模块,通过后续的消融实验发现,加入的注意力模块能够很好去除对图片中的干扰信息。
[0039]
得到特征后,对于每个像素都有c维的特征表示,融合了局部和全局的信息,因此只需要对每个像素的c维特征进行一次mlp推理,由于该阶段任务是二分类,最后得到2维的信息,分别表示目标和非目标的概率。通过比较目标和非目标,即可得到一张二值图片,最后采用二值化图片轮廓提取的算法即可,实验中使用marching squares算法提取轮廓。
[0040]
特征提取模块分为两个部分,一个是特征编码模块,一个是特征解码模块。特征编码模块采用的是resnet18,具有容易训练、易于实现和参数量相对较少的特点,更重要的是具有下采样的结构,非常适合进行快速的特征提取。
[0041]
特征解码模块类似于u-net的特征解码部分,但是在每个上采样前加入了注意力模块。cbam模块(即注意力模块)是一种具有注意力机制的网络,包括空间注意力和通道注意力,用于抑制非关注区域的神经元。
[0042]
通道注意力为下式所示:
[0043]
mc(f)=f*sigmoid(mlp(avgpool(f))+mlp(maxpool(f)));
[0044]
空间注意力的计算如下式所示,其中表示将a和b按通道拼接;
[0045][0046]
结合通道注意力和空间注意力,得到cbam的计算公式。
[0047]
m(f)=ms(mc(g(f)))+f;其中:g(f)=conv2(conv1(f));
[0048]
特征编码后得到的往往是一些图片的细节,而这些细节包括了目标和非目标的细节,如果这个时候进行注意力处理,提前将非目标部分的特征抑制,那么预测的目标区域更容易被后续的mlp模块认为是1,有利于后面的mlp推断。
[0049]
特征提取模块类似于u-net,但不同于u-net的是,该模块的输出不是一个概率图,而是特征的描述。假设输入的图片是w*h*3,那么特征提取后得到的维度是w*h*c,其中c是特征描述数量,在实验中发现设定c=512使得网络更具有鲁棒性。对于每个像素,都有c维向量的特征描述。这些特征不仅描述该像素周围的信息,还融合了全局的信息,因此后续的判断只需要对这个像素的向量进行推断即可。
[0050]
本发明设计的多层感知器(即mlp),用于分类提取出来的特征。pifu会对整个特征
采样再分类,跟pifu不同的是,本发明的框架中不会对特征进行采样,因为这是二维图片的信息,计算量不大,再者现在设备计算能力和显存容量有大幅度提升,完全可以对所有特征进行训练,无需采样。对每个像素,都有c维向量描述该像素在全局的特征信息。
[0051]
本发明的框架设置了3层隐藏层,分别是[512,256,128]。由于图像分割的目的是二分类,因此输出元设定为2个神经元,分别表示前景和背景的概率,并在其后接上softmax和marching squares。
[0052]
最后对比前景和背景的概率,只要前景大于背景,该像素设为1,通过上述流程可以得到一张纯净的二值图。
[0053]
这样做的好处:
[0054]
(1)提高准确率。以往的图像分割得到的都是一张概率图,将对前景和背景都进行概率计算。从消融实验可以看到,引入mlp在准确率可以提升0.3%左右。
[0055]
(2)无需人工设定阈值。以往的图像轮廓提取,往往需要在概率图上进行一个人工设定的阈值,以此得到一个纯净的二值图片。本框架的设计将免除设置这个超参数,避免人工设定的阈值对结果产生影响。
[0056]
得到纯净的二值图后,理论上任意一个二值图轮廓提取算法都可以提取轮廓,本发明使用的是marching squares算法。跟marching cubes类似,marching squares是一种用于提取等高线的算法,给定一个二维的概率图,根据一个阈值,线性插值得到阈值所在的曲线。
[0057]
由于本发明输出是一个二值图,因此使用marching squares算法时,只要阈值大于0,得到的结果是一样的。使用marching squares算法的原因是它实现简单,计算量小。对于位于单元格内的四个点,共有以下6种基本情况,通过旋转镜像可以得到16种情况。只需要判断是哪种情况,即可构造出边,该算法是可以并行运行的,意味着可以进一步优化和加速。
[0058]
关键点:
[0059]
1、本发明在unet框架的基础上,引入了注意力模块,利用全卷积网络,得到医学图像物体的二值掩码,将物体从背景图像分割出来,提高了轮廓提取的准确度,可以更好地向轮廓提取阶段提供特征。
[0060]
2、本发明使用了含3层隐藏层的多层感知器作为分类器,从上一步的掩码信息进行第二次修正,使得结果更加的准确,并且使得轮廓界限明确,有利于使用marching square算法提取轮廓。
[0061]
3、本发明使用了marching square作为最后的轮廓提取算法,相比于神经网络方法,该方法提高了轮廓提取的性能,而且可以并行加速执行该流程。
[0062]
保护点:
[0063]
1、发明在传统的u-net基础上,在u-net的上采样阶段引入了注意力模块,利用全卷积网络,得到医学图像物体的二值掩码,将物体从背景图像分割出来,应在本发明保护范围以内。
[0064]
2、本发明使用了含3层隐藏层的多层感知器作为分类器,对二值掩码进行第二次修正,使得结果更加的准确,并且使得轮廓界限明确,从而更好达到医疗领域对图像轮廓提取效果的要求,应在本发明保护范围以内。
[0065]
3、本发明使用了marching square作为最后的轮廓提取算法,相比于神经网络方法,该方法提高了轮廓提取的性能,而且可以并行加速执行该流程。marching square算法在医学轮廓提取上的应用,应在本发明保护范围以内。
[0066]
现有技术:u-net网络结构在编码器部分能够获取图像的细节信息和轮廓信息;然后,通过跳跃连接阶段将提取到的特征传递至解码器部分;最后,由解码器部分结合多个尺度的特征进行特征恢复。由于具有u型结构,u-net可以用较少的图片训练得到效果不错的模型。u-net网络可分为特征提取网络和特征融合网络,特征提取网络使用卷积层和池化层,实现下采样操作,特征融合网络则为上采样操作,可以恢复图像分辨率的同时,网络逐渐收敛到目标区域。在特征融合阶段,再次融合同层次中提取的特征,避免细节丢失。
[0067]
虽然基于u-net的医学图像分割方法获得了令人瞩目的成绩,但由于噪声问题的影响,获得准确的分割结果仍然十分困难,多数方法仍然存在边缘模糊,细节被忽略、需人工调参等问题。
[0068]
现有技术的缺点:
[0069]
现有医学影像轮廓提取网络的缺点:
[0070]
1、检测精度相对较低,容易出现误检现象或漏检现象。
[0071]
2、需要大量的数据集训练,消耗大量的成本和时间。
[0072]
3、输出结果边缘模糊,细节被忽略。
[0073]
4、传统的网络存在一个或多个需要人为调整的超参数,而超参数的调整对结果产生直接的影响。
[0074]
出现上述缺点的原因有:
[0075]
1、模型没有关注某些重要的特征,容易受到噪声的干扰。
[0076]
2、模型本身的设计较为复杂,导致训练消耗大量的时间。
[0077]
3、cnn中对张量的卷积操作容易使得细节被忽略,使结果趋于确定与不确定之间的稳定态。
[0078]
4、确定轮廓边缘需要人为设置一个阈值,通常设定为0.5,但这个数值并非最佳,对于不同的数据都有一个或多个不同的最佳数值。
[0079]
为了解决边缘模糊,忽略细节等问题,并提高轮廓提取的精确率和训练效率,降低人为对超参数的影响,具体的,针对上述问题,本发明聚焦于通过注意力机制实现的一种基于像素判断且无需使用acms的网络,结合注意力机制,能够更快地收敛,无需大量的数据样本也能训练出很好的效果。使用该网络推断像素位于内部区域的概率,通过一定的步骤能够直接输出物体的二值图,无需人工设置阈值。本发明的主要改进如下:
[0080]
(1)为了解决干扰项的问题,本文提出一个具有注意力机制的u-net模块,该模块能够有效去除干扰,在果蝇胚胎数据集中召回率比u-net提升了6.3%。
[0081]
(2)使用mlp表示该像素位于目标内的概率,将u-net提取的特征再次计算,而非直接由u-net得到。在果蝇胚胎数据集中准确率比u-net提升了0.3%。
[0082]
(3)人工设置阈值的大小对结果影响很大,为了避免人工设置阈值,利用one-hot编码方法解决这个问题,比自适应设置阈值的方法简单有效。
[0083]
本发明通过以一定的方式融合注意力模块,提高了边缘轮廓提取精度,初步解决传统框架产生模糊边缘的问题,并减少了背景噪声的干扰,从而基本满足了医疗领域对医
学影像轮廓提取的精度要求。
[0084]
本发明简化了传统框架的流程,使得训练和推断所用的时间相对较少,大大节约得到目标模型的时间和成本。
[0085]
本发明通过marching square算法,对轮廓进行最后的提取,算法实现简单快速,而且可以进行并行处理。
[0086]
本发明解决的技术问题:
[0087]
1、加入注意力模块,使用cbam模块使网络聚焦于关注的区域,去除干扰。
[0088]
2、利用one-hot编码方法解决人工设置阈值的问题。
[0089]
3、改进和优化现有模型,使得训练时间相对较短,尽可能使模型轻量化。
[0090]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1