图像语义分割方法、系统、电子设备和存储介质

文档序号：26349603发布日期：2021-08-20 20:22阅读：98来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及图像处理技术领域，尤其涉及一种图像语义分割方法、系统、电子设备和存储介质。

背景技术：

医学与深度学习的关系越来越密切，深度学习与医学的交叉学科项目层出不穷，通过深入学习，很多成果已经被证明了可以在治疗多种疾病上节省大量的人力物力。

肾积水是一种较为常见的肾病，而超声检查是疑似肾积水病人普遍会做的基础检查，方便快捷、价格低且无伤害无辐射。如果能利用深度学习方法在超声检查阶段就对该病进行判断和分级，即可节省大量的资金、人力和医疗资源，帮助到相关患者。

图像分割语义识别在超声图像分级中必不可缺。然而在肾超声图像分割的过程中，传统的unet模型并不能很好地勾勒出分割部分的边界，经常出现大片的不匹配、多分少分现象。

技术实现要素：

本发明实施例提供一种图像语义分割方法、系统、电子设备和存储介质，用以解决传统unet模型不能很好地勾勒出分割部分的边界，对超声图像进行分割时经常出现大片的不匹配、多分少分现象的问题。

第一方面，本发明实施例提供一种图像语义分割方法，包括：

确定待语义分割的图像；

将所述图像输入至图像语义分割模型中，得到所述图像语义分割模型输出的图像语义分割结果；

其中，所述图像语义分割模型是基于样本图像以及对应的像素类别标注训练得到的，所述像素类别标注是预先确定的。

优选地，所述图像语义分割模型包括主干特征提取模型、加强特征提取模型、分类模型和分割模型；

将所述图像输入至图像语义分割模型中，得到所述图像语义分割模型输出的图像语义分割结果，包括：

将所述图像输入所述主干特征提取模型，输出多个有效特征层的图像特征；

将所述多个有效特征层的图像特征输入所述加强特征提取模型，输出每一有效特征层的图像融合特征；

将所述每一有效特征层的图像融合特征输入所述分类模型，输出所述图像的像素分类结果；

将所述图像的像素分类结果输入所述分割模型，输出所述图像的语义分割结果。

优选地，所述样本图像选取自图像数据集；

所述主干特征提取模型是基于选取自图像数据集的样本图像进行标注后作为训练样本图像训练卷积神经网络vgg16得到的；

所述加强特征提取模型包括权重块；

将所述多个有效特征层的图像特征输入所述加强特征提取模型，输出每一有效特征层的图像融合特征，包括：

分别对所述多个有效特征层的图像特征进行权重值加权，得到每一有效特征层的图像融合特征；其中，所述权重值可由所述权重块调整得到。

优选地，所述分别对所述多个有效特征层的图像特征进行权重值加权，得到每一有效特征层的图像融合特征，其公式如下：

其中，un+1是第n+1层上采样的结果，rn是将第n+1层分辨率调整为和第n层分辨率一致的调整函数，pn是基于权重块和第n层通道数的通道数调整函数，δ是特征提取运算函数。

第二方面，本发明实施例提供一种图像语义分割系统，包括图像确定模块和图像语义分割模块：

所述图像确定模块，用于确定待语义分割的图像；

所述图像语义分割模块，用于将所述图像输入至图像语义分割模型中，得到所述图像语义分割模型输出的图像语义分割结果；

其中，所述图像语义分割模型是基于样本图像以及对应的像素类别标注训练得到的，所述像素类别标注是预先确定的。

优选地，所述图像语义分割模块包括主干特征提取模块、加强特征提取模块、分类模块和分割模块；

所述主干特征提取模块，用于基于确定的所述图像得到多个有效特征层的图像特征；

所述加强特征提取模块，用于基于所述多个有效特征层的图像特征得到每一有效特征层的图像融合特征；

所述分类模块，用于基于所述每一有效特征层的图像融合特征得到图像像素分类结果；

所述分割模块，用于基于所述图像像素分类结果得到图像语义分割结果。

优选地，所述样本图像选取自图像数据集；

所述主干特征提取模块包括主干特征提取模型，所述主干特征提取模型是基于选取自图像数据集的样本图像进行标注后作为训练样本图像训练卷积神经网络vgg16得到的；

所述加强特征提取模块包括权重块；

所述权重块，用于分别对所述多个有效特征层的图像特征进行权重值加权，以得到每一有效特征层的图像融合特征；其中，所述权重值可由所述权重块调整得到。

优选地，所述权重块，用于分别对所述多个有效特征层的图像特征进行权重值加权，以得到每一有效特征层的图像融合特征，其公式如下：

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所提供的任一项所述图像语义分割方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所提供的任一项所述图像语义分割方法的步骤。

本发明实施例提供的一种图像语义分割方法、系统、电子设备和存储介质，通过基于unet的新型语义分割网络结构，在unet的基础上增加了权重块，可以在自定义权重的基础上，对多个层次进行结合，扩大感受野，更好的让网络提取上下文信息，增进语义分割网络的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像语义分割方法的流程示意图；

图2是本发明提供的图像语义分割模型框图；

图3是本发明提供的unet模型网络结构图；

图4是本发明提供的mwunet网络结构优化图；

图5是本发明提供的weightedskipconnection连接方式图；

图6是本发明提供的图像语义分割系统的结构示意图；

图7是本发明提供的图像语义分割模块的结构示意图；

图8是本发明提供的电子设备的结构示意图；

附图标记：

1：下采样；2：跳跃连接；3：上采样；

4：卷积运算；5：权重块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图8描述本发明提供的一种图像语义分割方法、系统、电子设备和存储介质。

本发明实施例提供了一种图像语义分割方法。图1为本发明实施例提供的图像语义分割方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待语义分割的图像；

具体地，实际应用的现代医学影像识别中采用肾超声图像。

步骤120，将所述图像输入至图像语义分割模型中，得到所述图像语义分割模型输出的图像语义分割结果；

其中，所述图像语义分割模型是基于样本图像以及对应的像素类别标注训练得到的，所述像素类别标注是预先确定的。

具体地，图像语义分割的目标是标记图像每个像素的类别，因为需要预测图像中每个像素，所以此任务通常被称为密集预测。

本发明实施例提供的方法，基于样本图像训练后得到图像语义分割模型，通过输入待语义分割的图像对图像像素分类，能够有效地改善图像分割的效果。

基于上述任一实施例，如图2所示，所述图像语义分割模型200包括主干特征提取模型210、加强特征提取模型220、分类模型230和分割模型240；

将所述图像输入至图像语义分割模型200中，得到所述图像语义分割模型200输出的图像语义分割结果，包括：

将所述图像输入所述主干特征提取模型210，输出多个有效特征层的图像特征；

将所述多个有效特征层的图像特征输入所述加强特征提取模型220，输出每一有效特征层的图像融合特征；

将所述每一有效特征层的图像融合特征输入所述分类模型230，输出所述图像的像素分类结果；

将所述图像的像素分类结果输入所述分割模型240，输出所述图像的语义分割结果。

具体地，本发明实施例的图像语义分割方法，基于unet的新型语义分割网络结构，在unet的基础上增加了权重块，unet模型结构可以分为三个部分：

1、第一部分是主干特征提取部分，利用主干部分获取特征层。该网络的主干特征提取部分与vgg相似，为卷积和最大池化的堆叠。这个步骤中获得的五个初步有效特征层将会在下个步骤中被用来进行特征融合。

2、第二部分是加强特征提取部分。通过对第一步中获取的五个初步有效特征层进行上采样，并且进行特征融合，获得一个最终的融合了所有特征的有效特征层。

3、第三部分是分类预测部分。利用最终获得的最后一个有效特征层对每个特征点进行分类，即相当于对每个像素点进行分类。

unet使用的lossfunction是celoss(交叉熵)，其定义如下：

其中，p(xi)代表groundtruth，即分割网络的label标签信息，q(xi)代表网络分割后的信息。

基于上述任一实施例，所述样本图像选取自图像数据集；

具体地，imagenet图像数据集被广泛用于深度学习网络中目标识别网络的训练数据，目前imagenet中总共有14197122幅图像，总共分为21841个类别(synsets)，大类别包括：animal、appliance、bird、covering、device、fabric、fish等等。

所述主干特征提取模型是基于选取自图像数据集的样本图像进行标注后作为训练样本图像训练卷积神经网络vgg16得到的；

具体地，encoder特征提取网络部分采用了vgg16作为backbone，以方便从官网下载vgg16的预训练网络参数进行迁移学习。正确标注的数据，作为正确样本进行监督学习的依据。

所述加强特征提取模型包括权重块；

将所述多个有效特征层的图像特征输入所述加强特征提取模型，输出每一有效特征层的图像融合特征，包括：

分别对所述多个有效特征层的图像特征进行权重值加权，得到每一有效特征层的图像融合特征；其中，所述权重值可由所述权重块调整得到。

具体地，本发明实施例构建了一个基于unet的新型语义分割网络结构，在unet的基础上增加了权重块，可以在自定义权重的基础上，对多个层次进行结合，扩大感受野，更好的让网络提取上下文信息。感受野为神经网络每一层输出的特征图(featuremap)上的像素点在输入图片上映射的区域大小。再通俗点的解释是，特征图上的一个点对应输入图上的区域，也是本层次中神经网络能够注意到的区域。如图3所示的unet模型网络结构图的精简示意图。对比图3所示的unet，mwunet网络结构优化为如图4所示。

mwunet的整体结构与原unet有比较大的改变，不同于原本的unet，mwunet的网络输入图的分辨率与最终的输出图分辨率相同。虽然采取了u型网络，但是具体到每层并不相同。

基于上述任一实施例，所述分别对所述多个有效特征层的图像特征进行权重值加权，得到每一有效特征层的图像融合特征，其公式如下：

具体地，如图3和图4所示，不同于unet的跳跃连接2skipconnection，mwunet并不将encoder中同一层级的信息直接连接到decoder中，而是加入了权重块5，通过手动调节权重，实现不同的多层次结合。这使得每一个层级的decoder都能够收到encoder在不同层级上采样1后提取到的语义信息，不同的层级感受野不同，所以这就让每一层的decoder都能够接收到特征提取网络在不同分辨率下提取到的语义信息。将这种连接方式称为weightedskipconnection(加权式跳跃连接2)，具体操作方法如图5所示。weightedskipconnection是借由权重块5weightblock对encoder给出的结果加权，encoder的四个层次都根据权重值计算生成相应通道数的特征矩阵，如图5中权值为1：1：1：1，所以四层生成的都是128通道，将这四层结果concatenate(连接)，就是把这四个128通道的矩阵拼成一个512通道的矩阵，然后再与上一层的运算结果concatenate(连接)，就是把512通道的这个矩阵和上一层上采样3的结果拼在一起，如图5中上一层的结果就是一个512通道的矩阵，即通过三维concatenate到decoder中。

weightblock可以手动对每一层的权重进行更改。例如，如果一个分割任务需要重点关注整张图片的信息，则模型应具有更广的感受野，则权重值可如图5所示设为默认值1:1:1:1。如果一个分割任务需要关注但不强调背景知识，则权重值可设置为1:1:1:9。注意，为保证结构不变性，权重值之和应为4的倍数。

如图5显示的是x^3,1的运算方式，并结合图3和图4。x^0,0到x^3,0的每一层的权重相同，所以最终每一层都经过maxpooling和3*3的卷积运算4最终变成了分辨率64*64(与该层上采样3的分辨率保持一致)、通道数128的特征图，4层的特征图聚合起来为512通道的totalcube，再与上采样3结果进行聚合运算，得到x^3,1。

下面对本发明提供的一种图像语义分割系统进行描述，下文描述的与上文描述的一种图像语义分割方法可相互对应参照。

图6为本发明实施例提供的图像语义分割系统的结构示意图，如图6所示，该系统包括图像确定模块610和图像语义分割模块620：

所述图像确定模块610，用于确定待语义分割的图像；

所述图像语义分割模块620，用于将所述图像输入至图像语义分割模型中，得到所述图像语义分割模型输出的图像语义分割结果；

其中，所述图像语义分割模型是基于样本图像以及对应的像素类别标注训练得到的，所述像素类别标注是预先确定的。

本发明实施例提供的系统，基于样本图像训练后得到图像语义分割模型，通过输入待语义分割的图像对图像像素分类，能够有效地改善图像分割的效果。

基于上述任一实施例，如图7所示，所述图像语义分割模块包括主干特征提取模块710、加强特征提取模块720、分类模块730和分割模块740；

所述主干特征提取模块710，用于基于确定的所述图像得到多个有效特征层的图像特征；

所述加强特征提取模块720，用于基于所述多个有效特征层的图像特征得到每一有效特征层的图像融合特征；

所述分类模块730，用于基于所述每一有效特征层的图像融合特征得到图像像素分类结果；

所述分割模块740，用于基于所述图像像素分类结果得到图像语义分割结果。

基于上述任一实施例，所述样本图像选取自图像数据集；

所述加强特征提取模块包括权重块；

基于上述任一实施例，所述权重块，用于分别对所述多个有效特征层的图像特征进行权重值加权，以得到每一有效特征层的图像融合特征，其公式如下：

图8为本发明实施例提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communicationsinterface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行图像语义分割方法，该方法包括：确定待语义分割的图像；将所述图像输入至图像语义分割模型中，得到所述图像语义分割模型输出的图像语义分割结果；其中，所述图像语义分割模型是基于样本图像以及对应的像素类别标注训练得到的，所述像素类别标注是预先确定的。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的图像语义分割方法，该方法包括：确定待语义分割的图像；将所述图像输入至图像语义分割模型中，得到所述图像语义分割模型输出的图像语义分割结果；其中，所述图像语义分割模型是基于样本图像以及对应的像素类别标注训练得到的，所述像素类别标注是预先确定的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的图像语义分割方法，该方法包括：确定待语义分割的图像；将所述图像输入至图像语义分割模型中，得到所述图像语义分割模型输出的图像语义分割结果；其中，所述图像语义分割模型是基于样本图像以及对应的像素类别标注训练得到的，所述像素类别标注是预先确定的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李建强;彭浩然;吕思锐
技术所有人：北京工业大学
我是此专利的发明人

上一篇：一种冰糖母液中还原糖分离方法与流程
上一篇：一种从胃内提取铁质金属异物保护装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。