基于像素特征学习的无监督图像分割方法、装置及设备

文档序号:30420180发布日期:2022-06-15 12:54阅读:121来源:国知局
基于像素特征学习的无监督图像分割方法、装置及设备

1.本发明涉及图像分割技术领域,具体涉及基于像素特征学习的无监督图像分割方法、装置及设备。


背景技术:

2.现阶段的基于像素特征学习的无监督图像分割方法通常是根据传统手工特征或简单无监督方式学习特征进行图像分割,难以根据图像的内容进行自适应的分割,其分割结果难以兼顾对象边界匹配程度和对象区域覆盖程度,划分出的分割块常常出现边界扭曲、分割不足和分割过度等问题,导致这些生成的分割块与下游高级视觉任务的适配性较差。


技术实现要素:

3.为解决上述问题,提出了本发明实施例的基于像素特征学习的无监督图像分割方法、装置及设备。
4.根据本发明实施例的一个方面,提供了基于像素特征学习的无监督图像分割方法,包括:获取预处理后的待分割图像,作为第一图像;提取所述第一图像中的超像素,得到所述第一图像的超像素集合;根据所述超像素集合,得到第一损失函数,所述第一损失函数表示基于结构一致性约束的损失;预测所述第一图像的离散表示,最大化所述第一图像与所述离散表示之间的互信息,得到第二损失函数,所述第二损失函数表示基于语义相似性约束的损失;根据所述第一损失函数和第二损失函数对所述第一图像进行分割,得到分割结果。
5.可选的,获取预处理后的待分割图像,作为第一图像,包括:获取所述待分割图像;将所述待分割图像的像素强度取值范围进行归一化处理,得到所述第一图像。
6.可选的,根据所述超像素集合,得到第一损失函数,包括:将所述超像素集合中的超像素根据邻接关系组织成图结构,得到所述第一损失函数的第一项;将所述超像素集合中的每个超像素中的所有像素共享相同的聚类标签信息,得到所述第一损失函数的第二项;将所述第一损失函数的第一项与所述第一损失函数的第二项进行综合处理,得到所述第一损失函数。
7.可选的,将所述超像素集合中的超像素根据邻接关系组织成图结构,得到所述第一损失函数的第一项,包括:
提取所述第一图像的特征图;根据所述超像素集合,在所述第一图像的特征图上获取所述超像素集合中每个超像素的特征;根据所述每个超像素特征,得到所述超像素集合中的相邻超像素之间的特征距离;将所述超像素集合中的超像素根据邻接关系组织成图结构,其中,所述图结构上的每个节点表示所述每个超像素,边表示所述相邻超像素之间的特征距离;扩大所述相邻超像素之间对应的特征距离,得到所述第一损失函数的第一项。
8.可选的,预测所述第一图像的离散表示,最大化所述第一图像与所述离散表示之间的互信息,得到第二损失函数,包括:获取所述第一图像的离散表示;最大化所述第一图像与所述离散表示之间的互信息,得到所述第二损失函数。
9.可选的,根据所述第一损失函数和第二损失函数对所述第一图像进行分割,得到分割结果,包括:根据所述第一损失函数和第二损失函数更新分割模型,当更新分割模型达到预设停止条件时,对所述超像素集合进行两次平滑,得到分割结果。
10.可选的,对所述超像素集合进行两次平滑,得到分割结果,包括:对所述超像素集合进行第一次平滑,若所述超像素集合中存在两个相邻超像素的特征距离小于预设阈值,则将该所述两个相邻超像素合并为一个超像素,得到第一次平滑结果;对所述第一次平滑结果进行第二次平滑,结合所述第一图像的像素预测结果,若所述第一次平滑结果中的超像素存在被特定类别支配,则将该所述超像素内的所有像素分配为特定类别,若所述第一次平滑结果中的超像素不存在被特定类别支配,则将该所述超像素内的所有像素分配为新的类别,得到分割结果。
11.根据本发明实施例的另一方面,提供了基于像素特征学习的无监督图像分割装置,所述装置包括:获取模块,用于获取预处理后的待分割图像,作为第一图像;处理模块,用于提取所述第一图像中的超像素,得到所述第一图像的超像素集合;根据所述超像素集合,得到第一损失函数,所述第一损失函数表示基于结构一致性约束的损失;预测所述第一图像的离散表示,最大化所述第一图像与所述离散表示之间的互信息,得到第二损失函数,所述第二损失函数表示基于语义相似性约束的损失;输出模块,用于根据所述第一损失函数和第二损失函数对所述第一图像进行分割,得到分割结果。
12.根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于像素特征学习的无监督图像分割方法对应的操作。
13.根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存
储有至少一可执行指令,所述可执行指令使处理器执行如上述基于像素特征学习的无监督图像分割方法对应的操作。
14.根据本发明上述实施例提供的方案,通过获取预处理后的待分割图像,作为第一图像;提取所述第一图像中的超像素,得到所述第一图像的超像素集合;根据所述超像素集合,得到第一损失函数,所述第一损失函数表示基于结构一致性约束的损失;预测所述第一图像的离散表示,最大化所述第一图像与所述离散表示之间的互信息,得到第二损失函数,所述第二损失函数表示基于语义相似性约束的损失;根据所述第一损失函数和第二损失函数对所述第一图像进行分割,得到分割结果。输出的分割块具有较高的对象区域覆盖度和对象边界匹配度,从而提高了对象候选区域以及对象线索的生成质量,即以较少的分割块高质量召回绝大多数对象区域,以降低下游高级视觉算法的训练难度和计算复杂性。
15.上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
16.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号是指相同的部件。在附图中:图1示出了本发明实施例提供的基于像素特征学习的无监督图像分割方法流程图;图2示出了本发明实施例提供的一种具体的基于像素特征学习的基于像素特征学习的无监督图像分割模型结构示意图;图3示出了本发明实施例提供的一种具体的实现基于像素特征学习的无监督图像分割的处理流程图;图4示出了本发明实施例提供的基于像素特征学习的无监督图像分割装置的结构示意图;图5示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
17.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
18.图1示出了本发明实施例提供的基于像素特征学习的无监督图像分割方法的方法流程图。如图1所示,该方法包括以下步骤:步骤11,获取预处理后的待分割图像,作为第一图像;步骤12,提取所述第一图像中的超像素,得到所述第一图像的超像素集合;步骤13,根据所述超像素集合,得到第一损失函数,所述第一损失函数表示基于结构一致性约束的损失;
步骤14,预测所述第一图像的离散表示,最大化所述第一图像与所述离散表示之间的互信息,得到第二损失函数,所述第二损失函数表示基于语义相似性约束的损失;步骤15,根据所述第一损失函数和第二损失函数对所述第一图像进行分割,得到分割结果。
19.该实施例中,通过获取预处理后的待分割图像,作为第一图像;提取所述第一图像中的超像素,得到所述第一图像的超像素集合;根据所述超像素集合,得到第一损失函数,所述第一损失函数表示基于结构一致性约束的损失;预测所述第一图像的离散表示,最大化所述第一图像与所述离散表示之间的互信息,得到第二损失函数,所述第二损失函数表示基于语义相似性约束的损失;根据所述第一损失函数和第二损失函数对所述第一图像进行分割,得到分割结果,输出的分割块具有较高的对象区域覆盖度和对象边界匹配度,从而提高了对象候选区域以及对象线索的生成质量,即以较少的分割块高质量召回绝大多数对象区域,以降低下游高级视觉算法的训练难度和计算复杂性。
20.在本发明的一可选的实施例中,步骤11可以包括:步骤111,获取所述待分割图像;步骤112,将所述待分割图像的像素强度取值范围进行归一化处理,得到所述第一图像。
21.该实施例中,可以将所述待分割图像中像素强度的取值范围从[0,255]归一化到[0.0,1.0],得到所述第一图像,但不仅限于如上所述的归一化处理。进行归一化后的所述第一图像可以适用于网络训练。
[0022]
图2示出了本发明实施例提供的基于像素特征学习的基于像素特征学习的无监督图像分割模型结构示意图,如图2所示,在得到所述第一图像后,构建网络并初始化网络参数。按照图2中所示构建编解码网络结构并随机初始化网络参数,图2中编码器包括5个卷积模块以及5次下采样来获得更大的感受野和上下文信息,这样可以捕获更加复杂的视觉模式。解码器包括5个卷积模块以及5次上采样,逐步推断出图像中的对象结构和类别分布,这样可以实现具有一定语义意义的像素特征学习。其中,encoder-decoder是指编解码结构的卷积神经网络,conv是指卷积层,instancenorm是指实例归一化层,relu是指激活层,pooling是指最大池化层,unpooling是指反最大池化层,batchnorm是指批归一化层,softmax是指归一化层。scc是指结构一致性约束,ssc是指语义相似性约束,y是指输入图像的像素级类别预测结果,cat是指跳跃连接。
[0023]
在本发明的又一可选的实施例中,步骤12可以通过egb方法从图像中提取超像素,但不仅限于使用egb方法提取超像素。若使用egb方法,如果面向基于区域的任务,则egb的scale参数设置为640,如果面向基于边界的任务,则egb的scale参数设置为256。然后提取到超像素集合。
[0024]
在本发明的又一可选的实施例中,步骤13可以包括:步骤131,将所述超像素集合中的超像素根据邻接关系组织成图结构,得到所述第一损失函数的第一项;步骤132,将所述超像素集合中的每个超像素中的所有像素共享相同的聚类标签信息,得到所述第一损失函数的第二项;
步骤133,将所述第一损失函数的第一项与所述第一损失函数的第二项进行综合处理,得到所述第一损失函数。
[0025]
该实施例中,通过公式得到所述第一损失函数,其中,是指所述第一损失函数,是指所述第一损失函数的第一项,是指所述第一损失函数的第二项。
[0026]
在本发明的又一可选的实施例中,步骤131可以包括:步骤1311,提取所述第一图像的特征图;具体的,可以通过编解码网络模型来提取第一图像的特征图。
[0027]
步骤1312,根据所述超像素集合,在所述第一图像的特征图上获取所述超像素集合中每个超像素的特征;步骤1313,根据所述每个超像素特征,得到所述超像素集合中的相邻超像素之间的特征距离;步骤1314,将所述超像素集合中的超像素根据邻接关系组织成图结构,其中,所述图结构上的每个节点表示所述每个超像素,边表示所述相邻超像素之间的特征距离;步骤1315,扩大所述相邻超像素之间对应的特征距离,得到所述第一损失函数的第一项。
[0028]
具体的,首先,将超像素集合中所有超像素根据邻接关系组织成图结构,其中,节点v表示超像素,边e表示超像素之间的邻接关系,只在相邻超像素之间建立连接。
[0029]
其次,通过公式 得到每个超像素对应的节点特征,其中,是指在第 n轮训练后第k个超像素的节点特征,是指第k个超像素,是指解码网络的最后一个卷积层的特征图,是指在第n轮训练后的特征图上第k个超像素区域中第m个像素的特征;然后,通过公式得到相邻节点对应的特征距离,其中,是指第n次迭代中超像素对应的节点特征,是指第n次迭代中超像素对应的节点特征,是指与之间的特征距离;最后,通过公式得到第一损失函数的第一项,其中,为第一损失函数的第一项。
[0030]
该实施例中,所述第一损失函数的第一项通过不断拉开相邻接节点之间的特征距离,从而避免特征学习过程中出现特征坍缩现象,所述特征坍缩现象是指在特征空间中所有特征积压在一小块区域中,缺少区分度。
[0031]
在本发明的又一可选的实施例中,步骤132具体步骤可以为:通过公式得到所述第一损失函数的第二项,其中,是指所述第一损失函数的第二项,k是指所述第一图像中超像素的总数,是指第k个超像素,是指第k个超像素中所含有的像素数量,表示第k个超像素中第m个像素的多分类预测结果。该项是通过强制超像素中的所有像素共享相同的聚类标签信息,迫使这些像素的特征逐渐收敛到相同的流形中。
[0032]
在本发明的又一可选的实施例中,步骤14可以包括:步骤141,获取所述第一图像的离散表示;步骤142,最大化所述第一图像与所述离散表示之间的互信息,得到所述第二损失函数。
[0033]
该实施例中,预测所述第一图像的离散表示,具体来说,给定输入图像及其对应的像素级预测结果,首先在上执行全局平均池化得到图像的图像级离散表示,最大化所述第一图像与预测的所述离散表示之间的互信息,具体表现为:最大化公式,其中,是指所述第一图像与预测的所述离散表示之间的互信息,是指预测的所述图像级离散表示,x是指所述第一图像,是指熵函数,所述公式还可以展开成,其中,c是指网络中设置的输出类别数量,同时,假定服从均匀分布。
[0034]
在本发明的又一可选的实施例中,步骤15可以包括:步骤151,根据所述第一损失函数和第二损失函数更新分割模型,当更新分割模型达到预设停止条件时,对所述超像素集合进行两次平滑,得到分割结果,所述预设停止条件可以设置为迭代次数达到256次或簇数量降低到2,但不仅限于如上所述。
[0035]
该实施例中,步骤151首先加和第一损失函数和第二损失函数,设置学习率为0.01,迭代次数为256,采用梯度下降算法对网络参数进行端到端训练,直到迭代次数达到256或簇数量降低到2,得到分割结果。
[0036]
在本发明的再一可选的实施例中,步骤151可以包括:步骤1511,对所述超像素集合进行第一次平滑,若所述超像素集合中存在两个相邻超像素的特征距离小于预设阈值,则将该所述两个相邻超像素合并为一个超像素,得到
第一次平滑结果;具体的,如果面向基于区域的任务,则预设阈值可以设置为0.45,如果面向基于边界的任务,则预设阈值可以设置为0.25。
[0037]
步骤1512,对所述第一次平滑结果进行第二次平滑,结合所述第一图像的像素预测结果,若所述第一次平滑结果中的超像素存在被特定类别支配,则将该所述超像素内的所有像素分配为特定类别,若所述第一次平滑结果中的超像素不存在被特定类别支配,则将该所述超像素内的所有像素分配为新的类别,得到分割结果。
[0038]
该实施例中,在遍历所有超像素节点后,经过上述两次平滑后,得到分割结果,即分割块集合,该分割块集合也是所述第一图像的像素簇。
[0039]
图3示出了本发明实施例提供的一种具体的实现基于像素特征学习的无监督图像分割的处理流程图,如图3所示,该处理流程以图像作为输入,首先,利用网络结构和先验约束训练网络,自动感知图像中潜在的类别分布并学习像素特征;然后,利用标签平滑技术聚类像素,从而将图像划分为在语义上有意义的子区域,实现图像分割。
[0040]
具体的,步骤一:归一化输入图像;步骤二:构建网络并初始化网络参数;步骤三:提取超像素;步骤四:计算基于结构一致性约束的损失,可以使输出的分割块形状能够精准匹配图像中的对象轮廓,避免对象边界丢失或扭曲;步骤五:计算基于语义相似性约束的损失,通过最大化输入图像与其离散表示表示之间的互信息,实现语义信息的传递,可以使输出的分割结果在语义与输入图像保持相似,提高分割块对于对象区域的覆盖度;步骤六:更新网络参数;步骤七:平滑像素标签并输出分割结果。
[0041]
在本发明的上述实施例中,针对任意一张图像,使用上述图像分割方法,可以将图像划分为若干互不相交、互不重叠并且具有一定语义意义的子区域,从而实现图像的高质量结构化。分割结果可以用于生成对象候选区域或者对象线索,用于目标检测、语义分割和场景分析等高级视觉任务,或者用于图像的人工标注工作,例如对象级标注和像素级标注,可以大幅度降低这些下游工作的训练难度,改善识别性能并提高计算效率。且该图像分割方法无需提前进行大规模的训练,可以根据图像的内容复杂度实现自动的类别感知和像素分组,具有更好的灵活性和更大的适用范围。
[0042]
图4示出了本发明实施例提供的基于像素特征学习的无监督图像分割装置40的结构示意图。如图4所示,该装置包括:获取模块41,用于获取预处理后的待分割图像,作为第一图像;处理模块42,用于提取所述第一图像中的超像素,得到所述第一图像的超像素集合;根据所述超像素集合,得到第一损失函数,所述第一损失函数表示基于结构一致性约束的损失;预测所述第一图像的离散表示,最大化所述第一图像与所述离散表示之间的互信息,得到第二损失函数,所述第二损失函数表示基于语义相似性约束的损失;输出模块43,用于根据所述第一损失函数和第二损失函数对所述第一图像进行分割,得到分割结果。
[0043]
可选的,所述获取模块41还用于获取所述待分割图像;将所述待分割图像的像素强度取值范围进行归一化处理,得到所述第一图像。
[0044]
可选的,所述处理模块42还用于将所述超像素集合中的超像素根据邻接关系组织成图结构,得到所述第一损失函数的第一项;将所述超像素集合中的每个超像素中的所有像素共享相同的聚类标签信息,得到所述第一损失函数的第二项;将所述第一损失函数的第一项与所述第一损失函数的第二项进行综合处理,得到所述第一损失函数。
[0045]
可选的,所述处理模块42还用于提取所述第一图像的特征图;根据所述超像素集合,在所述第一图像的特征图上获取所述超像素集合中每个超像素的特征;根据所述每个超像素特征,得到所述超像素集合中的相邻超像素之间的特征距离;将所述超像素集合中的超像素根据邻接关系组织成图结构,其中,所述图结构上的每个节点表示所述每个超像素,边表示所述相邻超像素之间的特征距离;扩大所述相邻超像素之间对应的特征距离,得到所述第一损失函数的第一项。
[0046]
可选的,所述处理模块42还用于获取所述第一图像的离散表示;最大化所述第一图像与所述离散表示之间的互信息,得到所述第二损失函数。
[0047]
可选的,所述输出模块43还用于根据所述第一损失函数和第二损失函数更新分割模型,当更新分割模型达到预设停止条件时,对所述超像素集合进行两次平滑,得到分割结果。
[0048]
可选的,所述输出模块43还用于对所述超像素集合进行第一次平滑,若所述超像素集合中存在两个相邻超像素的特征距离小于预设阈值,则将该所述两个相邻超像素合并为一个超像素,得到第一次平滑结果;对所述第一次平滑结果进行第二次平滑,结合所述第一图像的像素预测结果,若所述第一次平滑结果中的超像素存在被特定类别支配,则将该所述超像素内的所有像素分配为特定类别,若所述第一次平滑结果中的超像素不存在被特定类别支配,则将该所述超像素内的所有像素分配为新的类别,得到分割结果。
[0049]
应理解,上述对图1至图3示意的方法实施例的说明,仅是以可选示例的方式对本发明技术方案的阐述,对本发明涉及的图像分割方法不构成限制。另一些实施方式中,本发明涉及的图像分割方法的执行步骤和顺序,可以不同于上述实施例,本发明实施例对此不限制。
[0050]
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
[0051]
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于像素特征学习的无监督图像分割方法。
[0052]
图5示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
[0053]
如图5所示,该计算设备可以包括:处理器(processor)、通信接口(communications interface)、存储器(memory)、以及通信总线。
[0054]
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的基于像素特征学习的无监督图像分割方法实施例中的相关步骤。
[0055]
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
[0056]
处理器可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0057]
存储器,用于存放程序。存储器可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0058]
程序具体可以用于使得处理器执行上述任意方法实施例中的基于像素特征学习的无监督图像分割方法。程序中各步骤的具体实现可以参见上述图像分割方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
[0059]
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
[0060]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0061]
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
[0062]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
[0063]
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
[0064]
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部
的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0065]
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不是指任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1