图像语义分割的方法和装置与流程

文档序号:11965864阅读:491来源:国知局
图像语义分割的方法和装置与流程
本发明涉及计算机视觉领域,尤其涉及计算机视觉领域中一种图像语义分割的方法和装置。

背景技术:
图像语义分割也可以简称为语义分割,是计算机视觉领域的一个重要研究内容,即将一幅图像分割成具有不同语义的区域,并且标注出每个区域属于的类别,例如汽车、树或人脸等。图像语义分割可以用于许多应用场合,例如基于内容的图像检索(ContentBasedImageRetrieval,简称为“CBIR”),场景理解与目标定位等。应理解,目标定位就是语义分割的一个特例,只是把分割出的两个区域分别标注为前景与背景。传统的图像分割(以下简称为分割)是非监督学习问题,只是将相似的像素划分到一起,不必利用带有类别的训练样本。传统的分割技术的研究已经有几十年的历史,但还是无法准确地分割出目标,在大多数情况下,目标都被过度分割成了更小的区域,即过分割。而近年才开始研究的图像语义分割是一种监督学习问题,要利用带有类别的训练样本进行目标识别。图像语义分割结合了分割与目标识别这两种技术,能够将图像分割成具有高级语义内容的区域。例如,通过图像语义分割,一幅图像能够被分割成分别具有“牛”、“草地”和“天空”三种不同语义的区域。图像语义分割的一类主要方法是对不同的目标类别建立数学模型或分类器,例如特征袋、核表观模型、区域评分模型以及统计推断模型等。为了解决一个局部区域可能具有模棱两可的不同类别的问题,可以对上下文信息进行建模,在语义的层面上获得不同目标类别之间的约束关系。但是一般来说,这类基于数学模型或分类器的方法很难处理目标类别很多时的情形。例如,如果我们的应用场合中包含成千上万种目标类别时,我们也只能不厌其烦地建立一个个目标类别数学模型或分类器。另外,如果利用上下文信息,上下文信息的总量也会随着目标类别的增多而飞速增长。最近一种基于数据库的方法代替建立数学模型或分类器方法,进行图像语义分割。这类方法将语义分割问题转化为将输入图像与已有的带标注的图像集进行匹配的问题。在这类方法中,通过相似性匹配,能够将训练图像库中的已有样本的类别进行迁移,用来标注新的样本。但这个方法需要对训练样本中的每一个像素进行手工标注它所属的类别,这个标注过程费时费力,代价不菲。例如,仅对一幅图像进行像素级标注大概就要花费15到16分钟。最近还提出了一种弱监督语义分割方法,即不需要像素级标注的图像库,而只利用图像级标注的训练图像或参考图像进行语义分割。相比于其它系统需要对训练图像进行繁重的像素标注而言,这种对图像的粗略标注会更快也会更容易获得。但是,这类弱监督语义分割问题非常具有挑战性,因为没有准确的像素级的标注用来学习参考。已有的一些方法主要是依赖于这样的假设,即具有相似全局表观的图像倾向于具有相似的语义内容。但是由于目标和场景的变化复杂,这个假设并不总是正确的,从而可能导致比较严重的语义误判和分割误差。此外,在这类方法中,训练图像或参考图像并没有和目标图像一起完成语义分割,而是仍然只保留图像级的标注。

技术实现要素:
本发明实施例提供了一种图像语义分割的方法和装置,能够准确地对目标图像进行语义分割。第一方面,提供了一种图像语义分割的方法,该方法包括:基于图像的用于表示图像之间的全局表观相似性的全局表观距离和用于表示图像之间的语义相似性的语义距离,在图像库中确定目标图像的兼容参考集和竞争参考集,该兼容参考集包括的兼容参考图像与该目标图像具有相似的全局表观,该竞争参考集包括的竞争参考图像与该目标图像具有相异的全局表观;将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域;基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该目标图像的区域的类别。结合第一方面,在第一方面的第一种可能的实现方式中,该方法还包括:基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该兼容参考图像和该竞争参考图像的区域的类别。结合第一方面,在第一方面的第二种可能的实现方式中,该在图像库中确定目标图像的兼容参考集和竞争参考集,包括:将该图像库中与该目标图像的全局表观距离最近的N幅图像确定为该目标图像的兼容参考集,其中,N为自然数,并且该图像库Ω中的图像IΩ(IΩ∈Ω)与该目标图像It的全局表观距离DA(IΩ,It)由下列等式(1)确定:其中,为该图像库Ω中的图像IΩ的用于表示图像IΩ的全局表观的全局表观特征,为该目标图像It的用于表示图像It的全局表观的全局表观特征。结合第一方面,在第一方面的第三种可能的实现方式中,该在图像库中确定目标图像的兼容参考集和竞争参考集,包括:对于该兼容参考集中的一幅兼容参考图像确定该图像库中与该兼容参考图像的全局表观距离最远的K幅图像其中,K为自然数,n为自然数且n≤N,N为该兼容参考集包括的兼容参考图像的数量;将该K幅图像中与该兼容参考图像的语义距离最近的一幅图像,确定为与该兼容参考图像相应的竞争参考图像,其中,该K幅图像中的图像与该兼容参考图像的语义距离由下列等式(2)确定:其中,k为自然数且k≤K;表示该K幅图像中的图像所包括的类别的集合;表示该兼容参考图像所包括的类别的集合;将与该兼容参考集中的N幅兼容参考图像分别相应的N幅竞争参考图像确定为该目标图像的竞争参考集。结合第一方面,在第一方面的第四种可能的实现方式中,该将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域,包括:基于图像的颜色和纹理的区域表观特征,将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域。结合第一方面或第一方面的第一种至第四种可能的实现方式中的任一种可能的实现方式,在第一方面的第五种可能的实现方式中,该确定该目标图像的区域的类别,包括:确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性;确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性;以该语义一致性与该图像相关性之和最大为目标函数,确定该目标图像的区域的类别。结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,该确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性,包括:由下列等式(3)和(4)确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性之和C:其中,I表示图像且It表示该目标图像,表示该兼容参考图像,表示该竞争参考图像;c(I)表示图像I的语义一致性;s表示图像I中的一个区域;Ls表示区域s可能属于的类别的集合;xs为用于指示区域s所属的类别的二值类别指示向量,且当i=ls时,xs(i)=1,ls为区域s的类别;s1和s2表示图像I中的两个相邻的区域;和分别表示区域s1和s2可能属于的类别的集合;为用于指示区域s1和s2分别所属的类别的二值类别指示矩阵,并且当时,和分别为区域s1和s2的类别;θs(i)表示区域s属于第i个类别的相关程度的程度值;表示相邻区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值。结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,该区域s属于第i个类别的相关程度的程度值θs(i)由该区域s的基于语义的区域密度先验、目标先验和显著性先验确定;该区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值由该区域s1和s2的一阶密度先验确定。结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式中,该区域s的基于语义的区域密度先验,由该区域s在该图像库的图像IΩ中的密度最小的L幅图像的类别分布统计确定,其中,L为自然数,并且该区域s在该图像库的图像IΩ中的密度由下列等式(5)确定:其中,m为非零常数;为该图像库的图像IΩ中与该区域s的距离最近的T个区域,t为自然数且t≤T;fs为该区域s的特征;为该区域st的特征;其中,该图像库的图像IΩ中的区域sΩ与该区域s之间的距离由下列等式(6)确定:其中,为该区域sΩ的特征。结合第一方面的第五种可能的实现方式,在第一方面的第九种可能的实现方式中,该确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性,包括:由下列等式(7)至(9)确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性之和E:E=E1+E2(7)其中,E1表示该兼容参考集包括的所有兼容参考图像I+与该目标图像It的图像相关性之和;E2表示该竞争参考集包括的所有竞争参考图像I-与该目标图像It的图像相关性之和;st、s+和s-分别表示该目标图像It、该兼容参考图像I+和该竞争参考图像I-中的区域;和分别表示区域st、s+和s-可能属于的类别的集合;z+(i,j)为用于指示区域s+和st分别所属的类别的二值类别指示矩阵,并且当时,z+(i,j)=1,和分别为区域s+和st的类别;z-(i,j)为用于指示区域s-和st分别所属的类别的二值类别指示矩阵,并且当时,z-(i,j)=1,为区域s-的类别;和分别由下列等式(10)和(11)确定:其中,和分别表示区域st、s+和s-的特征。第二方面,提供了一种图像语义分割的装置,该装置包括:第一确定模块,用于基于图像的用于表示图像之间的全局表观相似性的全局表观距离和用于表示图像之间的语义相似性的语义距离,在图像库中确定目标图像的兼容参考集和竞争参考集,该兼容参考集包括的兼容参考图像与该目标图像具有相似的全局表观,该竞争参考集包括的竞争参考图像与该目标图像具有相异的全局表观;分割模块,用于将该目标图像、该第一确定模块确定的该兼容参考图像和该第一确定模块确定的该竞争参考图像中的每一幅图像分割成多个区域;第二确定模块,用于基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该分割模块将该目标图像分割成的区域的类别。结合第二方面,在第二方面的第一种可能的实现方式中,该第二确定模块还用于:基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该兼容参考图像和该竞争参考图像的区域的类别。结合第二方面,在第二方面的第二种可能的实现方式中,该第一确定模块包括:第一确定单元,用于将该图像库中与该目标图像的全局表观距离最近的N幅图像确定为该目标图像的兼容参考集,其中,N为自然数,并且该图像库Ω中的图像IΩ(IΩ∈Ω)与该目标图像It的全局表观距离DA(IΩ,It)由下列等式(21)确定:其中,为该图像库Ω中的图像IΩ的用于表示图像IΩ的全局表观的全局表观特征,为该目标图像It的用于表示图像It的全局表观的全局表观特征。结合第二方面,在第二方面的第三种可能的实现方式中,该第一确定模块包括:第二确定单元,用于对于该兼容参考集中的一幅兼容参考图像确定该图像库中与该兼容参考图像的全局表观距离最远的K幅图像其中,K为自然数,n为自然数且n≤N,N为该兼容参考集包括的兼容参考图像的数量;第三确定单元,用于将该K幅图像中与该兼容参考图像的语义距离最近的一幅图像,确定为与该兼容参考图像相应的竞争参考图像,其中,该K幅图像中的图像与该兼容参考图像的语义距离由下列等式(22)确定:其中,k为自然数且k≤K;表示该K幅图像中的图像所包括的类别的集合;表示该兼容参考图像所包括的类别的集合;第四确定单元,用于将与该兼容参考集中的N幅兼容参考图像分别相应的N幅竞争参考图像确定为该目标图像的竞争参考集。结合第二方面,在第二方面的第四种可能的实现方式中,该分割模块用于:基于图像的颜色和纹理的区域表观特征,将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域。结合第二方面或第二方面的第一种至第四种可能的实现方式中的任一种可能的实现方式,在第二方面的第五种可能的实现方式中,该第二确定模块包括:第五确定单元,用于确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性;第六确定单元,用于确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性;第七确定单元,用于以该语义一致性与该图像相关性之和最大为目标函数,确定该目标图像的区域的类别。结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式中,该第五确定单元用于:由下列等式(23)和(24)确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性之和C:其中,I表示图像且It表示该目标图像,表示该兼容参考图像,表示该竞争参考图像;c(I)表示图像I的语义一致性;s表示图像I中的一个区域;Ls表示区域s可能属于的类别的集合;xs为用于指示区域s所属的类别的二值类别指示向量,且当i=ls时,xs(i)=1,ls为区域s的类别;s1和s2表示图像I中的两个相邻的区域;和分别表示区域s1和s2可能属于的类别的集合;为用于指示区域s1和s2分别所属的类别的二值类别指示矩阵,并且当时,和分别为区域s1和s2的类别;θs(i)表示区域s属于第i个类别的相关程度的程度值;表示相邻区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值。结合第二方面的第六种可能的实现方式,在第二方面的第七种可能的实现方式中,该区域s属于第i个类别的相关程度的程度值θs(i)由该区域s的基于语义的区域密度先验、目标先验和显著性先验确定;该区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值由该区域s1和s2的一阶密度先验确定。结合第二方面的第七种可能的实现方式,在第二方面的第八种可能的实现方式中,该区域s的基于语义的区域密度先验,由该区域s在该图像库的图像IΩ中的密度最小的L幅图像的类别分布统计确定,其中,L为自然数,并且该区域s在该图像库的图像IΩ中的密度由下列等式(25)确定:其中,m为非零常数;为该图像库的图像IΩ中与该区域s的距离最近的T个区域,t为自然数且t≤T;fs为该区域s的特征;为该区域st的特征;其中,该图像库的图像IΩ中的区域sΩ与该区域s之间的距离由下列等式(26)确定:其中,为该区域sΩ的特征。结合第二方面的第五种可能的实现方式,在第二方面的第九种可能的实现方式中,该第六确定单元用于:由下列等式(27)至(29)确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性之和E:E=E1+E2(27)其中,E1表示该兼容参考集包括的所有兼容参考图像I+与该目标图像It的图像相关性之和;E2表示该竞争参考集包括的所有竞争参考图像I-与该目标图像It的图像相关性之和;st、s+和s-分别表示该目标图像It、该兼容参考图像I+和该竞争参考图像I-中的区域;和分别表示区域st、s+和s-可能属于的类别的集合;z+(i,j)为用于指示区域s+和st分别所属的类别的二值类别指示矩阵,并且当时,z+(i,j)=1,和分别为区域s+和st的类别;z-(i,j)为用于指示区域s-和st分别所属的类别的二值类别指示矩阵,并且当时,z-(i,j)=1,为区域s-的类别;和分别由下列等式(30)和(31)确定:其中,和分别表示区域st、s+和s-的特征。基于上述技术方案,本发明实施例的图像语义分割的方法和装置,通过在图像库中采用与目标图像具有相似的全局表观的兼容参考集,以及与目标图像具有相异的全局表观且与兼容参考集具有相似语义的竞争参考集作为参考集,能够为目标图像的分割提供互补信息以减少语义的误判,从而能够采用目标图像、兼容参考图像和竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定目标图像的区域的类别,由此能够获得准确的语义分割,以及更加符合语义感知的图像内容。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本发明实施例的图像语义分割的方法的示意性流程图。图2是根据本发明实施例的图像语义分割的方法的另一示意性流程图。图3是根据本发明实施例的确定目标图像的兼容参考集和竞争参考集的方法的示意性流程图。图4是根据本发明实施例的确定该目标图像的区域的类别的方法的示意性流程图。图5是根据本发明实施例的图像语义分割的装置的示意性框图。图6是根据本发明实施例的图像语义分割的装置的另一示意性框图。图7是根据本发明实施例的第一确定模块的示意性框图。图8是根据本发明实施例的第二确定模块的示意性框图。图9是根据本发明实施例的图像语义分割的装置的再一示意性框图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。图1示出了根据本发明实施例的图像语义分割的方法100的示意性流程图。如图1所示,该方法100包括:S110,基于图像的用于表示图像之间的全局表观相似性的全局表观距离和用于表示图像之间的语义相似性的语义距离,在图像库中确定目标图像的兼容参考集和竞争参考集,该兼容参考集包括的兼容参考图像与所述目标图像具有相似的全局表观,该竞争参考集包括的竞争参考图像与所述目标图像具有相异的全局表观;S120,将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域;S130,基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该目标图像的区域的类别。具体而言,为了对目标图像进行图像语义分割,图像语义分割的装置可以在图像库中搜索或选择用于图像语义分割的训练图像或参考图像,例如,图像语义分割的装置可以基于图像的全局表观距离和语义距离,在图像库中确定目标图像的兼容参考集和竞争参考集,该兼容参考集包括的图像可以与目标图像具有相似的全局表观,而竞争参考集包括的图像可以与目标图像具有相异的全局表观,且与兼容参考集包括的其中一个兼容参考图像具有相似的图像级标注,即竞争参考集包括的图像可以与目标图像具有相异的全局表观且与兼容参考集包括的兼容参考图像具有相似的语义;从而图像语义分割的装置可以将该目标图像、该兼容参考集包括的兼容参考图像和该竞争参考集包括的竞争参考图像过度中的每一幅图像分割成多个区域,从而可以基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该目标图像的区域的类别。因此,本发明实施例的图像语义分割的方法,通过在图像库中采用与目标图像具有相似的全局表观的兼容参考集,以及与目标图像具有相异的全局表观且与兼容参考集具有相似语义的竞争参考集作为参考集,能够为目标图像的分割提供互补信息以减少语义的误判,从而能够采用目标图像、兼容参考图像和竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定目标图像的区域的类别,由此能够获得准确的语义分割,以及更加符合语义感知的图像内容。此外,根据本发明实施例的图像语义分割的方法,采用的图像库可以是具有图像级标注的训练图像库,从而不需要对训练图像库进行繁重的手工像素级标注,省时省力。在本发明实施例中,可选地,如图2所示,该方法100还包括:S140,基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该兼容参考图像和该竞争参考图像的区域的类别。即在本发明实施例中,图像语义分割的装置可以在基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该目标图像的区域的类别的同时,还可以基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该兼容参考图像和该竞争参考图像的区域的类别。因此,根据本发明实施例的图像语义分割的方法,能够为目标图像的分割提供互补信息以减少语义的误判,从而能够采用目标图像、兼容参考图像和竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定目标图像的区域的类别,由此能够获得准确的语义分割,以及更加符合语义感知的图像内容;并且还能够同时对无标注的目标图像以及带图像级标注的参考图像进行联合语义分割。下文中将结合图3和图4,详细描述根据本发明实施例的图像语义分割的方法如何对目标图像和/或参考图像进行图像语义分割。在S110中,图像语义分割的装置可以基于图像的全局表观距离和语义距离,在图像库中确定目标图像的兼容参考集和竞争参考集。在本发明实施例中,该图像库可以是具有图像级标注的图像库,即该图像库包括的图像具有图像级标注。该图像库可以通过手工标定网络上采集的图像而获得,也可以直接利用网络上已经出现的大量带图像级标注的图像获得,例如可以通过采集谷歌(Google)上的图像级标注的图像而获得。应理解,本发明实施例仅以具有图像级标注的图像库为例进行说明,但本发明实施例并不限于此,例如,该图像库包括的图像还可以具有部分或全部的像素级标注。还应理解,在本发明实施例中,图像级标注可以表示标注图像所包括的目标类别,像素级标注可以表示标注图像中的像素所属的类别。在本发明实施例中,图像的全局表观距离用于表示图像之间的全局表观相似性,例如,全局表观距离越小,可以表示图像之间的全局表观相似性越高,即图像之间的全局表观越相似;类似地,图像的语义距离用于表示图像之间的语义相似性,例如,语义距离越小,可以表示图像之间的语义相似性越低,即图像之间的语义越不相似。在本发明实施例中,兼容参考集可以表示与目标图像具有相似的全局表观的图像的集合;竞争参考集可以表示与目标图像具有相异的全局表观的图像的集合,其中,竞争参考集包括的竞争参考图像可以与兼容参考集包括的其中一个兼容参考图像具有相似的图像级标注。从而兼容参考集和竞争参考集可以为目标图像的语义分割提供互补的信息以减少语义的误判,从而能够获得准确的语义分割,以及更加符合语义感知的图像内容。在本发明实施例中,可选地,该在图像库中确定目标图像的兼容参考集和竞争参考集,包括:将该图像库中与该目标图像的全局表观距离最近的N幅图像确定为该目标图像的兼容参考集,其中,N为自然数,并且该图像库Ω中的图像IΩ(IΩ∈Ω)与该目标图像It的全局表观距离DA(IΩ,It)由下列等式(1)确定:其中,为该图像库Ω中的图像IΩ的用于表示图像IΩ的全局表观的全局表观特征,为该目标图像It的用于表示图像It的全局表观的全局表观特征。应理解,在本发明实施例中,全局表观特征用于表示图像的全局表观,也即图像的全局表观的特征;区域表观特征用于表示图像的区域表观,也即图像的区域表观的特征,但本发明并不限于此。即对于一幅无标注的目标图像It,可以基于等式(1),在图像库Ω中搜索与目标图像It的全局表观距离最近的一些图像,作为兼容参考集包括的兼容参考图像。其中,图像的全局表观特征可以为任何用于衡量图像的全局表观特征,例如,在本发明实施例中,图像的全局表观特征f可以为梯度方向直方图(HistogramofOrientedGradients,简称为“HOG”)特征fHOG和GIST特征fGIST的组合[fHOG,fGIST]。还应理解,在等式(1)中,符号可以表示向量的范数,或者也可以称为向量的模数或长度,但本发明并不限于此。在本发明实施例中,可选地,如图3所示,在图像库中确定目标图像的兼容参考集和竞争参考集的方法110,包括:S111,对于该兼容参考集中的一幅兼容参考图像确定该图像库中与该兼容参考图像的全局表观距离最远的K幅图像其中,K为自然数,n为自然数且n≤N,N为该兼容参考集包括的兼容参考图像的数量;S112,将该K幅图像中与该兼容参考图像的语义距离最近的一幅图像,确定为与该兼容参考图像相应的竞争参考图像,其中,该K幅图像中的图像与该兼容参考图像的语义距离由下列等式(2)确定:其中,k为自然数且k≤K;表示该K幅图像中的图像所包括的类别的集合;表示该兼容参考图像所包括的类别的集合;S113,将与该兼容参考集中的N幅兼容参考图像分别相应的N幅竞争参考图像确定为该目标图像的竞争参考集。具体而言,在本发明实施例中,对于兼容参考集中的每一幅兼容参考图像n为自然数且n≤N,N为该兼容参考集包括的兼容参考图像的数量,例如可以基于等式(1)所示的全局表观距离,分别确定该图像库中与该兼容参考图像的全局表观距离最远或距离值最大的K幅图像其中,K为自然数,例如,K为图像库Ω中包括的图像总数的1/10。在确定的K幅图像中,可以再根据图像之间的语义距离,将该K幅图像中与该兼容参考图像的语义距离最近或距离值最小的一幅图像,确定为与该兼容参考图像相应的竞争参考图像。例如,根据等式(2)所示的语义距离,确定与兼容参考图像相应的竞争参考图像。应理解,在等式(2)中,|T(·)|表示类别的集合中包括的类别的数量,例如,表示K幅图像中的图像所包括的类别的数量;表示该兼容参考图像所包括的类别的数量。从而可以确定与该兼容参考集中的N幅兼容参考图像分别相应的N幅竞争参考图像,由此该N幅竞争参考图像形成用于目标图像的图像语义分割的竞争参考集。即对于每一幅兼容参考图像,都可以确定一幅与之相应的竞争参考图像,也即兼容参考集与竞争参考集的大小相同。但应理解,本发明实施例仅以兼容参考集与竞争参考集的大小相同为例进行说明,本发明并不限于此,兼容参考集与竞争参考集的大小也可以不同。例如对于每一幅兼容参考图像,也可以确定两幅或更多的与之相应的竞争参考图像。还应理解,可以事先离线完成图像库Ω中所有图像之间的语义距离的计算,从而能够快速地确定与每幅兼容参考图相应的竞争参考图像。在本发明实施例中,可以基于图像的全局表观距离和语义距离,确定目标图像的兼容参考集和竞争参考集,而图像之间的全局表观距离可以由等式(1)确定,图像之间的语义距离可以由等式(2)确定。但应理解,本发明实施例仅以等式(1)和(2)为例进行说明,但本发明并不限于此,图像之间的全局表观距离和语义距离还可以采用其它特征或采用其它函数进行表示;还应理解,在本发明实施例中,还可以基于图像之间的其它距离度量,在图像库中确定目标图像的兼容参考集和竞争参考集,本发明并不限于此。在S120中,图像语义分割的装置将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域。可选地,图像语义分割的装置基于图像的颜色和纹理的区域表观特征,将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域。例如,图像语义分割的装置可以基于图切割方法、正规切割方法等,对目标图像、兼容参考图像和竞争参考图像进行过度分割,形成多个区域。应理解,在本发明实施例中,可以采用任何基于图像的颜色和/或纹理的区域表观特征的分割方法,对目标图像、兼容参考图像和竞争参考图像进行过度分割,本发明实施例并不限于此。还应理解,在本发明实施例中,可以离线对图像库Ω中的每一幅图像进行过分割,并仅对目标图像进行在线过分割,从而能够缩短图像语义分割的处理时间,并简化图像语义分割。在S130中,图像语义分割的装置可以基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该目标图像的区域的类别。例如,图像语义分割的装置可以基于该目标图像、该兼容参考图像和该竞争参考图像的语义一致性之和,以及兼容参考图像和竞争参考图像分别与目标图像的图像相关性之和,确定该目标图像的区域的类别。具体地,在本发明实施例中,可选地,如图4所示,根据本发明实施例的确定该目标图像的区域的类别的方法130,包括:S131,确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性;S132,确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性;S133,以该语义一致性与该图像相关性之和最大为目标函数,确定该目标图像的区域的类别。在S131中,可选地,该确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性,包括:由下列等式(3)和(4)确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性之和C:其中,I表示图像且It表示该目标图像,表示该兼容参考图像,表示该竞争参考图像;c(I)表示图像I的语义一致性;s表示图像I中的一个区域;Ls表示区域s可能属于的类别的集合;xs为用于指示区域s所属的类别的二值类别指示向量,且当i=ls时,xs(i)=1,ls为区域s的类别;s1和s2表示图像I中的两个相邻的区域;和分别表示区域s1和s2可能属于的类别的集合;为用于指示区域s1和s2分别所属的类别的二值类别指示矩阵,并且当时,和分别为区域s1和s2的类别;θs(i)表示区域s属于第i个类别的相关程度的程度值;表示相邻区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值。应理解,θs(i)表示区域s属于第i个类别的相关程度的程度值,该程度值越大,说明区域s属于第i个类别的可能性就越大;表示相邻区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值,该程度值越大,说明相邻区域s1和s2分别属于第i个类别和第j个类别的可能性就越大。还应理解,θs也可以称为区域s的一元势能;也可以称为相邻区域s1和s2的二元势能。在本发明实施例中,可选地,该区域s属于第i个类别的相关程度的程度值θs(i)由该区域s的基于语义的区域密度先验、目标先验和显著性先验确定;该区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值由该区域s1和s2的一阶密度先验确定。应理解,区域s的目标先验可以由下列方法确定:例如,将Ls中的第i个类别定义为目标,将其它类别定义为背景,利用图像库学习出目标与背景的判别模型,从而用该判别模型对该区域s进行打分,并可以将分值确定为该区域s的目标先验。但本发明实施例并不限于此,还可以采用其它方法确定区域s的目标先验。应理解,区域s的显著性先验可以由下列方法确定:将该区域s与周围相邻区域进行基于直方图和基于区域的对比度分析,确定区域s在它所在图像I上的显著性程度;并对图像库中具有相似显著性程度的区域所在图像进行类别分布统计,从而确定该区域s的显著性先验。但本发明实施例并不限于此,还可以采用其它方法确定区域s的显著性先验。在本发明实施例中,区域s的基于语义的区域密度先验例如可以由下列方法确定:首先对于图像I中的区域s,估计它在图像库中每一幅图像中的密度,该密度可以为该区域s与它在该图像的一些邻近区域之间的平均相似度;然后可以根据密度,按降序排列图像库中的所有图像;由此可以将前几幅图像(例如,图像库包括的图像总数的1/20)的类别分布统计作为区域s的基于语义的区域密度先验。即,在本发明实施例中,可选地,该区域s的基于语义的区域密度先验,由该区域s在该图像库的图像IΩ中的密度最小的L幅图像的类别分布统计确定,其中,L为自然数,并且该区域s在该图像库的图像IΩ中的密度由下列等式(5)确定:其中,m为非零常数;为该图像库的图像IΩ中与该区域s的距离最近的T个区域,t为自然数且t≤T;fs为该区域s的特征;为该区域st的特征;其中,该图像库的图像IΩ中的区域sΩ与该区域s之间的距离由下列等式(6)确定:其中,为该区域sΩ的特征。应理解,该区域s1和s2的一阶密度先验可以由下列等式确定:其中,表示相邻区域s1和s2在图像库Ω中的密度,并且可以由下列等式确定:其中,a为非零常数;为图像库中与相邻区域s1和s2距离最近的G个相邻区域对;其中,图像库中的相邻区域对与该相邻区域s1和s2之间的距离由下式确定:其中,为该相邻区域s1和s2的联合特征;为该图像库中的相邻区域对的联合特征;相应地,为该相邻区域对的联合特征。还应理解,本发明实施例仅以此为例进行说明,但本发明并不限于此,根据本发明实施例的图像语义分割的方法还可以采用其它方法确定该区域s的基于语义的区域密度先验、目标先验和显著性先验,并可以采用其它方法确定该区域s1和s2的一阶密度先验。在S132中,可选地,该确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性,包括:由下列等式(7)至(9)确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性之和E:E=E1+E2(7)其中,E1表示该兼容参考集包括的所有兼容参考图像I+与该目标图像It的图像相关性之和;E2表示该竞争参考集包括的所有竞争参考图像I-与该目标图像It的图像相关性之和;st、s+和s-分别表示该目标图像It、该兼容参考图像I+和该竞争参考图像I-中的区域;和分别表示区域st、s+和s-可能属于的类别的集合;z+(i,j)为用于指示区域s+和st分别所属的类别的二值类别指示矩阵,并且当时,z+(i,j)=1,和分别为区域s+和st的类别;z-(i,j)为用于指示区域s-和st分别所属的类别的二值类别指示矩阵,并且当时,z-(i,j)=1,为区域s-的类别;和分别由下列等式(10)和(11)确定:其中,和分别表示区域st、s+和s-的特征。在S133中,图像语义分割的装置以该语义一致性与该图像相关性之和最大为目标函数,确定该目标图像的区域的类别。在S140中,图像语义分割的装置以该目标图像、该兼容参考图像和该竞争参考图像的语义一致性,以及该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性之和最大为目标函数,确定该兼容参考图像和该竞争参考图像的区域的类别。具体而言,可以将目标图像、兼容参考集包括的兼容参考图像和竞争参考集包括的竞争参考图像的区域作为图模型的顶点,这些区域的类别是未知量。一幅图像的语义一致性可以由一元势能和二元势能表示,即由图像的统计先验表示;兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性可以由兼容边和竞争边来表示,每一个兼容边连接着目标图像和一幅兼容参考图像上相似位置上的两个区域,每一个竞争边以同样的方式连接目标图像和一幅竞争参考图像上的两个区域。该目标图像、该兼容参考图像和该竞争参考图像的语义一致性之和C可以由上述等式(3)和(4)确定,但应理解,除了上文中对xs(i)和所做的约束之外,为了使得它们指示的类别相一致,xs(i)和还需要满足下列等式(12)和(13):其中,s1和s2表示图像I中的两个相邻的区域;和分别为二值类别指示向量,且当时,且当时,因此,上述等式(3)和(4)以及约束条件(12)和(13)一起可以由以矩阵符号体现的等式(14)表示:ΘTx+ΦTys.t.Hx=e,Ax=By,x,y∈{0,1}(14)其中,x是一个长向量,由目标图像、兼容参考图像和竞争参考图像中的所有区域的二值类标指示向量串连而成;类似地,y也是一个长向量,由所有二值类标指示矩阵串连而成;x和y分别表示x和y中的元素;e为一个全1向量,而H,A和B分别为系数矩阵。该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性之和E可以由上述等式(7)至(9)确定,但应理解,除了上文中的约束之外,为了使得z+(i,j)与和它们指示的类别相一致,还需要满足下列等式(15)和(16):类似地,z-(i,j)需要与和它们指示的类别相一致。因此,上述等式(7)至(9)以及上述约束条件一起可以由以矩阵符号体现的等式(17)表示:ΨTz++ΓTz-s.t.Cz+=Dx,C′z-=D′x,x,z+,z-∈{0,1}(17)其中,z+和z-分别为由所有二值类标指示矩阵串连而成的长向量;z+和z-分别表示z+和z-中的元素;C,C′,D和D′分别为系数矩阵。因此,结合等式(14)和(16)可以得到完整表达式(18):上述整数规划问题可以被松弛为一个线性规划问题。应理解,许多算法都可用于求解线性规划问题,得到的类标指示向量x就确定了目标图像、兼容参考图像和竞争参考图像中所有区域的类别,例如,该线性规划问题可以采用内点法进行求解。应理解,目标图像和兼容参考集之间的图像相关性可以理解为:假如目标图像中的一个区域与一幅兼容参考集图像中对应位置的区域具有相似的表观或特征,则这两个区域属于同一类的可能性就大;类似地,目标图像和竞争参考集之间的图像相关性可以理解为:假如目标图像中的一个区域与一幅竞争参考集图像中对应位置的区域具有相异的表观,两个区域属于不同类的可能性就大。还应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。因此,本发明实施例的图像语义分割的方法,通过在图像库中采用与目标图像具有相似的全局表观的兼容参考集,以及与目标图像具有相异的全局表观且与兼容参考集具有相似语义的竞争参考集作为参考集,能够为目标图像的分割提供互补信息以减少语义的误判,从而能够采用目标图像、兼容参考图像和竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定目标图像的区域的类别,由此能够获得准确的语义分割,以及更加符合语义感知的图像内容。此外,根据本发明实施例的图像语义分割的方法,采用的图像库可以是具有图像级标注的训练图像库,从而不需要对训练图像库进行繁重的手工像素级标注,省时省力;并且根据本发明实施例的图像语义分割的方法,能够同时对无标注的目标图像以及带图像级标注的参考图像进行联合语义分割。上文中结合图1至图4,详细描述了根据本发明实施例的图像语义分割的方法,下面将结合图5至图9,详细描述根据本发明实施例的图像语义分割的装置。图5示出了根据本发明实施例的图像语义分割的装置500的示意性框图。如图5所示,该装置500包括:第一确定模块510,用于基于图像的用于表示图像之间的全局表观相似性的全局表观距离和用于表示图像之间的语义相似性的语义距离,在图像库中确定目标图像的兼容参考集和竞争参考集,该兼容参考集包括的兼容参考图像与该目标图像具有相似的全局表观,该竞争参考集包括的竞争参考图像与该目标图像具有相异的全局表观;分割模块520,用于将该目标图像、该第一确定模块510确定的该兼容参考图像和该第一确定模块510确定的该竞争参考图像中的每一幅图像分割成多个区域;第二确定模块530,用于基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该分割模块520将该目标图像分割成的区域的类别。因此,本发明实施例的图像语义分割的装置,通过在图像库中采用与目标图像具有相似的全局表观的兼容参考集,以及与目标图像具有相异的全局表观且与兼容参考集具有相似语义的竞争参考集作为参考集,能够为目标图像的分割提供互补信息以减少语义的误判,从而能够采用目标图像、兼容参考图像和竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定目标图像的区域的类别,由此能够获得准确的语义分割,以及更加符合语义感知的图像内容。此外,根据本发明实施例的图像语义分割的装置,采用的图像库可以是具有图像级标注的训练图像库,从而不需要对训练图像库进行繁重的手工像素级标注,省时省力;并且根据本发明实施例的图像语义分割的装置,能够同时对无标注的目标图像以及带图像级标注的参考图像进行联合语义分割。在本发明实施例中,可选地,该第二确定模块530还用于:基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该兼容参考图像和该竞争参考图像的区域的类别。在本发明实施例中,如图6所示,可选地,该第一确定模块510包括:第一确定单元511,用于将该图像库中与该目标图像的全局表观距离最近的N幅图像确定为该目标图像的兼容参考集,其中,N为自然数,并且该图像库Ω中的图像IΩ(IΩ∈Ω)与该目标图像It的全局表观距离DA(IΩ,It)由下列等式(21)确定:其中,为该图像库Ω中的图像IΩ的用于表示图像IΩ的全局表观的全局表观特征,为该目标图像It的用于表示图像It的全局表观的全局表观特征。在本发明实施例中,如图7所示,可选地,该第一确定模块510包括:第二确定单元512,用于对于该兼容参考集中的一幅兼容参考图像确定该图像库中与该兼容参考图像的全局表观距离最远的K幅图像其中,K为自然数,n为自然数且n≤N,N为该兼容参考集包括的兼容参考图像的数量;第三确定单元513,用于将该K幅图像中与该兼容参考图像的语义距离最近的一幅图像,确定为与该兼容参考图像相应的竞争参考图像,其中,该K幅图像中的图像与该兼容参考图像的语义距离由下列等式(22)确定:其中,k为自然数且k≤K;表示该K幅图像中的图像所包括的类别的集合;表示该兼容参考图像所包括的类别的集合;第四确定单元514,用于将与该兼容参考集中的N幅兼容参考图像分别相应的N幅竞争参考图像确定为该目标图像的竞争参考集。在本发明实施例中,可选地,该分割模块520用于:基于图像的颜色和纹理的区域表观特征,将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域。在本发明实施例中,如图8所示,可选地,该第二确定模块530包括:第五确定单元531,用于确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性;第六确定单元532,用于确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性;第七确定单元533,用于以该语义一致性与该图像相关性之和最大为目标函数,确定该目标图像的区域的类别。在本发明实施例中,可选地,该第五确定单元531用于:由下列等式(23)和(24)确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性之和C:其中,I表示图像且It表示该目标图像,表示该兼容参考图像,表示该竞争参考图像;c(I)表示图像I的语义一致性;s表示图像I中的一个区域;Ls表示区域s可能属于的类别的集合;xs为用于指示区域s所属的类别的二值类别指示向量,且当i=ls时,xs(i)=1,ls为区域s的类别;s1和s2表示图像I中的两个相邻的区域;和分别表示区域s1和s2可能属于的类别的集合;为用于指示区域s1和s2分别所属的类别的二值类别指示矩阵,并且当时,和分别为区域s1和s2的类别;θs(i)表示区域s属于第i个类别的相关程度的程度值;表示相邻区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值。在本发明实施例中,可选地,该区域s属于第i个类别的相关程度的程度值θs(i)由该区域s的基于语义的区域密度先验、目标先验和显著性先验确定;该区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值由该区域s1和s2的一阶密度先验确定。在本发明实施例中,可选地,该区域s的基于语义的区域密度先验,由该区域s在该图像库的图像IΩ中的密度最小的L幅图像的类别分布统计确定,其中,L为自然数,并且该区域s在该图像库的图像IΩ中的密度由下列等式(25)确定:其中,m为非零常数;为该图像库的图像IΩ中与该区域s的距离最近的T个区域,t为自然数且t≤T;fs为该区域s的特征;为该区域st的特征;其中,该图像库的图像IΩ中的区域sΩ与该区域s之间的距离由下列等式(26)确定:其中,为该区域sΩ的特征。在本发明实施例中,可选地,该第六确定单元532用于:由下列等式(27)至(29)确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性之和E:E=E1+E2(27)其中,E1表示该兼容参考集包括的所有兼容参考图像I+与该目标图像It的图像相关性之和;E2表示该竞争参考集包括的所有竞争参考图像I-与该目标图像It的图像相关性之和;st、s+和s-分别表示该目标图像It、该兼容参考图像I+和该竞争参考图像I-中的区域;和分别表示区域st、s+和s-可能属于的类别的集合;z+(i,j)为用于指示区域s+和st分别所属的类别的二值类别指示矩阵,并且当时,z+(i,j)=1,和分别为区域s+和st的类别;z-(i,j)为用于指示区域s-和st分别所属的类别的二值类别指示矩阵,并且当时,z-(i,j)=1,为区域s-的类别;和分别由下列等式(30)和(31)确定:其中,和分别表示区域st、s+和s-的特征。因此,本发明实施例的图像语义分割的装置,通过在图像库中采用与目标图像具有相似的全局表观的兼容参考集,以及与目标图像具有相异的全局表观且与兼容参考集具有相似语义的竞争参考集作为参考集,能够为目标图像的分割提供互补信息以减少语义的误判,从而能够采用目标图像、兼容参考图像和竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定目标图像的区域的类别,由此能够获得准确的语义分割,以及更加符合语义感知的图像内容。此外,根据本发明实施例的图像语义分割的装置,采用的图像库可以是具有图像级标注的训练图像库,从而不需要对训练图像库进行繁重的手工像素级标注,省时省力;并且根据本发明实施例的图像语义分割的装置,能够同时对无标注的目标图像以及带图像级标注的参考图像进行联合语义分割。应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。还应理解,在本发明实施例中,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。如图9所示,本发明实施例还提供了一种图像语义分割的装置700,该装置700包括处理器710、存储器720和总线系统730。其中,处理器710、存储器720通过总线系统730相连,该存储器720用于存储指令,该处理器710用于执行该存储器720存储的指令。其中,该处理器710用于:基于图像的用于表示图像之间的全局表观相似性的全局表观距离和用于表示图像之间的语义相似性的语义距离,在图像库中确定目标图像的兼容参考集和竞争参考集,该兼容参考集包括的兼容参考图像与该目标图像具有相似的全局表观,该竞争参考集包括的竞争参考图像与该目标图像具有相异的全局表观;将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域;基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该目标图像的区域的类别。因此,本发明实施例的图像语义分割的装置,通过在图像库中采用与目标图像具有相似的全局表观的兼容参考集,以及与目标图像具有相异的全局表观且与兼容参考集具有相似语义的竞争参考集作为参考集,能够为目标图像的分割提供互补信息以减少语义的误判,从而能够采用目标图像、兼容参考图像和竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定目标图像的区域的类别,由此能够获得准确的语义分割,以及更加符合语义感知的图像内容。此外,根据本发明实施例的图像语义分割的装置,采用的图像库可以是具有图像级标注的训练图像库,从而不需要对训练图像库进行繁重的手工像素级标注,省时省力;并且根据本发明实施例的图像语义分割的装置,能够同时对无标注的目标图像以及带图像级标注的参考图像进行联合语义分割。应理解,在本发明实施例中,该处理器710可以是中央处理单元(CentralProcessingUnit,简称为“CPU”),该处理器710还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器720可以包括只读存储器和随机存取存储器,并向处理器710提供指令和数据。存储器720的一部分还可以包括非易失性随机存取存储器。例如,存储器720还可以存储设备类型的信息。该总线系统730除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统730。在实现过程中,上述方法的各步骤可以通过处理器710中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器720,处理器710读取存储器720中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。可选地,作为一个实施例,该处理器710还用于:基于该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定该兼容参考图像和该竞争参考图像的区域的类别。可选地,作为一个实施例,该处理器710在图像库中确定目标图像的兼容参考集和竞争参考集,包括:将该图像库中与该目标图像的全局表观距离最近的N幅图像确定为该目标图像的兼容参考集,其中,N为自然数,并且该图像库Ω中的图像IΩ(IΩ∈Ω)与该目标图像It的全局表观距离DA(IΩ,It)由下列等式(1)确定:其中,为该图像库Ω中的图像IΩ的用于表示图像IΩ的全局表观的全局表观特征,为该目标图像It的用于表示图像It的全局表观的全局表观特征。可选地,作为一个实施例,该处理器710在图像库中确定目标图像的兼容参考集和竞争参考集,包括:对于该兼容参考集中的一幅兼容参考图像确定该图像库中与该兼容参考图像的全局表观距离最远的K幅图像其中,K为自然数,n为自然数且n≤N,N为该兼容参考集包括的兼容参考图像的数量;将该K幅图像中与该兼容参考图像的语义距离最近的一幅图像,确定为与该兼容参考图像相应的竞争参考图像,其中,该K幅图像中的图像与该兼容参考图像的语义距离由下列等式(2)确定:其中,k为自然数且k≤K;表示该K幅图像中的图像所包括的类别的集合;表示该兼容参考图像所包括的类别的集合;将与该兼容参考集中的N幅兼容参考图像分别相应的N幅竞争参考图像确定为该目标图像的竞争参考集。可选地,作为一个实施例,该处理器710将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域,包括:基于图像的颜色和纹理的区域表观特征,将该目标图像、该兼容参考图像和该竞争参考图像中的每一幅图像分割成多个区域。可选地,作为一个实施例,该处理器710确定该目标图像的区域的类别,包括:确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性;确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性;以该语义一致性与该图像相关性之和最大为目标函数,确定该目标图像的区域的类别。可选地,作为一个实施例,该处理器710确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性,包括:由下列等式(3)和(4)确定该目标图像、该兼容参考图像和该竞争参考图像的语义一致性之和C:其中,I表示图像且It表示该目标图像,表示该兼容参考图像,表示该竞争参考图像;c(I)表示图像I的语义一致性;s表示图像I中的一个区域;Ls表示区域s可能属于的类别的集合;xs为用于指示区域s所属的类别的二值类别指示向量,且当i=ls时,xs(i)=1,ls为区域s的类别;s1和s2表示图像I中的两个相邻的区域;和分别表示区域s1和s2可能属于的类别的集合;为用于指示区域s1和s2分别所属的类别的二值类别指示矩阵,并且当时,和分别为区域s1和s2的类别;θs(i)表示区域s属于第i个类别的相关程度的程度值;表示相邻区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值。可选地,作为一个实施例,该区域s属于第i个类别的相关程度的程度值θs(i)由该区域s的基于语义的区域密度先验、目标先验和显著性先验确定;该区域s1和s2分别属于第i个类别和第j个类别的相关程度的程度值由该区域s1和s2的一阶密度先验确定。可选地,作为一个实施例,该区域s的基于语义的区域密度先验,由该区域s在该图像库的图像IΩ中的密度最小的L幅图像的类别分布统计确定,其中,L为自然数,并且该区域s在该图像库的图像IΩ中的密度由下列等式(5)确定:其中,m为非零常数;为该图像库的图像IΩ中与该区域s的距离最近的T个区域,t为自然数且t≤T;fs为该区域s的特征;为该区域st的特征;其中,该图像库的图像IΩ中的区域sΩ与该区域s之间的距离由下列等式(6)确定:其中,为该区域sΩ的特征。可选地,作为一个实施例,该处理器710确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性,包括:由下列等式(7)至(9)确定该兼容参考图像和该竞争参考图像分别与该目标图像的图像相关性之和E:E=E1+E2(7)其中,E1表示该兼容参考集包括的所有兼容参考图像I+与该目标图像It的图像相关性之和;E2表示该竞争参考集包括的所有竞争参考图像I-与该目标图像It的图像相关性之和;st、s+和s-分别表示该目标图像It、该兼容参考图像I+和该竞争参考图像I-中的区域;和分别表示区域st、s+和s-可能属于的类别的集合;z+(i,j)为用于指示区域s+和st分别所属的类别的二值类别指示矩阵,并且当时,z+(i,j)=1,和分别为区域s+和st的类别;z-(i,j)为用于指示区域s-和st分别所属的类别的二值类别指示矩阵,并且当时,z-(i,j)=1,为区域s-的类别;和分别由下列等式(10)和(11)确定:其中,和分别表示区域st、s+和s-的特征。应理解,根据本发明实施例的图像语义分割的装置700可对应于执行根据本发明实施例的图像语义分割的方法的执行主体,并对应于根据本发明实施例的图像语义分割的装置500,并且装置700中的各个模块的上述和其它操作和/或功能分别为了实现图1至图4中的各个方法的相应流程,为了简洁,在此不再赘述。因此,本发明实施例的图像语义分割的装置,通过在图像库中采用与目标图像具有相似的全局表观的兼容参考集,以及与目标图像具有相异的全局表观且与兼容参考集具有相似语义的竞争参考集作为参考集,能够为目标图像的分割提供互补信息以减少语义的误判,从而能够采用目标图像、兼容参考图像和竞争参考图像中的每一幅图像的多个区域的语义一致性和图像相关性,确定目标图像的区域的类别,由此能够获得准确的语义分割,以及更加符合语义感知的图像内容。此外,根据本发明实施例的图像语义分割的装置,采用的图像库可以是具有图像级标注的训练图像库,从而不需要对训练图像库进行繁重的手工像素级标注,省时省力;并且根据本发明实施例的图像语义分割的装置,能够同时对无标注的目标图像以及带图像级标注的参考图像进行联合语义分割。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1