用于处理图像的方法和装置与流程

文档序号:18034423发布日期:2019-06-28 23:06阅读:173来源:国知局
用于处理图像的方法和装置与流程

本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于处理图像的方法和装置。



背景技术:

将图像中一些需要的部分从图像中提取出来,也称为抠图,为现有的图像处理中常用的处理方法之一。

现有的抠图技术一般采用图像分割的方法将特定对象从图像中提取出来,或者采用三元图的方法进行特定对象的提取。



技术实现要素:

本申请实施例提出了用于处理图像的方法和装置。

第一方面,本申请实施例提供了一种用于处理图像的方法,该方法包括:获取包含至少两个对象的待处理图像;对待处理图像进行处理,以使待处理图像达到预设分辨率;将处理后的待处理图像输入至预先训练的图像语义分类模型中,得到分类图像,其中,图像语义分类模型用于表征输入的图像与分类图像之间的对应关系,分类图像为单通道颜色图像,包括的灰度值的数目等于所对应的输入的图像所包括的对象数;从所得到的分类图像中提取对象作为目标对象,并生成目标对象的图像。

在一些实施例中,对待处理图像进行处理,以使待处理图像达到预设分辨率,包括:响应于待处理图像沿第一方向的像素数目大于沿第二方向的像素数目,调整待处理图像沿第一方向的像素数目,以使待处理图像沿第一方向的像素数目达到预设像素数目,并生成第一图像,其中,第一方向与第二方向相交;确定预设像素数目与待处理图像沿第一方向的像素数目的第一比值;基于第一比值调整第一图像沿第二方向的像素数目,得到第二图像;基于第二图像,生成处理后的图像。

在一些实施例中,基于第二图像,生成处理后的图像,包括:响应于第二图像沿第二方向的像素数目小于预设像素数目,生成两张相同的增补图像,其中,各增补图像沿第一方向的像素数目与待处理图像沿第一方向的像素数目相同,各增补图像沿第二方向的像素数目为待处理图像沿第一方向的像素数目减去沿第二方向的像素数目的差值的一半,各增补图像的灰度值为预设样本图像集合中的样本图像的平均灰度值;沿第二方向,将两张相同的增补图像分别设置于第二图像的两侧,并与第二图像拼接;将拼接后的第二图像确定为处理后的图像。

在一些实施例中,图像语义分类模型为全卷积网络,全卷积网络包括卷积层以及反卷积层;以及将处理后的待处理图像输入至预先训练的图像语义分类模型中,得到分类图像,包括:将处理后的图像输入至卷积层,得到特征图像,其中,卷积层用于表征输入图像与特征图像之间的对应关系;将所得到的特征图像输入至反卷积层,得到分类图像,所得到的分类图像与处理后的待处理图像的尺寸相同。

在一些实施例中,图像语义分类模型通过以下方法训练得到:获取初始图像语义分类模型;获取包含有至少两个对象的样本图像的样本图像集合以及与每一个样本图像对应的分类样本图像,分类样本图像中包含有至少两个灰度值,每一个灰度值对应的颜色用于表征同一类别的对象,其中灰度值对应的颜色与对象类别之间的对应关系为预先标注的;将样本图像集合中的每一个样本图像作为输入,将与每一个样本图像对应的分类样本图像作为输出,训练初始图像语义分类模型,得到图像语义分类模型。

在一些实施例中,将样本图像集合中的每一个样本图像作为输入,将与每一个样本图像对应的分类样本图像作为输出,训练初始图像语义分类模型,得到图像语义分类模型,包括:利用反向传播算法以及随机梯度下降算法,对初始图像语义分类模型进行调整,使得初始图像语义分类模型所输出的图像的损失误差达到第一预设阈值;将所得到的初始图像语义分类模型确定为图像语义分类模型。

在一些实施例中,从所得到的分类图像中提取对象作为目标对象,并生成目标对象的图像,包括:将所得到的分类图像中用于表征目标对象的灰度值设置为前景灰度值,将用于表征目标对象之外的对象的灰度值设置为背景灰度值,并生成第三图像;对第三图像进行形态学处理,得到形态学图像,其中,形态学处理包括以下至少一项:腐蚀操作、二值化操作、膨胀操作;利用图割算法,对形态学图形进行处理,并生成第四图像;将第四图像中的前景图像的灰度值还原为待处理图像中对应位置处的灰度值,并生成目标对象的图像。

在一些实施例中,对形态学图像进行处理,并生成第四图像,包括:基于形态学图像,执行如下分割步骤:基于形态学图像,执行如下处理步骤:响应于确定形态学图像中存在噪声,利用图割算法,对形态学图像降噪处理,并生成降噪图像;确定降噪图像中噪声的像素数目与形态学图像的像素数目的第二比值是否小于第二预设阈值;响应于确定第二比值小于第二预设阈值,则将降噪图像确定为第四图像;响应于确定第二比值大于第二预设阈值,则将降噪图像作为形态学图像,继续执行处理步骤。

第二方面,本申请实施例提供了一种用于处理图像的装置,该装置包括:获取单元,配置用于获取包含至少两个对象的待处理图像;处理单元,配置用于对待处理图像进行处理,以使待处理图像达到预设分辨率;分类图像获得单元,配置用于将处理后的待处理图像输入至预先训练的图像语义分类模型中,得到分类图像,其中,图像语义分类模型用于表征输入的图像与分类图像之间的对应关系,分类图像为单通道颜色图像,包括的灰度值的数目等于所对应的输入的图像所包括的对象数;图像生成单元,配置用于从所得到的分类图像中提取对象作为目标对象,并生成目标对象的图像。

在一些实施例中,处理单元,包括:第一图像生成子单元,配置用于响应于待处理图像沿第一方向的像素数目大于沿第二方向的像素数目,调整待处理图像沿第一方向的像素数目,以使待处理图像沿第一方向的像素数目达到预设像素数目,并生成第一图像,其中,第一方向与第二方向相交;第一比值确定子单元,配置用于确定预设像素数目与待处理图像沿第一方向的像素数目的第一比值;第二图像生成子单元,配置用于基于第一比值调整第一图像沿第二方向的像素数目,得到第二图像;图像生成子单元,配置用于基于第二图像,生成目标对象的图像。

在一些实施例中,图像生成子单元进一步配置用于:响应于第二图像沿第二方向的像素数目小于预设像素数目,生成两张相同的增补图像,其中,各增补图像沿第一方向的像素数目与待处理图像沿第一方向的像素数目相同,各增补图像沿第二方向的像素数目为待处理图像沿第一方向的像素数目减去沿第二方向的像素数目的差值的一半,各增补图像的灰度值为预设样本图像集合中的样本图像的平均灰度值;沿第二方向,将两张相同的增补图像分别设置于第二图像的两侧,并与第二图像拼接;将拼接后的第二图像确定为处理后的图像。

在一些实施例中,图像语义分类模型为全卷积网络,全卷积网络包括卷积层以及反卷积层;以及分类图像获取单元进一步配置用于:将处理后的图像输入至卷积层,得到特征图像,其中,卷积层用于表征输入图像与特征图像之间的对应关系;将所得到的特征图像输入至反卷积层,得到分类图像,所得到的分类图像与处理后的待处理图像的尺寸相同。

在一些实施例中,装置还包括图像语义分类模型训练单元,包括:第一获取子单元,配置用于获取初始图像语义分类模型;第二获取子单元,配置用于获取包含有至少两个对象的样本图像的样本图像集合以及与每一个样本图像对应的分类样本图像,分类样本图像中包含有至少两个灰度值,每一个灰度值对应的颜色用于表征同一类别的对象,其中灰度值对应的颜色与对象类别之间的对应关系为预先标注的;训练子单元,配置用于将样本图像集合中的每一个样本图像作为输入,将与每一个样本图像对应的分类样本图像作为输出,训练初始图像语义分类模型,得到图像语义分类模型。

在一些实施例中,训练子单元进一步配置用于:利用反向传播算法以及随机梯度下降算法,对初始图像语义分类模型进行调整,使得初始图像语义分类模型所输出的图像的损失误差达到第一预设阈值;将所得到的初始图像语义分类模型确定为图像语义分类模型。

在一些实施例中,图像生成单元包括:第三图像生成子单元,配置用于将所得到的分类图像中用于表征目标对象的灰度值设置为前景灰度值,将用于表征目标对象之外的对象的灰度值设置为背景灰度值,并生成第三图像;形态学图像生成子单元,配置用于对第三图像进行形态学处理,得到形态学图像,其中,形态学处理包括以下至少一项:腐蚀操作、二值化操作、膨胀操作;第四图像生成子单元,配置用于利用图割算法,对形态学图形进行处理,并生成第四图像;图像生成子单元,配置用于将第四图像中的前景图像的灰度值还原为待处理图像中对应位置处的灰度值,并生成目标对象的图像。

在一些实施例中,第四图像生成子单元进一步配置用于:基于形态学图像,执行如下处理步骤:响应于确定形态学图像中存在噪声,利用图割算法,对形态学图像降噪处理,并生成降噪图像;确定降噪图像中噪声的像素数目与形态学图像的像素数目的第二比值是否小于第二预设阈值;响应于确定第二比值小于第二预设阈值,则将降噪图像确定为第四图像;响应于确定第二比值大于第二预设阈值,则将降噪图像作为形态学图像,继续执行处理步骤。

第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的用于处理图像的方法和装置,通过对获取到的包含多个对象的待处理图像进行处理以达到预设分辨率后,接着将处理后的图像输入至预先训练的图像语义分类模型中,得到分类图像,最后从所得到的分类图像中提取对象作为目标对象,并生成该目标对象的图像,从而可以更加精确的将目标对象从待处理图像中提取出来,提高了抠图的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的用于处理图像的方法的一个实施例的流程图;

图3是根据本申请的用于处理图像的方法的又一个实施例的流程图;

图4是根据本申请的图像语义分类模型训练方法的一个实施例的流程图;

图5是根据本申请的用于处理图像的装置的一个实施例的结构示意图;

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于处理图像的方法或用于处理图像的装置的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103上可以安装有摄像头,也可以安装有各种通讯客户端应用,例如搜索类应用、购物类应用、网页浏览器应用、社交平台软件、邮箱客户端等。终端设备可以通过摄像头进行图像的拍摄,也可以通过通讯客户端应用进行图像的下载等。服务器105可以通过网络104与终端设备101、102、103交互,以获取待处理图像等。

终端设备101、102、103可以是照相机、摄像机等,也可以是具有显示屏并且支持拍照、摄像功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如可以从终端设备101、102、103上获取待处理图像的后台图像处理服务器。后台图像处理服务器可以对获取到的图像进行处理,并将处理结果(例如处理后的图像)反馈给终端设备。

需要说明的是,本申请实施例所提供的用于处理图像的方法一般由服务器105执行,相应地,处理图像的装置一般设置于服务器105中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的用于处理图像的方法的一个实施例的流程200。该用于处理图像的方法,包括以下步骤:

步骤201,获取包含至少两个对象的待处理图像。

在本实施例中,用于处理图像的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从终端设备中获取待处理图像。在这里,该终端设备可以为摄像机、照相机、具有拍摄功能的手机、电脑等,用户可以利用终端设备进行图像拍摄,并将拍摄的待处理图像保存至终端设备中。上述终端设备也可以包括搜索类应用、网页浏览类应用、购物类应用等,用户可以通过上述各种应用下载图像,并将下载的待处理图像保存至终端设备。上述电子设备也可以通过本地直接获取待处理图像。当上述电子设备通过本地获取待处理图像时,网络可被省略。

在本实施例中,上述待处理图像中包含有至少两个对象。在这里,该对象可以指待处理图像中的实体,具体的可以为人物面部头像、人物轮廓、人物的服饰、动物、植物、车、家具等。需要说明的是,该对象为示意性的,本申请并不仅限于此,只要该对象为图像中的实体,均落入本申请的保护范围内。

步骤202,对待处理图像进行处理,以使待处理图像达到预设分辨率。

在本实施例中,根据步骤201中获取到的待处理图像,本步骤可以对待处理图像进行处理,以使该待处理图像达到预先设定的分辨率。具体的,可以利用图像插值方法来提高图像分辨率。其中,图像插值方法可以包括最近邻插值、双线性插值、双三次插值、自适应插值、双信道插值等方法。以双线性插值方法为例,首先在待处理图像中选取一个像素点,该像素点在待处理图像中的横纵坐标为u(u、v);接着确定待处理图像中与选取的像素点相邻的四个像素点的坐标a(i,j),b(i+1,j),c(i,j+1),d(i+1,j+1);令x=u-i,y=v-j;接着,确定坐标e(i,v)和f(i+1,v)对应的像素点的灰度值f(e)和f(f),其中f(e)=y*[f(c)-f(a)]+f(a),f(c)为c点处的像素点的灰度值,f(a)为a点处的像素点的灰度值;接着,利用f(u,v)=x*[f(f)-f(e)]+f(e)确定u点处的灰度值,此时,f(u,v)为校正后的图像中坐标u(u,v)处的像素点的灰度值。利用该方法可以对待处理图像中的每一个像素点做此处理,从而使得待处理图像达到预设分辨率,得到处理后的图像。

在这里值得注意的是,上述各图像插值方法为现有的公知技术,在此不再赘述。

步骤203,将处理后的待处理图像输入至预先训练的图像语义分类模型中,得到分类图像。

在本实施例中,基于步骤202中得到的处理后的待处理图像,上述电子设备可以将处理后的待处理图像输入至预先训练的图像语义分类模型中,从而得到分类图像。

在本实施例中,上述图像语义分类模型可以表征输入的图像与分类图像之间的对应关系。在这里,分类图像为单通道颜色图像。例如,可以为三原色中的r通道图像或g通道图像或b通道图像;例如可以为lab图像中的l通道图像、a通道图像或b通道图像。分类图像包括的灰度值的数目等于所对应的输入的图像所包括的对象数。例如,当上述待处理图像中包括的对象的数目为4个时,分类图像中可以包括4个灰度值,每一个灰度值用于表征其中一个对象。也即分类图像中包括4种颜色,每一个颜色用于表征其中一个对象。上述电子设备可以通过多种方式训练出可以表征输入的图像与分类图像之间的对应关系的图像语义分类模型。

作为一种示例,上述电子设备可以为存储有对象与像素值之间的对应关系的对应关系表,并将该对应关系表作为图像语义分类模型。这样,上述电子设备可以将获取到的待处理图像中所包含的所有的对象与上述对应关系表中的对象一一进行比较,若待处理图像中所包含的对象与该对应关系表中的对象相同或相似,则将该对应关系表中与待处理图像中所包含的对象相同或相似的对象所对应的像素值作为待处理图像中的对象对应的像素值,并用所得到的像素值所对应的颜色作为其所表征的对象的轮廓。基于所得到的各对象的轮廓,得到分类图像。

步骤204,从所得到的分类图像中提取对象作为目标对象,并生成目标对象的图像。

在本实施例中,根据步骤203确定的分类图像,上述电子设备从所得到的分类图像中提取对象作为目标对象。在这里,由于所得到的分类图像中各对象均由灰度值所对应的颜色表征,因此,在进行对象提取时,所提取出的对象也为由灰度值对应的颜色表征的目标对象。在这里,可以利用自然图像抠图方法(aclosedformsolutiontonaturalimagematting)将上述目标对象作为前景图像,将分类图像中其余对象作为背景图像,将目标对象从分类图像中提取出来,并生成目标对象的图像。例如,可以将背景图像的灰度值设置为0,将目标对象所对应的灰度值保持原来的灰度值不变,从而得到基于目标对象的轮廓的单通道图像。

本申请实施例提供的用于处理图像的方法,通过对获取到的包含多个对象的待处理图像进行处理以达到预设分辨率后,接着将处理后的图像输入至预先训练的图像语义分类模型中,得到分类图像,最后从所得到的分类图像中提取对象作为目标对象,并生成该目标对象的图像,从而可以更加精确的将目标对象从待处理图像中提取出来,提高了抠图的准确性。

进一步参考图3,其示出了用于处理图像的方法的又一个实施例的流程300。该用于处理图像方法的流程300,包括以下步骤:

步骤301,获取包含至少两个对象的待处理图像。

在本实施例中,用于处理图像的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从终端设备中获取待处理图像。上述电子设备也可以通过本地直接获取待处理图像。当上述电子设备通过本地获取待处理图像时,不需要设置网络。在本实施例中,上述待处理图像中包含有至少两个对象。在这里,该对象可以指待处理图像中的实体,具体的可以为人物面部头像、人物轮廓、人物的服饰、动物、植物、车、家具等。

步骤302,响应于待处理图像沿第一方向的像素数目大于沿第二方向的像素数目,调整待处理图像沿第一方向的像素数目,以使待处理图像沿第一方向的像素数目达到预设像素数目,并生成第一图像。

在本实施例中,待处理图像通常由多个像素组成,该多个像素沿第一方向与第二方向呈阵列排布。该第一方向可以为行方向,也可以为列方向。当上述第一方向为行方向时,第二方向为列方向;当上述第一方向为列方向时,第二方向为行方向。

在本实施例中,上述电子设备可以首先判断待处理图像沿第一方向的像素数目是否大于沿第二方向的像素数目,响应于确定待处理图像沿第一方向的像素数目大于沿第二方向的像素数目,上述电子设备可以调整待处理图像沿第一方向的像素数目,从而使得待处理图像沿第一方向的像素数目达到预设像素数目,并生成第一图像。作为示例,预设分辨率为321*321,单位为像素数目(ppi,pixelsperinch),即沿第一方向的预设像素数目和沿第二方向的预设像素数目均为321。当待处理对象沿第一方向的像素数目为400时,可以减少待处理对象沿第一方向的像素数目,例如可以减少待处理图像沿第一方向的宽度,使其沿第一方向的像素数目达到321。

步骤303,确定预设像素数目与待处理图像沿第一方向的像素数目的第一比值。

在本实施例中,上述电子设备可以确定预设像素数目与待处理图像沿第一方向的像素数目的第一比值。通过确定该第一比值,可以将待处理图像沿该第一比值进行增大或缩小,从而保证了处理后的图像与待处理图像之间保持相同比例的尺寸。

步骤304,基于第一比值调整第一图像沿第二方向的像素数目,得到第二图像。

在本实施例中,根据步骤303确定的第一比值,上述电子设备可以将上述第一图像沿第二方向的像素数目乘以上述第一比值,从而得到调整后的第一图像沿第二方向的像素数目,基于调整后的第一图像,生成第二图像。

步骤305,基于第二图像,生成处理后的图像。

在本实施例中,根据步骤304确定的第二图像,上述电子设备可以确定第二图像沿第二方向的像素数目是否达到预设像素数目。响应于确定第二图像沿第二方向的像素数目达到预设像素数目,则将第二图像确定为预处理后的图像。

在本实施例的一些可选的实现方式中,响应于第二图像沿第二方向的像素数目小于预设像素数目,生成两张相同的增补图像,其中,增补图像沿第一方向的像素数目与待处理图像沿第一方向的像素数目相同,增补图像沿第二方向的像素数目为待处理图像沿第一方向的像素数目减去沿第二方向的像素数目的差值的一半,增补图像的灰度值为预设样本图像集合中的样本图像的平均灰度值。沿第二方向,将两张相同的增补图像分别设置于第二图像的两侧,并与第二图像拼接。将拼接后的第二图像确定为处理后的图像。

步骤306,将处理后的图像输入至全卷积网络的卷积层,得到特征图像。

在本实施例中,上述图像语义分类模型可以为全卷积网络。根据步骤305确定的处理后的图像,上述电子设备可以将处理后的图像输入至全卷积网络的卷积层,从而得到特征图像。

在本实施例中,全卷积网络(fullyconvolutionalnetwork,fcn)是由传统的卷积神经网络(convolutionalneuralnetwork,cnn)发展而来。卷积神经网络可以是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于图像处理有出色表现。通常,卷积神经网络包含有多个卷积层以及全连接层,在图像分类应用中,卷积神经网络的全连接层用于将卷积层输出的特征图映射成一固定长度的特征向量,从而得到基于输入图像的数值描述。而全卷积网络将传统的卷积神经网络的全连接层变为多个卷积层,从而使得从全卷积网络输出端输出的为一个已经分类好的图像。该全卷积网络包括多个卷积层,每一个卷积层之后连接一池化层,用于将卷积层输出的特征图像进行池化压缩。这里,上述电子设备可以将处理后的图像从全卷积网络的卷积层的输入侧输入,依次经过各卷积层的处理和池化层池化后,从卷积层的输出侧输出,输出侧输出的图像即为特征图像。

在本实施例中,全卷积网络的卷积层用于表征输入图像与特征图像之间的对应关系。上述电子设备可以通过如下方式训练出可以表征输入图像与特征图像之间的对应关系的卷积层:

上述电子设备可以首选获取包含有至少两个对象的样本图像的样本图像集合以及与样本集合中的每一个样本图像对应的特征图像的特征图像集合;然后,将样本图像集合中的样本图像作为输入,将与样本图像结合中的样本图像对应的特征图像作为输出,训练得到能够表征输入图像与特征图像之间的对应关系的卷积层。在这里,输入图像每经过一层卷积层,图像尺寸将会变为输入图像的1/2n+1,也即图像越来越小,分辨率越来越低。当输入图像经过多层卷积层和池化层后,也即得到特征图像,该特征图像也叫热图。

步骤307,将所得到的特征图像输入至全卷积网络的反卷积层,得到分类图像。

在本实施例中,全卷积网络还包括反卷积层,用于对卷积层输出的特征图像的尺寸放大至与全卷积网络的输入端输入的图像相同的尺寸。基于步骤306所得到的特征图像,上述电子设备可以将特征图像输入至全卷积网络的反卷积层,对卷积层输出的特征图像进行采样处理,从而得到分类图像。这里,所得到的分类图像与处理后的待处理图像具有相同的尺寸。分类图像为单通道颜色图像,其包括的灰度值的数目等于所对应的输入的图像所包括的对象数。

步骤308,将所得到的分类图像中用于表征目标对象的灰度值设置为前景灰度值,将用于表征目标对象之外的对象的灰度值设置为背景灰度值,并生成第三图像。

在本实施例中,根据步骤307得到的分类图像,上述电子设备根据预先设置的所要提取的目标对象,可以将所得到的分类图像中用于表征目标对象的灰度值设置为前景灰度值,将用于表征目标对象之外的对象的灰度值设置为背景灰度值,并生成第三图像。作为示例,当分类图像中分别包含有用于表征“人的面部”的灰度值、用于表征“人所穿的上衣”的灰度值、用于表征“人所穿的下衣”的灰度值、用于表征“猫”的灰度值、用于表征“车”的灰度值,而目标对象为“人的面部”、“人所穿的上衣”和“所穿的下衣”时,可以将用于表征“人的面部”、“人所穿的上衣”和“下衣”的灰度值保持不变,并设置为前景灰度值,将表征其余对象例如“猫”、“车”的灰度值均设置为“0”,也即作为背景灰度值,从而生成第三图像。

步骤309,对所述第三图像进行形态学处理,得到形态学图像。

在本实施例中,根据步骤308确定的第三图像,上述电子设备可以对第三图像进行形态学处理。在这里,形态学处理可以包括腐蚀操作、二值化操作以及膨胀操作。通过将第三图像进行形态学处理,可以使得利用图割算法对前景图像进行识别时能够更加快速的识别出前景图像的形状特征以及边界、连通区域等。

步骤310,利用图割算法,对形态学图形进行处理,并生成第四图像。

在本实施例中,上述电子设备可以利用图割算法(grabcut),对步骤309中得到的形态学图像进行处理,从而生成第四图像。

作为示例,可以将形态学图像与待处理图像均输入至现有的图割算法模型中,将形态学图像中的各对象的轮廓与待处理图像中相应位置处的图像的轮廓进行比较,并根据比较结果,对形态学图形进行修正。当形态学图像中的各对象的轮廓与待处理图像中相应位置处的图像的轮廓之间的差值小于预先设定的阈值时,可以将形态学图像确定为第四图像。

在本实施例的一些可选的实现方式中,基于形态学图像,执行如下处理步骤:响应于确定形态学图像中存在噪声,利用图割算法,对形态学图像降噪处理,并生成降噪图像;确定降噪图像中噪声的像素数目与形态学图像的像素数目的第二比值是否小于第二预设阈值;响应于确定第二比值小于第二预设阈值,则将降噪图像确定为第四图像;响应于确定第二比值大于第二预设阈值,则将降噪图像作为形态学图像,继续执行分割步骤。这里,该噪声例如可以为图像中的一些光斑等。

步骤311,将第四图像中的前景图像的灰度值还原为待处理图像中对应位置处的灰度值,并生成目标对象的图像。

在本实施例中,由于第四图像为单通道图像,在第四图像中每一个目标对象为单一的灰度值,其仅为该对象的轮廓,因此,还需要将各目标对象进行还原。在这里,可以将第四图像与待处理图像进行比较,确定第四图像中各目标对象与待处理图像对应位置处的目标对象的rgb三原色灰度值,基于该rgb三原色灰度值对第四图像进行还原,同时可以将第四图像中的背景图像的灰度值设置为255,即白色,从而生成目标对象的图像。

丛图3中可以看出,与图2所示的实施例不同的是,本实施例主要突出了对待处理图像进行处理的步骤、图像语义分类模型的确定步骤以及生成目标对象的图像的步骤,从而可以更加准确的将目标图像从待处理图像中提取出来,实现有效的图像处理。

请继续参考图4,其示出了根据本申请的图像语义分类模型训练方法的一个实施例的流程400。该图像语义分类模型训练方法的流程400,包括以下步骤:

步骤401,获取初始图像语义分类模型。

在本实施例中,上述电子设备可以首先获取初始图像语义分类模型。初始语义分类模式可以是未经训练的图像语义分类模型或未训练完成的图像语义分类模型。例如,初始图像语义分类模型可以为未经训练的deeplab(semanticimagesegmentationwithdeepconvolutionalnetsandfullyconnectedcrfs)模型,其由vgg(verydeepconvolutionalnetworksforlarge-scaleimagerecognition)模型发展而来,上述deeplab模型和vgg模型均为谷歌公司开发的模型,其中vgg模型为2014年谷歌公司参与imagenet竞赛的一个模型,vgg为深度卷积神经网络的一种,其具体的模型结构为现有的公知技术,在此不再赘述。deeplab模型将vgg模型中的全连接层转化为卷积层,其包括多个卷积层,该卷积层可以全部为通用卷积层,可以全部为多孔卷积层,也可以为通用卷积层与多孔卷积层的混合。deeplab模型在卷积层的输出端连接一快速双线性插值,从而可以在输入图像的分辨率的基础上得到特征图像。在这里,deeplab模型通常由大量的节点(或称神经元)之间相互联接构成,每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(又叫做参数),网络的输出则依网络的连接方式、权重值和激励函数的不同而不同。每个卷积层包括多个节点,通常,同一卷积层的节点的权重可以相同,不同卷积层的节点的权重可以不同,初始图像语义分类模型的多个层的参数也可以不同。初始图像语义分类模型的各层可以设置有初始参数。

步骤402,获取包含有至少两个对象的样本图像的样本图像集合以及与每一个样本图像对应的分类样本图像。

在本实施例中,上述电子设备可以获取包含有至少两个对象的样本图像的样本图像集合以及与每一个样本图像对应的分类样本图像。在这里,上述分类样本图像中包含有至少两个灰度值,每一个灰度值对应的颜色用于表征同一类别的对象,其中,灰度值对应的颜色与对象类别之间的对应关系为预先标注的。

步骤403,将样本图像集合中的每一个样本图像作为输入,将与每一个样本图像对应的分类样本图像作为输出,训练初始图像语义分类模型,得到图像语义分类模型。

在本实施例中,基于步骤402所获取的样本图像集合中的每一个样本图像以及分类样本图像,电子设备可以将上述样本图像集合中的每一个样本图像作为输入,将与每一个样本图像对应的分类样本图像作为输出,训练上述初始图像语义分类模型,从而得到图像语义分类模型。这里,电子设备可以将每一个样本图像从初始图像语义分类模型的输入侧输入,依次经过初始图像语义分类模型的各层参数的处理,并从初始图像语义分类模型的输出侧输出,输出侧输出的信息即为该样本图像所对应的分类样本图像。

在本实施例的一些可选的实现方式中,利用反向传播算法或随机梯度下降算法,对初始图像语义分类模型进行调整,使得初始图像语义分类模型所输出的图像的损失误差达到第一预设阈值;将所得到的初始图像语义分类模型确定为图像语义分类模型。

作为示例,对于随机梯度下降算法,可以对初始图像语义分类模型设置损失函数,该损失函数例如可以为交叉熵损失函数、对数似然损失函数等,同时设置激活函数,例如可以为sigmoid激活函数、softmax激活函数等。对初始图像语义分类模型设置初始值,根据激活函数构建的每一卷积层的各节点之间的关系,带入损失函数多次求得偏导数,直到激活函数的偏导数不再变化或趋近于零,则将所得到的初始图像语义分类模型确定改为图像语义分类模型。对于反向传播算法,可以对初始图像语义分类模型预先设置一变量,通过链式法则确定损失函数对各参数的偏导数,直到该偏导数不再变化或趋近于零,则将所得到的初始图像语义分类模型确定改为图像语义分类模型。在这里,上述随机梯度下降算法或反向传播算法均为现有的公知技术,在此不再详细赘述。

进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于处理图像的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图5所示,本实施例的用于处理图像的装置500包括:获取单元501、处理单元502、分类图像获得单元503和图像生成单元504。其中,获取单元501配置用于获取包含至少两个对象的待处理图像;处理单元502配置用于对待处理图像进行处理,以使待处理图像达到预设分辨率;分类图像获得单元503配置用于将处理后的待处理图像输入至预先训练的图像语义分类模型中,得到分类图像,其中,图像语义分类模型用于表征输入的图像与分类图像之间的对应关系,分类图像为单通道颜色图像,包括的灰度值的数目等于所对应的输入的图像所包括的对象数;而图像生成单元504配置用于从所得到的分类图像中提取对象作为目标对象,并生成目标对象的图像。

在本实施例中,用于处理图像的装置500中:获取单元501、处理单元502、分类图像获得单元503和图像生成单元504的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204的相关说明,在此不再赘述。

在本实施例的一些可选的实现方式中,处理单元502包括:第一图像生成子单元(未示出),配置用于响应于待处理图像沿第一方向的像素数目大于沿第二方向的像素数目,调整待处理图像沿第一方向的像素数目,以使待处理图像沿第一方向的像素数目达到预设像素数目,并生成第一图像,其中,第一方向与第二方向相交;第一比值确定子单元(未示出),配置用于确定预设像素数目与待处理图像沿第一方向的像素数目的第一比值;第二图像生成子单元(未示出),配置用于基于第一比值调整第一图像沿第二方向的像素数目,得到第二图像;图像生成子单元(未示出),配置用于基于第二图像,生成目标对象的图像。

在本实施例的一些可选的实现方式中,图像生成子单元(未示出)进一步配置用于:响应于第二图像沿第二方向的像素数目小于预设像素数目,生成两张相同的增补图像,其中,各增补图像沿第一方向的像素数目与待处理图像沿第一方向的像素数目相同,各增补图像沿第二方向的像素数目为待处理图像沿第一方向的像素数目减去沿第二方向的像素数目的一半,各增补图像的灰度值为预设样本图像集合中的样本图像的平均灰度值;沿第二方向,将两张相同的增补图像分别设置于第二图像的两侧,并与第二图像拼接;将拼接后的第二图像确定为处理后的图像。

在本实施例的一些可选的实现方式中,图像语义分类模型为全卷积网络,全卷积网络包括卷积层以及反卷积层;以及分类图像获取单元进一步配置用于:将处理后的图像输入至卷积层,得到特征图像,其中,卷积层用于表征输入图像与特征图像之间的对应关系;将所得到的特征图像输入至反卷积层,得到分类图像,所得到的分类图像与处理后的待处理图像的尺寸相同。

在本实施例的一些可选的实现方式中,装置还包括图像语义分类模型训练单元(未示出),包括:第一获取子单元(未示出),配置用于获取初始图像语义分类模型;第二获取子单元(未示出),配置用于获取包含有至少两个对象的样本图像的样本图像集合以及与每一个样本图像对应的分类样本图像,分类样本图像中包含有至少两个灰度值,每一个灰度值对应的颜色用于表征同一类别的对象,其中灰度值对应的颜色与对象类别之间的对应关系为预先标注的;训练子单元(未示出),配置用于将样本图像集合中的每一个样本图像作为输入,将与每一个样本图像对应的分类样本图像作为输出,训练初始图像语义分类模型,得到图像语义分类模型。

在本实施例的一些可选的实现方式中,训练子单元(未示出)进一步配置用于:利用反向传播算法以及随机梯度下降算法,对初始图像语义分类模型进行调整,使得初始图像语义分类模型所输出的图像的损失误差达到第一预设阈值;将所得到的初始图像语义分类模型确定为图像语义分类模型。

在本实施例的一些可选的实现方式中,图像生成单元504包括:第三图像生成子单元(未示出),配置用于将所得到的分类图像中用于表征目标对象的灰度值设置为前景灰度值,将用于表征目标对象之外的对象的灰度值设置为背景灰度值,并生成第三图像;形态学图像生成子单元(未示出),配置用于对第三图像进行形态学处理,得到形态学图像,其中,形态学处理包括以下至少一项:腐蚀操作、二值化操作、膨胀操作;第四图像生成子单元(未示出),配置用于利用图割算法,对形态学图形进行处理,并生成第四图像;图像生成子单元(未示出),配置用于将第四图像中的前景图像的灰度值还原为待处理图像中对应位置处的灰度值,并生成目标对象的图像。

在本实施例的一些可选的实现方式中,第四图像生成子单元(未示出)进一步配置用于:基于形态学图像,执行如下处理步骤:响应于确定形态学图像中存在噪声,利用图割算法,对形态学图像降噪处理,并生成降噪图像;确定降噪图像中噪声的像素数目与形态学图像的像素数目的第二比值是否小于第二预设阈值;响应于确定第二比值小于第二预设阈值,则将降噪图像确定为第四图像;响应于确定第二比值大于第二预设阈值,则将降噪图像作为形态学图像,继续执行处理步骤。

下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有系统600操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、处理单元、分类图像获得单元和图像生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取包含至少两个对象的待处理图像的单元”。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取包含至少两个对象的待处理图像;对待处理图像进行处理,以使待处理图像达到预设分辨率;将处理后的待处理图像输入至预先训练的图像语义分类模型中,得到分类图像,其中,图像语义分类模型用于表征输入的图像与分类图像之间的对应关系,分类图像为单通道颜色图像,包括的灰度值的数目等于所对应的输入的图像所包括的对象数;从所得到的分类图像中提取对象作为目标对象,并生成目标对象的图像。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1