一种图像处理方法及相关设备与流程

文档序号:17332081发布日期:2019-04-05 22:08阅读:164来源:国知局
一种图像处理方法及相关设备与流程

本申请涉及人工智能领域和仿生视觉领域,尤其涉及一种图像处理方法及相关设备。



背景技术:

目前,人工视网膜成像图像的像素普遍处于1000+以下,并且受制于现有的电极制造、能量传输、植入体封装技术水平和安全性等方面的原因,仿生视觉假体成像像素仍难以发生飞跃性提升。仿生视觉假体图像的低像素会导致信息的大量丢失,从而造成使用者难以对场景和物体进行辨认。针对该问题,现有技术采取了先对获取到的图像进行图像信息预校正再进行图像信息简化和增强的应对方法,然而这种方法无法实现特定目标的图像信息简化与增强,更不能得到特定的物体信息。现有技术还引入了机器学习的方法对图像进行处理并提示障碍物,但该方法不针对特定物体的显示,从而无法直接提高失明患者与物体的交互能力。此外,现有技术还提出了使用图像意义识别模块来识别图像中的意义的设想,并设计单独的几个像素作为指示灯来表示不同的物体,但该技术不仅没有给出意义识别模块的实现方法,而且指示灯可表示的物体信息极其有限,无法满足对不同类别、不同风格和不同视角的物体进行识别的需求。



技术实现要素:

本申请实施例提供一种图像处理方法及相关设备。可以提升图像像素化的效果、提高物体图像中目标物体的辨识度。

本申请实施例第一方面提供了一种图像处理方法,包括:

获取第一图像集合和第二图像集合,所述第一图像集合包括多张真实物体图像,所述第二图像集合包括多张像素物体图像,所述多张真实物体图像和所述多张像素物体图像中包含至少一种类别的第一目标物体;

确定所述至少一种类别的第一目标物体中每种类别的第一目标物体的类别信息、以及随机生成语义信息向量;

将所述第一图像集合中包含同一类别的第一目标物体的真实物体图像、所述第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、所述同一类别的第一目标物体的类别信息、以及所述语义信息向量输入待训练模型进行训练,得到图像像素化模型;

根据所述图像像素化模型,对待识别的第一物体图像进行处理得到所述第一物体图像的显示图像,所述显示图像用于对所述第一物体图像中的第二目标物体的进行现实增强。

其中,所述根据所述图像像素化模型,对待识别的第一物体图像进行处理得到所述第一物体图像的显示图像包括:

确定所述第一物体图像中的所述第二目标物体;

从所述第一物体图像中裁剪出包含所述第二目标物体的第二物体图像;

将所述第二物体图像输入所述图像像素化模型得到所述第二物体图像对应的像素物体图像;

将所述第二物体图像对应的像素物体图像和所述第一物体图像进行合并得到所述显示图像。

其中,所述将所述第一图像集合中包含同一类别的第一目标物体的真实物体图像、所述第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、所述同一类别的第一目标物体的类别信息、以及所述语义信息向量输入待训练模型进行训练,得到图像像素化模型包括:

将所述第一图像集合中包含同一类别的第一目标物体的真实物体图像、所述第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、所述同一类别的第一目标物体的类别信息、以及语义信息向量输入第一待训练模型进行训练,得到图像生成模块和图像判别模块,所述图像判别模块中包括真实物体图像判别单元和像素物体图像判别单元;

将所述语义信息向量和所述每种类别的第一目标物体的类别信息输入第二待训练模型进行训练,得到图像编码模块,所述第二待训练模型中包括所述图像生成模块、所述真实物体图像判别单元和所述像素物体图像判别单元;

根据所述图像生成模块和所述图像编码模块,确定所述图像像素化模型。

其中,所述图像编码模块包括真实物体图像编码单元,所述真实物体图像编码单元用于获取所述第二目标物体的语义信息和类别信息;

所述图像生成模块包括像素物体图像生成单元,所述像素物体图像生成单元用于根据所述第二目标物体的语义信息向量和类别信息生成所述第二物体图像对应的像素物体图像;

所述根据所述图像生成模块、所述图像判别模块和所述图像编码模块,确定所述图像像素化模型包括:

将所述真实物体图像编码单元和所述像素物体图像生成单元进行组合得到所述图像像素化模型。

其中,所述确定所述第一物体图像中的第二目标物体包括:

将所述第一物体图像中尺寸大于预设阈值的物体作为所述第二目标物体。

其中,所述将所述第二物体图像对应的像素物体图像和所述第一物体图像进行合并得到所述显示图像包括:

获取所述第二物体图像在所述第一物体图像中的位置信息;

根据所述位置信息,将所述第二物体图像对应的像素物体图像和所述第一物体图像进行合并得到所述显示图像。

其中,所述将所述第二物体图像对应的像素物体图像和所述第一物体图像进行合并得到所述显示图像包括:

根据所述位置信息,将所述第二物体图像对应的像素物体图像和所述第一物体图像进行合并得到所述显示图像。

其中,所述将所述第二物体图像对应的像素物体图像和所述第一物体图像进行合并得到所述显示图像之前,还包括:

对所述第一物体图像进行降采样。

其中,所述确定所述第一物体图像中的所述第二目标物体之前,还包括:

对所述第一物体图像进行图像增强。

相应地,本申请实施例第二方面提供了一种图像处理装置,包括:

样本采集模块,用于获取第一图像集合和第二图像集合,所述第一图像集合包括多张真实物体图像,所述第二图像集合包括多张像素物体图像,所述多张真实物体图像和所述多张像素物体图像中包含至少一种类别的第一目标物体;

模型训练模块,用于确定所述至少一种类别的第一目标物体中每种类别的类别信息、以及随机生成语义信息向量;

所述模型训练模块,还用于将所述第一图像集合中包含同一类别的第一目标物体的真实物体图像、所述第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、所述同一类别的第一目标物体的类别信息、以及所述语义信息向量输入待训练模型进行训练,得到图像像素化模型;

图像处理模块,用于根据所述图像像素化模型,对待识别的第一物体图像进行处理得到所述第一物体图像的显示图像,所述显示图像用于对所述第一物体图像中的第二目标物体的进行现实增强。

其中,所述图像处理模块还用于:

确定所述第一物体图像中的所述第二目标物体;

从所述第一物体图像中裁剪出包含所述第二目标物体的第二物体图像;

将所述第二物体图像输入所述图像像素化模型得到所述第二物体图像对应的像素物体图像;

将所述第一物体图像和所述第二物体图像对应的像素物体图像进行合并得到所述显示图像。

其中,所述模型训练模块还用于:

将所述第一图像集合中包含同一类别的第一目标物体的真实物体图像、所述第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、所述同一类别的第一目标物体的类别信息、以及所述语义信息向量输入第一待训练模型进行训练,得到图像生成模块和图像判别模块,所述图像判别模块中包括真实物体图像判别单元和像素物体图像判别单元;

将所述语义信息向量和所述每种类别的第一目标物体的类别信息输入第二待训练模型得到图像编码模块,所述第二待训练模型中包括所述图像生成模块、所述真实物体图像判别单元和所述像素物体图像判别单元;

根据所述图像生成模块和所述图像编码模块,确定所述图像像素化模型。

其中,所述图像编码模块包括真实物体图像编码单元,所述真实物体图像编码单元用于获取所述第二目标物体的语义信息向量和类别信息;

所述图像生成模块包括像素物体图像生成单元,所述像素物体图像生成单元用于根据所述第二目标物体的语义信息向量和类别信息生成所述第二物体图像对应的像素物体图像;

所述模型训练模块,还用于:

将所述真实物体图像编码单元和所述像素物体图像生成单元进行组合得到所述图像像素化模型。

其中,所述图像处理模块还用于:

将所述第一物体图像中尺寸大于预设阈值的物体作为所述第二目标物体。

其中,所述图像处理模块还用于:

获取所述第二物体图像在所述第一物体图像中的位置信息;

根据所述位置信息,合并所述第二物体图像对应的像素物体图像和所述第一物体图像。

其中,所述图像处理模块还用于:

对所述第一物体图像进行降采样;和/或

对所述第一物体图像进行图像增强。

本申请实施例第三方面公开了一种电子设备,包括:处理器、存储器、通信接口和总线;

所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;

所述存储器存储可执行程序代码;

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行本申请实施例第一方面公开的一种图像处理方法中的操作。

相应地,本申请提供了一种存储介质,其中,所述存储介质用于存储应用程序,所述应用程序用于在运行时执行本申请实施例第一方面公开的一种图像处理方法。

相应地,本申请提供了一种应用程序,其中,所述应用程序用于在运行时执行本申请实施例第一方面公开的一种图像处理方法。

实施本申请实施例,首先获取第一图像集合和第二图像集合,其中,第一图像集合包括多张真实物体图像,第二图像集合包括多张像素物体图像,多张真实物体图像和多张像素物体图像中包含至少一种类别的第一目标物体;接着确定至少一种类别的第一目标物体中每种类别的第一目标物体的类别信息、以及随机生成语义信息向量;然后将第一图像集合中包含同一类别的第一目标物体的真实物体图像、第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、该同一类别的第一目标物体的类别信息、以及随机生成的语义信息向量输入待训练模型进行训练,得到图像像素化模型;最后根据图像像素化模型,对待识别的第一物体图像进行处理得到第一物体图像的显示图像。其中,可以将图像像素化模型输出的像素物体图像(虚拟图像)与第一物体图像(真实图像)合并作为显示图像,在该显示图像中第一物体图像的第二目标物体得到了现实增强,因此后续在其他设备或场景中可以基于该显示图像对第一物体图像中的第二目标物体进行识别。其中,通过对物体图像进行像素化处理解决了因有效像素低导致难以表达物体结构的问题,并且在对物体图像进行像素化处理的过程中充分保留了目标物体的语义信息,进一步提升了图像像素化模型的像素化效果和物体的现实增强效果,使得后续基于获得的显示图像不仅可以进行物体类别的识别,还可以实现对物体的风格和视角等特征的识别从而达到区分同一类别的不同风格、不同视角的物体的目的,大大提高了物体识别的准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的流程示意图;

图2-1是本申请实施例提供的一种真实物体图像处理的示意图;

图2-2是本申请实施例提供的一种像素物体图像处理的示意图;

图3是本申请实施例提供的一种训练样本图像的集合示意图;

图4是本申请实施例提供的一种图像判别模块和图像生成模块的训练流程示意图;

图5是本申请实施例提供的一种图像编码模块的训练过程的示意图;

图6是本申请实施例提供的一种图像像素化模型的结构示意图;

图7是本申请实施例提供的另一种图像处理方法的流程示意图;

图8是本申请实施例提供的一种图像合并的流程示意图;

图9是本申请实施例提供的一种图像处理装置的结构示意图;

图10是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参考图1,图1是本申请实施例提供的一种图像处理方法的流程示意图。如图所示,本申请实施例中的方法包括:

s101,获取第一图像集合和第二图像集合,所述第一图像集合包括多张真实物体图像,所述第二图像集合包括多张像素物体图像,所述多张真实物体图像和所述多张像素物体图像中包含至少一种类别的第一目标物体。

具体实现中,真实物体图像可以是利用手机、照相机等设备拍摄的真实物体的成像图像。像素物体图像可以是计算机合成的用于形象的表示真实物体的图像。例如,图2-1和2-2分别为真实物体图像和像素物体图像。针对每种类别的目标物体(如杯子、座椅等),可以搜集不同风格和视角的真实图像放入第一图像集合中,例如,同时搜集茶杯、高脚杯、咖啡杯以及矮脚杯的真实图像放入第一图像集合中,以及搜集不同风格和视角的像素物体图像放入第二图像集合中。其中,第一图像集合中目标物体的类别和类别总数量与第二图像集合中目标物体的类别和类别总数量相同。其中,可以将第一图像集合和第二图像集合中真实物体图像和像素物体图像分别记为xo-real和xp-real。更具体地,可以将第m种类别的目标物体的真实物体图像和像素物体图像分别记为xo-real-m和xp-real-m。

例如,如图3所示,第一图像集合和第二图像集合包括第1种类别的目标物体“杯子”的多张不同风格和视角的真实物体图像和像素物体图像、第2种类别的目标物体(座椅)的多张不同风格和视角的真实物体图像和像素物体图像、...、以及第m种类别的目标物体“xxx”的多张不同风格和视角的真实物体图像和像素物体图像。

s102,确定所述至少一种类别的第一目标物体中每种类别的第一目标物体的类别信息、以及随机生成语义信息向量。

具体实现中,语义信息向量(记为z)可以为n维的随机向量,n为100、200等任意整数,其中,可以按照截断的标准正态分布随机生成z中的数据。需要说明的是,针对本申请实施例所采用的非监督学习方法,待训练模型在学习过程中将逐渐对z中每个维度的数据赋予意义,在随机生成z的过程中并不指定任意数据的实际意义。例如,对于目标物体“杯子”,待训练模型训练完成后,z中第一维数据可以表示杯子高度、第二维数据可以表示杯底面积、第三维数据可以表示杯子的口径。可以看到,每个维度的数据被赋予的意义均表示物体的一项语义信息,因此将z称为语义信息向量。

此外,每种类别的目标物体的类别信息可以为k维的向量c,其中,k与第一图像集合中的真实物体图像所包含的目标物体的类别总数相等,例如,如图3所示,第一图像集合中包含m种类别的目标物体,则c的维度为m。其中,c中的数值只能取0或1,第m种类别的目标物体的类别信息c可以用(1)式表示。在(1)式中,c[n]表示c的第n个维度的元素。此外,每种类别的目标物体的类别信息还可以用不同的标识(如字母、数字等)来表示,如用a表示“杯子”、b表示“座椅”。

例如:如图3所示,第1种类别的目标物体(杯子)的类别信息为c1=[1,0,0,...,0]、第2种类别的目标物体(座椅)的类别信息为c2=[0,1,0,...,0]、…、第m种类别的目标物体(xxx)的类别信息为cm=[0,0,0,...,1]。其中,c1,c2,...,cm的维度均为m。

s103,将所述第一图像集合中包含同一类别的第一目标物体的真实物体图像、所述第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、所述同一类别的第一目标物体的类别信息、以及所述语义信息向量输入待训练模型进行训练,得到图像像素化模型。

具体实现中,针对每种类别的第一目标物体,可以将第一图像集合中包含该类别的第一目标物体的真实物体图像、第二图像集合中包含该类别的第一目标物体的像素物体图像、该类别的第一目标物体的类别信息、以及随机生成的语义信息向量输入第一待训练模型进行训练。最终得到图像生成模块g和图像判别模块d。其中,g中包括真实物体图像生成部分go、像素物体图像生成部分gp以及权值共享部分gshare。d中包括真实物体图像判别部分do、像素物体图像判别部分dp以及权值共享部分dshare。

第一待训练模型的具体结构和训练过程如图4所示。其中,具体包括以下几个操作步骤:

(1)可以将随机生成第m种类别的目标物体的语义信息向量z与该类别的目标物体的类别信息c进行合并得到c°z,其中,m=1,2,…,m,c°z可以为z和c的拼接结果。例如,z=[0.23,0.56,...,0.1],c=[0,1,0,...,0],则c°z=[0,1,0,...,0,0.23,0.56,...,0.1]。

需要说明的是,在整个训练过程中c所起的作用分为两个方面,一方面是作为类别信息与z进行合并。另一方面是作为训练样本指示器,控制第一图像集合和第二图像集合中的图像的输入。例如:训练样本如图3所示,当c=[0,1,0,...,0]时,向待训练模型中输入第一图像集合和第二图像集合中的xo-real-2和xo-fake-2。

(2)将c°z输入gshare中,gshare通过反卷积运算将c°z变换为四维张量g=[b,12,12,c]。其中,b为z的批大小,c为通道数。其中,在训练过程中根据模型的收敛情况对b进行动态调整,c的大小则可以根据模型复杂度的要求进行调整。接着,go通过反卷积运算将g变换为真实物体图像xo-fake,gp通过反卷积运算将g变换为像素物体图像xp-fake。因此,可以将gp和gshare的组合作为g中的像素物体图像生成单元、以及将go和gshare的组合作为g中的真实物体图像生成单元。其中,xo-fake的图像尺寸可以但不限于为48*48,xp-fake的图像尺寸可以但不限于为24*24。

(3)将xo-fake和xp-fake分别输入do和dp中,以及将xo-real和xp-real分别输入do和dp中,输入第几种类别的xo-real和xp-real由c确定。其中,do和dp可以将输入其中每张图片与卷积核进行卷积,以得到每张图片对应的四维张量d=[b,12,12,c]。然后dshare通过对每张图片对应的d进行卷积运算和逻辑回归运算,将d转换成长度为1的向量r。r用于判别输入d中的图像是来自第一图像集合和第二图像集合中的真实采集到的图像(r=1),还是g根据c°z伪造的图像(r=0)。

需要说明的是,第一图像集合中的真实物体图像在采集时大小不限,但在输入待训练模型之前,需要对其进行缩放,其中,可以但不限于将其大小缩放为48*48。第二图像集合中的像素物体图像的尺寸则被限制在特定范围,其中,可以但不限于将第二图像集合中的像素物体图像的尺寸限制在24*24以内,并且有效像素可以小于24*24。

在上述过程中可以看出,g与d将形成对抗关系:g不断伪造图像xo-fake和xp-fake,试图欺骗d,使d将xo-fake和xp-fake判别为真实图像;d则试图区分xo-real、xp-real和xo-fake、xp-fake,将前者判别为真实图像,将后者判别为伪造图像。因此,针对第一待训练模型进行训练的目标函数如(2)式所示。

其中,e表示求数学期望。可以选择合适的超参数(超参数是在开始训练之前设置的参数),并利用梯度下降法对第一待训练模型进行训练。随着(2)式的收敛,g生成的伪造图像xo-fake和xp-fake将越来越接近真实图像xo-real和xp-real。并且本申请实施例中的方法设置了权值共享部分gshare用来保证xo-fake和xp-fake具有相同的语义信息。也就是说,在训练完成后,即(2)式的收敛程度满足一定条件后,将一个c°z输入g,g就可以伪造一对真实物体图像和像素物体图像,并且它们具有相同的类别、风格和视角。

在得到g和d后,可以将每种类别的第一目标物体的c°z分别输入第二待训练模型得到图像编码模块e。如图5所示,在第二待训练模型中包括训练好的图像生成模块g、训练好的d中的do和dp、以及权值共享部分eshare,其中,do、dp和eshare共同组成了e。

在第二待训练模型的训练过程中,可以随机生成语义信息向量z,并将对应的c°z输入g中,以使c°z伪造一对具有相同风格和视角的真实物体图像xo-fake和像素物体图像xp-fake,其中,m=1,2,…,m;接着将分别利用do和dp生成xo-fake和xp-fake对应的四维张量d1和d2;然后eshare对d1和d2进行卷积,将其分别变换为c1′°z1′和c2′°z2′,c1′°z1′和c2′°z2′是与c°z具有相同维度的向量。其中,可以将do和eshare的组合作为e中的真实物体图像编码单元,将dp和eshare的组合作为e中的像素物体图像编码单元。

针对第二待训练模型进行训练的目的是训练e,以使e可以对输入其中的图像进行编码得到输入图像的语义信息向量和类别信息,从而使得e能够将g根据c°z生成的图像重新还原为c°z。因此。针对第二待训练模型进行训练的目标函数如(3)式所示。

其中,可以选择合适的超参数,并利用梯度下降法对第二待训练模型进行训练,直到(3)式的收敛程度满足预设条件。

最后,如图6所示,可以将真实物体图像编码单元(do+eshare)和像素物体图像生成单元(gp+gshare)进行组合得到图像像素化模型(y),y满足如(4)式所示的非线性映射关系。其中,将任意真实物体图像xo输入y中就可得到对应的像素物体图像xp。

y:xp=gp(gshare(eshare(do(xo)))))(4)

s104,根据所述图像像素化模型,对待识别的第一物体图像进行处理得到所述第一物体图像的显示图像,所述显示图像用于对所述第一物体图像中的第二目标物体进行现实增强。

具体实现中,本申请实施例中的执行主体可以是人工视网膜或其他电子设备,其中,待识别的第一物体图像可以是人工视网膜或其他电子设备自行拍摄的真实物体图像、或接收到其他设备输入的真实物体图像。人工视网膜或其他电子设备可以调取训练好的图像像素化模型对待识别的物体图像进行像素化处理,以便得到该物体图像的显示图像,其中,在该显示图像中第一物体图像中的目标物体得到了现实增强,因此可以将该显示图像传输给其他设备进行物体识别,其中,其他设备基于该显示图像不仅可以进行物体类别的识别,还可以识别物体的风格和视角等物体特征,从而达到区分同一类别的不同风格、不同视角的物体的目的。当执行主体为人工视网膜时,人工视网膜可以接着将该显示图像传输到眼球内的电极阵列,对视网膜神经进行刺激使得使用者看到该图像,相比于上述第一物体图像,该显示图像可以帮助使用者更加准确地进行物体感知。例如,帮助使用者在座椅中准确区分可旋转座椅和不可旋转座椅。

在本申请实施例中,首先获取第一图像集合和第二图像集合,其中,第一图像集合包括多张真实物体图像,第二图像集合包括多张像素物体图像,多张真实物体图像和多张像素物体图像中包含至少一种类别的第一目标物体;接着确定至少一种类别的第一目标物体中每种类别的第一目标物体的类别信息、以及随机生成语义信息向量;然后将第一图像集合中包含同一类别的第一目标物体的真实物体图像、第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、该同一类别的第一目标物体的类别信息、以及语义信息向量输入待训练模型进行训练,得到图像像素化模型;最后根据图像像素化模型,对待识别的第一物体图像进行处理得到第一物体图像的显示图像,该显示图像用于对第一物体图像中的第二目标物体的物体进行现实增强。其中,通过对物体图像进行像素化处理解决了因有效像素低导致难以表达物体结构的问题,并且在对物体图像进行像素化处理的过程中充分保留了目标物体的语义信息,进一步提升了图像像素化的效果和物体的显示增强效果,从而提高了物体识别的准确度。

请参考图7,图7是本申请实施例提供的另一种图像处理方法的流程示意图。如图所示,本申请实施例中的方法包括:

s701,获取第一图像集合和第二图像集合,第一图像集合包括多张真实物体图像,第二图像集合包括多张像素物体图像,其中,多张真实物体图像和多张像素物体图像中包含至少一种类别的第一目标物体。本步骤与上一实施例中的步骤s101相同,本步骤不再赘述。

s702,根据第一图像集合和第二图像集合,训练图像像素化模型。

具体实现中,可以首先确定第一图像集合和第二图像集合中的多张真实物体图像和多张像素物体图像中包含的至少一种类别的第一目标物体中每种类别的类别信息;接着随机生成语义信息向量;然后将第一图像集合中包含同一类别的第一目标物体的真实物体图像、第二图像集合中包含该同一类别的第一目标物体的像素物体图像、该同一类别的第一目标物体的类别信息、以及随机生成的语义信息向量输入待训练模型进行训练,得到图像像素化模型。

s703,从待识别的第一物体图像中裁剪出包含第二目标物体的第二物体图像。

具体实现中,本申请实施例的执行主体可以是人工视网膜或其他电子设备,其中,待识别的第一物体图像可以是人工视网膜或其他电子设备自行拍摄的真实物体图像、或接收到其他设备输入的真实物体图像。其中,可以首先利用目标检测算法对第一物体图像中的一个或多个物体进行检测,并将尺寸大于预设阈值的物体作为第一物体图像中的目标物体,若不存在尺寸大于预设阈值的物体,则无需对第一物体图像进行裁剪和像素化处理。其中,目标检测算法包括但不限于adaboost算法、神经网络算法和支撑向量机算法。为了提高目标检测效果,在进行目标检测之前还可以对第一物体图像进行图像增强,如滤波去噪、灰度化和直方图均衡等。在裁剪出第二物体图像之后,对第二物体图像在第一物体图像中的位置信息进行记录。位置信息可以但不限于为第二物体图像左上角第一个像素点的坐标p(n,m)。

例如:在人工视网膜中,若体外相机拍摄到的真实物体图像x的尺寸为w*h、图像像素化模型输出的像素化物体图像xp的尺寸为w*h、且人工视网膜的分辨率为w′*h′,则选择x中物体尺寸宽度大于w*w/w′、且高度大于h*w/h′的物体作为x中的目标物体。

s704,将第二物体图像输入图像像素化模型得到第二物体图像对应的像素物体图像。

具体实现中,在将第二物体图像xo输入图像像素化模型之前,可以先对xo的图像大小进行缩放。例如,将xo的尺寸缩放为48*48。

s705,将第二物体图像对应的像素物体图像和第一物体图像进行合并得到第一物体图像的显示图像。

具体实现中,可以首先获取第二物体图像xo在第一物体图像x中的位置信息,其中,该位置信息可以是在裁剪第二物体图像时记录的p(n,m)。接着根据位置信息,合并第一物体图像x和第二物体图像对应的像素物体图像xp。其中,可以首先对x进行降采样,得到降采样图像x′,其中,可以先按照一定的速率降低正常采样率,再按照降低后的正常采样率对x进行采样。而在人工视网膜假体中,可以按照人工视网膜假体的分辨率对x进行采样。接着根据p(n,m)确定xp在x′中的位置信息为p′(n′,m′)=(n*w′/w,m*h′/h)。然后将xp进行缩放,使得其宽为w*w′/w,高为h*h′/h。最后根据p′,将xp合并到x′中。若xp中以黑色像素为有效像素(黑色像素的rgb值0,白色像素的rgb值为255),则可以根据(5)式合并x′和xp,其中x′(n′+n,m′+m)表示x′中坐标为(n′+n,m′+m)的像素点的像素值,xp(n,m)表示xp中坐标为(n,m)的像素点的像素值。

如图8所示,为了取得更好的图像显示效果,对x′使用反相效果,则可以根据(6)式合并x′和xp。

例如:如图8所示,首先对图像x降采样,降采样x′中的目标物体“杯子”变得十分模糊难以辨认;接着将从x裁剪出来的图像xo输入图像像素化模型得到像素物体图像xp;然后将xp合并入x′,得到显示图像y。如图所示,在y中“杯子”被像素化显示,且保留了原来的风格和视角。

在获得的显示图像中第一物体图像包含的目标物体得到了现实增强,可以将该显示图像传输给其他设备进行物体识别,其中,其他设备基于该显示图像不仅可以进行物体类别的识别,还可以识别物体的风格和视角等物体特征,从而达到区分同一类别的不同风格、不同视角的物体的目的。而在人工视网膜中则可以显示该显示图像,以帮助使用者更加准确地进行物体感知,例如,帮助使用者在座椅中准确区分可旋转座椅和不可旋转座椅。

在本申请实施例中,首先检测待识别的第一物体图像中的目标物体;然后从第一物体图像中裁剪出包含目标物体的第二物体图像;接着利用训练好的图像像素化模型对第二物体图像进行像素化处理。最后将像素化处理后的第二物体图像与第一物体图像进行合并作为第一物体图像的显示图像,并利用该显示图像进行物体感知或识别,使得第一物体图像中的目标物体能够在低分辨率条件下进行像素化的重建,并且保持风格、视角等图像语义的不变性和人类对其的可理解性。将本申请实施例中的方法应用于人工视网膜,能够有效改进现有人工视网膜有效像素低,难以表达物体结构的问题,提升人工视网膜的智能化水平,增强失明患者与物体的交互能力。

请参考图9,图9是本申请实施例提供的一种图像处理装置的结构示意图。如图所示,本申请实施例中的装置包括:

样本采集模块901,用于获取第一图像集合和第二图像集合,第一图像集合包括多张真实物体图像,第二图像集合包括多张像素物体图像,多张真实物体图像和多张像素物体图像中包含至少一种类别的第一目标物体。

具体实现中,真实物体图像可以是利用手机、照相机等设备拍摄的真实物体的成像图像。像素物体图像可以是计算机合成的用于形象的表示真实物体的图像。例如,图2-1和2-2分别为真实物体图像和像素物体图像。针对每种类别的目标物体(如杯子、座椅等),可以搜集不同风格、不同视角的真实图像放入第一图像集合中,例如,同时搜集茶杯、高脚杯、咖啡杯以及矮脚杯的真实图像放入第一图像集合中,以及搜集不同风格、不同视角的像素物体图像放入第二图像集合中。其中,第一图像集合中目标物体的类别和类别总数量与第二图像集合中目标物体的类别和类别总数量相同。其中,可以将第一图像集合和第二图像集合中真实物体图像和像素物体图像分别记为xo-real和xp-real。更具体地,可以将第m种类别的目标物体的真实物体图像和像素物体图像分别记为xo-real-m和xp-real-m。

模型训练模块902,用于确定至少一种类别的第一目标物体中每种类别的第一目标物体类别信息、以及随机生成语义信息向量。

具体实现中,语义信息向量z可以n维的随机z,n为100、200等任意整数。其中,可以按照截断的标准正态分布随机生成z中的数据。需要说明的是,针对本申请实施例所采用的非监督学习方法,待训练模型在学习过程中将逐渐对z中每个维度的数据赋予意义。

此外,每种类别的目标物体的类别信息可以为k维的向量c,其中,k与第一图像集合中的真实物体图像所包含的目标物体的类别总数相等,例如,如图3所示,第一图像集合中包含m种类别的目标物体,则c的维度为m。其中,c中的数值只能取0或1,第m种类别的目标物体的类别信息c可以用(1)式表示。在(1)式中,c[n]表示c的第n个维度的元素。

模型训练模块902,还用于将所述第一图像集合中包含同一类别的第一目标物体的真实物体图像、所述第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、所述同一类别的第一目标物体的类别信息、以及语义信息向量输入待训练模型进行训练,得到图像像素化模型。

具体实现中,针对每种类别的第一目标物体,可以将第一图像集合中包含该类别的第一目标物体的真实物体图像、第二图像集合中包含该类别的第一目标物体的像素物体图像、该类别的第一目标物体的类别信息、以及随机生成的语义信息向量输入第一待训练模型进行训练。最终得到图像生成模块g和图像判别模块d。其中,g中包括真实物体图像生成部分go、像素物体图像生成部分gp以及权值共享部分gshare。d中包括真实物体图像判别部分do、像素物体图像判别部分dp以及权值共享部分dshare。

第一待训练模型的具体结构和训练过程如图4所示。其中,具体包括以下几个操作步骤:

(1)可以将随机生成第m种类别的目标物体对应的z分别与该类别的目标物体的类别信息c进行合并得到对应的c°z,其中,m=1,2,…,m,c°z可以为z和c的拼接结果。

(2)将c°z输入gshare中,gshare可以通过反卷积运算将c°z变换为四维张量g=[b,12,12,c]。其中,b为z的批大小,c为通道数。其中,在训练过程中需要根据训练时模型的收敛情况对b进行动态调整,c的大小可以根据模型复杂度的要求进行调整。接着,go通过反卷积运算将g变换为真实物体图像xo-fake,gp通过反卷积运算将g变换为像素物体图像xp-fake。因此,可以将gp和gshare的组合作为g中的像素物体图像生成单元、以及将go和gshare的组合作为g中的真实物体图像生成单元。其中,xo-fake的图像尺寸可以但不限于为48*48,xp-fake的图像尺寸可以但不限于为24*24。

(3)将xo-fake和xp-fake分别输入do和dp中,以及将xo-real和xp-real分别输入do和dp中,输入第几种类别的xo-real和xp-real由c确定。其中,do和dp可以将输入其中每张图片与卷积核进行卷积,以得到每张图片对应的四维张量d=[b,12,12,c]。然后dshare通过对每张图片对应的d进行卷积运算和逻辑回归运算,将d转换成长度为1的向量r。r用于判别输入d中的图像是来自第一图像集合和第二图像集合中的真实采集到的图像(r=1),还是g根据c°z伪造的图像(r=0)。

需要说明的是,第一图像集合中的真实物体图像在采集时大小不限,但在输入待训练模型之前,需要对其进行缩放,其中,可以但不限于将其大小缩放为48*48。第二图像集合中的像素物体图像的尺寸则被限制在特定范围,其中,可以但不限于将第二图像集合中的像素物体图像的尺寸限制在24*24以内,并且有效像素可以小于24*24。

在上述过程中可以看出,g与d将形成对抗关系:g不断伪造图像xo-fake和xp-fake,试图欺骗d,使d将xo-fake和xp-fake判别为真实图像;d则试图区分xo-real、xp-real和xo-fake、xp-fake,将前者判别为真实图像,将后者判别为伪造图像。因此,针对第一待训练模型进行训练的目标函数如(2)式所示。其中,可以选择合适的超参数,并利用梯度下降法对第一待训练模型进行训练。随着(2)式的收敛,g生成的伪造图像xo-fake和xp-fake将越来越接近真实图像xo-real和xp-real。并且本申请实施例设置了权值共享部分gshare用来保证xo-fake和xp-fake具有相同的语义信息。也就是说,在训练完成后,即(2)式的收敛程度满足一定条件后,将一个c°z输入g,g就可以伪造一对相似的真实物体图像和像素物体图像,并且它们具有相同的类别、风格和视角。

在得到g和d后,可以将每种类别的第一目标物体的c°z分别输入第二待训练模型得到图像编码模块e。如图4所示,在第二待训练模型中包括训练好的图像生成模块g、训练好的d中的do和dp、以及权值共享部分eshare,其中,do、dp和eshare共同组成了e。

在第二待训练模型的训练过程中,可以随机生成语义信息向量z,并将对应的c°z输入g中,以使c°z伪造一对具有相同风格和视角的、相似的真实物体图像xo-fake和像素物体图像xp-fake,其中,m=1,2,…,m;接着将分别利用do和dp生成xo-fake和xp-fake对应的四维张量d1和d2;然后eshare对d1和d2进行卷积,将其分别变换为c1′°z1′和c2′°z2′。其中,可以将do和eshare的组合作为e中的真实物体图像编码单元,将dp和eshare的组合作为e中的像素物体图像编码单元。

针对第二待训练模型进行训练的目的是训练e,以使e可以对输入其中的图像进行编码得到输入图像的语义信息向量和类别信息,从而使得e能够将g根据c°z生成的图像重新还原为c°z。因此。针对第二待训练模型进行训练的目标函数如(3)式所示。其中,可以选择合适的超参数,并利用梯度下降法对第二待训练模型进行训练,直到(3)式的收敛程度满足预设条件。

最后,如图5所示,可以将真实物体图像编码单元和像素物体图像生成单元进行组合得到图像像素化模型(y)。将任意真实物体图像xo输入y中就可得到对应的像素物体图像xp。

图像处理模块903,用于根据图像像素化模型,对待识别的第一物体图像进行处理得到第一物体图像的显示图像,所述显示图像用于对第一物体图像中的第二目标物体进行识别。

具体实现中,待识别的第一物体图像可以是电子设备自行拍摄的真实物体图像、或接收到其他设备输入的真实物体图像。其中,可以调取训练好的图像像素化模型对该物体图像进行像素化处理,以便得到该物体图像的显示图像。

具体地,可以首先利用目标检测算法对第一物体图像中的一个或多个物体进行检测,并将尺寸大于预设阈值的物体作为第一物体图像中的目标物体,并从第一物体图像中裁剪出包含第二目标物体的第二物体图像。在裁剪出第二物体图像之后,对第二物体图像在第一物体图像中的位置信息进行记录。位置信息可以但不限于为第二物体图像左上角第一个像素点的坐标p(n,m)。

接着,将第二物体图像输入图像像素化模型得到第二物体图像对应的像素物体图像。其中,在将第二物体图像xo输入图像像素化模型之前,可以先对xo的图像大小进行缩放。例如,将xo的大小缩放为48*48。

然后,将第二物体图像对应的像素物体图像和第一物体图像进行合并得到第一物体图像的显示图像。其中,可以首先获取第二物体图像xo在第一物体图像x中的位置信息,该位置信息可以是在裁剪第二物体图像是记录的p(n,m),。

最后根据位置信息,合并第一物体图像和第二物体图像对应的像素物体图像xp。其中,可以首先对x进行降采样得到降采样图像x′,并根据p(n,m)确定xp在x′中位置信息为p′(n′,m′)=(n*w′/w,m*h′/h)。接着将xp进行缩放,使得其宽为w*w′/w,高为h*h′/h。然后根据p′,将xp合并到x′中。若xp中以黑色像素为有效像素(黑色像素的rgb值0,以及白色像素的rgb值为255),则可以根据(5)式合并x′和xp,其中x′(n′+n,m′+m)表示x′中坐标为(n′+n,m′+m)的像素点的像素值,xp(n,m)表示xp中坐标为(n,m)的像素点的像素值。

可选地,为了取得更好的图像显示效果,对x′使用反相效果,则可以根据可以根据(6)式合并x′和xp。

在本申请实施例中,首先获取第一图像集合和第二图像集合,其中,第一图像集合包括多张真实物体图像,第二图像集合包括多张像素物体图像,多张真实物体图像和多张像素物体图像中包含至少一种类别的第一目标物体;接着确定至少一种类别的第一目标物体中每种类别的第一目标物体类别信息、以及随机生成语义信息向量;然后将第一图像集合中包含同一类别的第一目标物体的真实物体图像、第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、该同一类别的第一目标物体的类别信息、以及随机生成的语义信息向量输入待训练模型进行训练,得到图像像素化模型;最后根据图像像素化模型,对待识别的第一物体图像进行处理得到第一物体图像的显示图像,该显示图像用于对第一物体图像中的第二目标物体的物体进行显示增强。其中,通过对物体图像进行像素化处理解决了因有效像素低导致难以表达物体结构的问题,并且在对物体图像进行像素化处理的过程中充分保留了目标物体的语义信息,进一步提升了图像像素化的效果,使得后续基于获得的显示图像不仅可以进行物体类别的识别,还可以实现对物体特征的识别从而实现对同一类别的不同风格、不同视角的物体的区分,大大提高了物体识别的准确度。

请参考图10,图10是本申请实施例提出的一种电子设备的结构示意图。如图所示,该电子设备可以包括:至少一个处理器1001,例如cpu,至少一个通信接口1002,至少一个存储器1003,至少一个总线1004。其中,总线1004用于实现这些组件之间的连接通信。其中,本申请实施例中电子设备的通信接口1002是有线发送端口,也可以为无线设备,例如包括天线装置,用于与其他节点设备进行信令或数据的通信。存储器1003可以是高速ram存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1003可选的还可以是至少一个位于远离前述处理器1001的存储装置。存储器1003中存储一组程序代码,且处理器1001用于调用存储器中存储的程序代码,用于执行以下操作:

获取第一图像集合和第二图像集合,所述第一图像集合包括多张真实物体图像,所述第二图像集合包括多张像素物体图像,所述多张真实物体图像和所述多张像素物体图像中包含至少一种类别的第一目标物体;

确定所述至少一种类别的第一目标物体中每种类别的第一目标物体类别信息、以及随机生成语义信息向量;

将所述第一图像集合中包含同一类别的第一目标物体的真实物体图像、所述第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、以及所述同一类别的第一目标物体的类别信息、以及所述语义信息向量输入待训练模型进行训练,得到图像像素化模型;

根据所述图像像素化模型,对待识别的第一物体图像进行处理得到所述第一物体图像的显示图像,所述显示图像用于对所述第一物体图像中的第二目标物体进行现实增强。

其中,处理器1001还用于执行如下操作步骤:

确定所述第一物体图像中的所述第二目标物体;

从所述第一物体图像中裁剪出包含所述第二目标物体的第二物体图像;

将所述第二物体图像输入所述图像像素化模型得到所述第二物体图像对应的像素物体图像;

将所述第一物体图像和所述第二物体图像对应的像素物体图像进行合并得到所述显示图像。

其中,处理器1001还用于执行如下操作步骤:

将所述第一图像集合中包含同一类别的第一目标物体的真实物体图像、所述第二图像集合中包含所述同一类别的第一目标物体的像素物体图像、所述同一类别的第一目标物体的类别信息、以及所述语义信息向量输入第一待训练模型进行训练,得到图像生成模块和图像判别模块,所述图像判别模块中包括真实物体图像判别单元和像素物体图像判别单元;

将所述语义信息向量和所述每种类别的第一目标物体的类别信息输入第二待训练模型得到图像编码模块,所述第二待训练模型中包括所述图像生成模块、所述真实物体图像判别单元和所述像素物体图像判别单元;

根据所述图像生成模块和所述图像编码模块,确定所述图像像素化模型。

其中,所述图像编码模块包括真实物体图像编码单元,所述真实物体图像编码单元用于获取所述第二目标物体的语义信息向量和类别信息;

所述图像生成模块包括像素物体图像生成单元,所述像素物体图像生成单元用于根据所述第二目标物体的语义信息向量和类别信息生成所述第二物体图像对应的像素物体图像;

处理器1001还用于执行如下操作步骤:

将所述真实物体图像编码单元和所述像素化图像生成单元进行组合得到所述图像像素化模型。

其中,处理器1001还用于执行如下操作步骤:

将所述第一物体图像中尺寸大于预设阈值的物体作为所述第二目标物体。

其中,处理器1001还用于执行如下操作步骤:

获取所述第二物体图像在所述第一物体图像中的位置信息;

根据所述位置信息,将所述第二物体图像对应的像素物体图像和所述第一物体图像进行合并得到所述显示图像

其中,处理器1001还用于执行如下操作步骤:

对所述第一物体图像进行降采样;和/或

对所述第一物体图像进行图像增强。

需要说明的是,本申请实施例同时也提供了一种存储介质,该存储介质用于存储应用程序,该应用程序用于在运行时执行图1和图7所示的一种图像处理方法中电子设备执行的操作。

需要说明的是,本申请实施例同时也提供了一种应用程序,该应用程序用于在运行时执行图1和图7所示的一种图像处理方法中电子设备执行的操作。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1