图像转换方法、装置、计算机设备和存储介质与流程

文档序号:21732426发布日期:2020-08-05 01:27阅读:106来源:国知局
图像转换方法、装置、计算机设备和存储介质与流程

本申请涉及计算机视觉技术领域,特别是涉及一种图像转换方法、装置、计算机设备和存储介质。



背景技术:

随着计算机视觉技术的不断发展,图像转换技术已逐渐成为当前人工智能领域的研究热点,并被广泛应用于各种社交应用及网站平台,如将具有人脸表情、姿态等信息的图像由真实拍摄风格转换为动漫风格,即将人脸动漫化。

传统技术中基于机器学习的图像转换方法,通常使用空洞卷积或可变形卷积,来增强机器学习网络中鉴别器对图像的感受野,解决了图像转换形变问题却并未考虑图像特征之间的关联性,以致图像转换质量不高、准确率较低。

因此,传统技术中的图像转换方法存在图像转换准确度低的问题。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够提高图像转换准确率的图像转换方法、装置、计算机设备和存储介质。

一种图像转换方法,所述方法包括:

获取第一图像;所述第一图像包含待转换对象的面部信息;

将所述第一图像输入至已训练的图像转换模型;所述图像转换模型用于提取出所述第一图像中所述待转换对象的面部特征,并基于所述面部特征生成所述待转换对象的第二图像;所述第二图像与所述第一图像具有不同图像风格;

基于所述已训练的图像转换模型输出的第二图像,得到所述第一图像对应的目标图像;其中,所述图像转换模型包括生成对抗网络,所述生成对抗网络包括生成器和鉴别器;所述生成器用于提取出所述待转换对象的所述面部特征,并基于所述面部特征生成所述第二图像;所述鉴别器用于在所述图像转换模型的训练过程中,辅助所述生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

一种图像转换装置,所述装置包括:

图像获取模块,用于获取第一图像;所述第一图像包含待转换对象的面部信息;

图像输入模块,用于将所述第一图像输入至已训练的图像转换模型;所述图像转换模型用于提取出所述第一图像中所述待转换对象的面部特征,并基于所述面部特征生成所述待转换对象的第二图像;所述第二图像与所述第一图像具有不同图像风格;

图像输出模块,用于基于所述已训练的图像转换模型输出的第二图像,得到所述第一图像对应的目标图像;其中,所述图像转换模型包括生成对抗网络,所述生成对抗网络包括生成器和鉴别器;所述生成器用于提取出所述待转换对象的所述面部特征,并基于所述面部特征生成所述第二图像;所述鉴别器用于在所述图像转换模型的训练过程中,辅助所述生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取第一图像;所述第一图像包含待转换对象的面部信息;

将所述第一图像输入至已训练的图像转换模型;所述图像转换模型用于提取出所述第一图像中所述待转换对象的面部特征,并基于所述面部特征生成所述待转换对象的第二图像;所述第二图像与所述第一图像具有不同图像风格;

基于所述已训练的图像转换模型输出的第二图像,得到所述第一图像对应的目标图像;其中,所述图像转换模型包括生成对抗网络,所述生成对抗网络包括生成器和鉴别器;所述生成器用于提取出所述待转换对象的所述面部特征,并基于所述面部特征生成所述第二图像;所述鉴别器用于在所述图像转换模型的训练过程中,辅助所述生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取第一图像;所述第一图像包含待转换对象的面部信息;

将所述第一图像输入至已训练的图像转换模型;所述图像转换模型用于提取出所述第一图像中所述待转换对象的面部特征,并基于所述面部特征生成所述待转换对象的第二图像;所述第二图像与所述第一图像具有不同图像风格;

基于所述已训练的图像转换模型输出的第二图像,得到所述第一图像对应的目标图像;其中,所述图像转换模型包括生成对抗网络,所述生成对抗网络包括生成器和鉴别器;所述生成器用于提取出所述待转换对象的所述面部特征,并基于所述面部特征生成所述第二图像;所述鉴别器用于在所述图像转换模型的训练过程中,辅助所述生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

上述图像转换方法、装置、计算机设备和存储介质,通过将包含有待转换对象的面部信息的第一图像输入至已训练的图像转换模型中,以使该图像转换模型提取出第一图像中待转换对象的面部特征,并基于该面部特征生成待转换对象的第二图像,最终得到第一图像对应的目标图像。采用本方法,利用已训练的图像转换模型针对第一图像中面部特征的分析,实现对第一图像在图像风格上的转换,可有效提高图像转换的准确率。

附图说明

图1为一个实施例中图像转换方法的应用环境图;

图2为一个实施例中图像转换方法的流程示意图;

图3为一个实施例中图像转换方法的效果示意图;

图4为一个实施例中图像转换模型的结构示意图;

图5为一个实施例中第一生成器的结构示意图;

图6为一个实施例中第一鉴别器的结构示意图;

图7为一个实施例中第二图像生成步骤的流程示意图;

图8为一个实施例中第一增强特征获取步骤的流程示意图;

图9为一个实施例中通过注意力机制加强特征的效果示意图;

图10为一个实施例中转换后的面部特征获取步骤的流程示意图;

图11为另一个实施例中第二图像生成步骤的流程示意图;

图12为一个实施例中第一图像获取步骤的流程示意图;

图13为一个实施例中模型训练步骤的流程示意图;

图14为一个实施例中图像转换置的结构框图;

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

首先需要说明的是,本发明实施例所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

其次需要说明的是,本申请所提供的图像替换方法,主要涉及于人工智能(artificialintelligence,ai),该技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,能够感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。而计算机视觉技术(computervision,cv)作为人工智能软件技术的研究方向之一,是一门研究如何使机器“看”的科学,其通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请所提出的图像转换方法,不仅需应用人工智能,还需应用计算机视觉技术中的图像处理等技术,以实现对图像转换准确度的有效提升。

最后需要说明的是,本申请所提供的图像转换方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104之间通过网络进行通信。实际应用中,用户可通过终端102向服务器104发送图像转换请求,以使服务器104在响应该请求并接收终端102发送的第一图像后,通过预置算法对该第一图像中待转换对象的面部信息进行图像风格转换,生成待转换对象的第二图像。例如,将包含有人类或动物面部信息的第一图像(真实拍摄图像)转换为素描、卡通或动漫等指定图像风格的第二图像。具体地,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。网络包含但不限于:广域网、城域网或局域网。

在一个实施例中,如图2所示,提供了一种图像转换方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:

步骤202,获取第一图像;所述第一图像包含待转换对象的面部信息。

其中,第一图像可以是指具有真实拍摄风格的图像,即通过相机等拍摄工具实际拍摄所得图像。同时,第一图像中包含有待转换对象的面部信息,该待转换对象可以是指人或动物等需转换图像风格的对象,面部信息可以包括面部表情、姿态、纹理等面部特征,也可以包括发型、发色等外观特征。

具体地,服务器104可通过终端102获取用户提交的第一图像,进而将第一图像作为后续处理依据,利用预置算法将其中的待转换对象,由第一图像中所具有的真实拍摄风格转换为具有素描、卡通或动漫等风格的第二图像。

更具体地,在实际应用中,服务器104针对第一图像中的待转换对象进行图像风格转换,主要表现为对待转换对象在面部信息上的风格转换,即包括面部表情、姿态、纹理以及发型发色等的风格转换。其中,姿态可以是指人或动物头部呈现的样子,具体可通过头部中轴线与水平方向、竖直方向的角度进行表征,例如与竖直方向呈45°夹角右偏的右侧脸、与竖直方向呈45°夹角左偏的左侧脸等;另一方面,表情是指表达在面部或姿态上的思想感情,例如,面部嘴角上扬所表达的微笑表情、面部嘴角下垂所表达的沮丧表情,又或者是姿态上垂头所表达的难过表情等。也即是说,服务器104可在获取第一图像之后,针对第一图像中待转换对象的面部信息,在维持面部信息转换前后不发生形变的基础上,将待转换对象的面部信息由图像风格a转换为图像风格b,又或者是反向转换。

步骤204,将所述第一图像输入至已训练的图像转换模型;所述图像转换模型用于提取出所述第一图像中所述待转换对象的面部特征,并基于所述面部特征生成所述待转换对象的第二图像;所述第二图像与所述第一图像具有不同图像风格。

其中,第二图像可以是指具有指定图像风格的图像,如具有素描、卡通、动漫等指定风格的图像,简称为卡通图像、动漫图像。

具体地,服务器104在获取得到第一图像之后,可将第一图像输入至已训练的图像转换模型中,以使图像转换模型基于预先训练学习到的算法,首先提取出第一图像中待转换对象的面部特征,进而根据面部特征生成待转换对象的第二图像。

更具体地,本实施例中提出的图像转换模型可以是两个结构相同、映射方向相反的生成对抗网络(generativeadversarialnetwork,gan),gan模型是一种深度学习模型,可应用于无监督图像转换(unsupervisedimagetranslation,uit)场景中,该模型通过框架中至少两个模型:生成模型(generativemodel)和判别模型(discriminativemodel)之间的互相博弈学习产生相当好的输出。其中,在图像转换模型的训练过程中,判别模型g的目标就是尽量生成真实的图片去欺骗判别模型d,而判别模型d的目标就是尽量把判别模型g生成的图片和真实的图片分别开来。如此,生成模型g和判别模型d之间就构成了一个动态的“博弈过程”。

需要说明的是,上述面部特征可以是指面部信息中的语义特征,而语义特征是指图像中融合有时空信息的事物抽象特征,例如,图像的语义分为视觉层、对象层和概念层,视觉层即通常所理解的底层,包括颜色、纹理和形状等等,这些特征都被称为底层特征语义;对象层即中间层,通常包含了属性特征等,就是某一对象在某一时刻的状态;概念层是高层,是图像表达出的最接近人类理解的东西。例如,一张图像包括有沙子、蓝天和海水等,其中视觉层是一块块的区分,对象层是沙子、蓝天和海水,概念层就是海滩,所有这些即为该图像所表现出的语义。因此,本实施例以及后续实施例中对面部特征进行的分析处理,实质为针对面部信息中语义特征进行的分析处理,包括语义对齐、语义转换等处理。

步骤206,基于所述已训练的图像转换模型输出的第二图像,得到所述第一图像对应的目标图像;其中,所述图像转换模型包括生成对抗网络,所述生成对抗网络包括生成器和鉴别器;所述生成器用于提取出所述待转换对象的所述面部特征,并基于所述面部特征生成所述第二图像;所述鉴别器用于在所述图像转换模型的训练过程中,辅助所述生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

其中,基于上述对生成对抗网络的解释可知,本实施例中提出的图像转换模型,实质为循环一致性生成对抗网络(cycleconsistencygenerativeadversarialnetwork,cyclegan),该循环一致性生成对抗网络包括一个a、b单向gan和一个b、a单向gan,两个gan共享两个生成器,并各带一个鉴别器,所以加起来总共有两个生成器和两个鉴别器。

同时,基于上述对生成模型g和判别模型d各自作用原理的解释,实际应用于本申请中,可视作生成对抗网络gan的生成器g倾向于生成足够真实的动漫图像,以使鉴别器d误以为其生成的是真实动漫图像而非合成动漫图像;而鉴别器d则努力鉴别输入的图像是真实动漫图像还是合成动漫图像,生成器g与鉴别器d的相互竞争不断促进双方的性能提升,最终使得生成器g生成的动漫图像足够真实,鉴别器d无法判断出输入的动漫图像是真实的还是合成的。

具体地,可参阅图3,包括多组第一图像进行图像转换后得到的第二图像,其中的第一图像即为具有真实拍摄风格的人脸图像,而第二图像则是具有动漫风格的人脸图像,即图3中所示的第一图像和第二图像,实质是本申请将人脸进行动漫化的效果示意图。

更具体地,基于本申请提供的方法,服务器104在获取到第一图像之后,仅需利用图像转换模型中的生成器g提取出其待转换对象的面部特征,并基于面部特征生成第二图像,即可得到第一图像对应的目标图像,该目标图像即为用户所需进行图像风格转换后的图像。然而,在此基础上,为了进一步提高目标图像的质量,同时确保图像转换模型在训练以及使用过程中的稳定性,本申请提出采用渐进式的策略训练模型,即通过生成器g与鉴别器d之间相辅相成的渐进式采样方式,促使生成器g生成的第二图像从粗糙渐进过渡到优质。换而言之,即由合成只含有粗糙轮廓与色块的第二图像,渐进过度到合成细节丰富、线条平滑、清晰高质量的第二图像。

例如,将包含有用户a面部信息的真实拍摄图像输入至图像转换模型中,可得到该用户a面部信息已由真实拍摄风格转换为动漫风格的第二图像,即用户a提交的真实拍摄图像被动漫化,可反馈相应的动漫图像。

上述图像转换方法中,通过将包含有待转换对象的面部信息的第一图像输入至已训练的图像转换模型中,以使该图像转换模型提取出第一图像中待转换对象的面部特征,并基于该面部特征生成待转换对象的第二图像,最终得到第一图像对应的目标图像。采用本方法,利用已训练的图像转换模型针对第一图像中面部特征的分析,实现对第一图像在图像风格上的转换,可有效提高图像转换的准确率。

在一个实施例中,所述已训练的图像转换模型为循环一致性生成对抗网络,所述循环一致性生成对抗网络包括第一生成对抗网络和第二生成对抗网络;

所述第一生成对抗网络,用于提取出所述第一图像中所述待转换对象的面部特征,并基于所述面部特征生成所述待转换对象的第二图像;

所述第二生成对抗网络,用于检测针对所述第二图像进行还原后得到的图像,是否与所述第一图像一致。

具体地,可参阅图4,图4所示为循环一致性生成对抗网络的结构示意图。图中生成器gs→t与鉴别器dt组成的结构即为第一生成对抗网络,而生成器gt→s与鉴别器ds组成的结构即为第二生成对抗网络,其中的“s”可表示为第一图像,“t”可表示为第二图像。因此,在第一生成对抗网络中,生成器gs→t的输入图像为第一图像“s”,输出图像为第二图像“t”,鉴别器dt的输入图像为第二图像“t”,其输出结果(真/假)由第二图像“t”确定;在第二生成对抗网络中,生成器gt→s的输入图像为第二图像“t”,输出图像为第一图像“s”,鉴别器ds的输入图像为第一图像“s”,其输出结果(真/假)由第一图像“s”确定。

更具体地,本申请提出将循环一致性生成对抗网络作为图像转换模型,对第一图像中待转换对象的面部特征进行图像风格转换,得到第一图像对应的目标图像,目的在于促进图像转换前后的语义保持一致,而不是生成任意的第二图像,因此使用循环一致性生成对抗网络,可要求转换得到的第二图像经过相反方向的映射可以得到原来输入的第一图像,二者之间转换结果一致可确保图像的转换准确率。

本实施例中,利用已训练的循环一致性生成对抗网络对第一图像中面部特征的分析,实现对第一图像在图像风格上的转换,可有效提高图像转换的准确率。

在一个实施例中,所述第一生成对抗网络包括第一生成器;所述第一生成器包括编码器和解码器;

所述第一生成器的编码器,用于提取出所述第一图像中所述待转换对象的面部特征;

所述第一生成器的解码器,用于基于所述待转换对象的面部特征,按照预设的渐进式图像生成方式,生成所述待转换对象的第二图像。

其中,编码器是将信号(如比特流)或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备,第一生成器中的编码器在本申请中的作用在于提取出图像中的面部特征。

其中,解码器是一种能将数字视音频数据流解码还原成模拟视音频信号的硬件/软件设备,在本申请中的作用在于对面部特征进行解码生成图像。

其中,渐进式图像生成方式可以是指基于模型结构中的渐进算法设置,将图像生成阶段分为多个,逐步生成图像的方式。

具体地,可结合图4所示第一生成对抗网络中的生成器gs→t,参阅图5所示该第一生成器gs→t的具体结构,即包括编码器es和解码器gt。其中的编码器es用于提取出第一图像xs中待转换对象的面部特征(c=1,2……c),解码器gt用于基于该待转换对象的面部特征,按照预设的渐进式图像生成方式,生成待转换对象的第二图像。

更具体地,编码器es提取到面部特征,可构成特征图,即特征向量,进而将该特征图作为后续处理依据,顺序实施基于注意力机制的特征增强处理以及自适应正则化的特征转换处理,得到转换后的面部特征即可由解码器gt按照预设的渐进式图像生成方式,如图中所示的上采样方式,在分阶段合成第二图像的过程中逐步提升第二图像的分辨率,得到高分辨率的第二图像。

本实施例中,利用已训练的第一生成对抗网络对第一图像中面部特征的分析,实现对第一图像在图像风格上的转换,可有效提高图像转换的准确率。

在一个实施例中,所述第一生成器还包括第一辅助分类器和特征转换模块;

所述第一辅助分类器,用于获取所述编码器的面部特征,并通过注意力机制,增强所述面部特征中的第一目标区域特征,得到第一增强特征;

所述特征转换模块,用于获取所述第一增强特征,并通过自适应正则化,将所述第一增强特征全局映射至预存的目标语义特征中,得到转换后的面部特征;所述转换后的面部特征用于供所述解码器生成所述第二图像;所述目标语义特征为具有所述第二图像中图像风格的语义特征。

其中,第一辅助分类器可实现基于cam(classactivationmapping)的注意力机制操作,在图5中表示为“ηs”。

其中,第一目标区域特征可以是指在图像转换过程中,会发生较大形变而需重点关注的指定区域中的面部特征。

其中,第一增强特征是指面部特征中第一目标区域特征被增强后的特征,在图5中表示为其中的是指第一图像xs中待转换对象的面部特征,wc表示不同面部特征对应的增强权重数。

其中,特征转换模块可以是基于自适应层级-实例级正则化(adaptivelayer-instancenormalization,adain)的残差模块,在图5中表示为“ts→t”。

其中,目标语义特征不单纯是指具有第二图像中图像风格的语义特征,还是指具有第二图像中图像风格的语义特征分布,即特征本身及其分布。

具体地,由于服务器104在将第一图像转换为第二图像的过程中,图像中待转换对象的面部特征往往会发生较大的几何形变,如脸型变化、眼睛形状和大小,以及嘴巴形状和大小等,仅仅依靠卷积网络(cnn)是不充分的,因此我们期望模型在处理图像转换的过程中,能够关注到第一图像中需要发生较大形变的特征区域,因为这些区域恰好是区分两类图像(第一图像与第二图像)的其中一个视觉表现,同样也是区分两个图像在图像风格上的不同。

进一步地,由于注意力机制可用于对特征进行重要性过滤,即让模型学会对重要部分的信息做增强、对不重要部分的信息做抑制。因此,本申请提出在cam(classactivationmapping)分类任务中,假设经过深度卷积网络提取到的特征,其不同特征通道是对不同语义区域的响应,则对应分类类别的权重能够对对应的特征通道起增强作用。而按照实际业务需求,我们期望线性变换层的权重能够强调特征中可明显区分两类图像(第一图像与第二图像)分布的区域,即图像特征的不同通道,由此本申请提出可结合注意力机制,在合成第二图像之前,首先对第一图像中提取到的面部特征做指定区域的特征增强处理,用以进一步提高图像转换准确率。

更具体地,服务器104通过第一辅助分类器ηs,基于注意力机制增强面部特征中的第一目标区域特征,并得到第一增强特征之后,可进一步通过特征转换模块ts→t,借鉴白化与着色的思想(将原分布正则化(减去均值,后除以标准差)为标准正态分布,再通过调制(乘以目标分布的标准差,后加上目标分布的均值)转换到目标分布),基于自适应正则化中的层级正则化(layernormalization)与实例级正则化(instancenormalization),将第一增强特征全局映射至预存的目标语义特征中,以得到转换后的面部特征,该转换后的面部特征可直接输入至解码器gt中,进行分阶段解码获取第二图像。

本实施例中,通过对第一图像中的面部特征基于注意力机制增强特征、以及自适应正则化转换特征,可有效提高图像转换的准确率。

在一个实施例中,所述第一生成对抗网络还包括第一鉴别器;所述第一鉴别器包括编码器;

所述第一鉴别器的编码器,用于在所述图像转换模型的训练过程中,提取出所述第二图像中所述待转换对象的面部特征,以基于所述面部特征,辅助所述第一生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

具体地,编码器是将信号(如比特流)或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备,第一鉴别器中的编码器在本申请中的作用在于:在图像转换模型的训练过程中,提取出第二图像中待转换对象的面部特征并基于该面部特征,辅助第一生成器gs→t从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

更具体地,可结合图4所示第一生成对抗网络中的鉴别器dt,参阅图6所示该第一鉴别器dt的具体结构,其中的编码器表示为该编码器实质可以是渐进式下采样模块,即对应第一生成器中解码器gt的渐进式上采样方式,通过渐进式下采样方式,将图像由高分辨率图像转换为低分辨率图像,在减少后续计算量的基础上,通过对低分辨图图像的细化分析与反馈,辅助第一生成器gs→t从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

进一步地,服务器104通过第一鉴别器的编码器提取面部特征的过程包括k个阶段,则在不同阶段可通过下述“if”式子进行特征采样:

其中,frgb(k)(*)用于将对应第k阶段的分辨率的图像作预编码,表示鉴别器dt下采样模块的第k层与后面部分,down(*)表示基于双线性插值的图像下采样,x(k)对应第k阶段分辨率的合成样本或伪样本。

本实施例中,利用已训练的第一鉴别器,辅助第一生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像,可有效提高图像转换的准确率。

在一个实施例中,所述第一鉴别器还包括第二辅助分类器和分类模块;

所述第二辅助分类器,用于在所述图像转换模型的训练过程中,获取所述第一鉴别器中所述编码器的面部特征,并通过注意力机制,增强所述面部特征中的第二目标区域特征,得到第二增强特征;

所述分类模块,用于根据所述第二增强特征,对所述第一生成器的第二图像进行分类,得到分类结果;所述分类结果用于辅助所述第一生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

其中,第二辅助分类器相比于第一辅助分类器,同样可实现基于cam(classactivationmapping)的注意力机制操作,在图6中表示为

其中,第二目标区域特征可以是指在图像转换过程中,造成第一生成器所生成第二图像被鉴别为合成图像(假)的指定区域中的面部特征。

其中,第二增强特征是指面部特征中第二目标区域特征被增强后的特征,在图6中表示为其中的是指编码器gt合成第二图像中的面部特征,wc表示不同面部特征对应的增强权重数。

其中,分类模块可以是用于对第二增强特征作若干层卷积处理,进而输出单通道特征鉴别结果的分类模块,在图6中表示为

具体地,第二辅助分类器的工作原理与第一辅助分类器相似,但也存在不同,不同之处在于:由于第一鉴别器dt的作用是准确判断输入图像是真实的第二图像(真)还是合成图像(假),因此对于合成图像来说,第二辅助分类器需起到不同于第一辅助分类器ηs的作用,即第一生成器gs→t生成的第二图像中,还有哪些区域特征是导致第一鉴别器dt准确判断其为合成图像(假)的。从而,通过反向传播让第一生成器gs→t更加关注此类目标区域特征的转换,而对于已经有较好转换效果的区域可以减少关注,确保模型稳定。

更具体地,服务器104通过第二辅助分类器基于注意力机制增强面部特征中的第二目标区域特征,并得到第二增强特征之后,可进一步通过分类模块对第二增强特征作若干层卷积,并输出其单通道特征的分类结果,即被分类为真实动漫图像(真的第二图像)的概率,进而基于该结果辅助第一生成器gs→t从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

本实施例中,利用已训练的第一鉴别器,辅助第一生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像,可有效提高图像转换的准确率。

在一个实施例中,如图7所示,所述第一生成器生成所述第二图像的步骤,包括:

步骤702,通过所述编码器中的下采样模块层和残差模块层,提取出所述第一图像中所述待转换对象的面部特征。

具体地,第一生成器gs→t中的下采样模块层和残差模块层,在编码器es中的结构布局可参阅图5。

更具体地,可记作为第一生成器gt→s输入图像的第一图像为“xs”,且xs∈r3×h×w。其中,3对应rgb图像的3个颜色通道,h与w分别对应图像的高度和宽度。服务器104在获取到第一图像xs后,可触发图像转换模型将第一图像xs经过由若干层2d卷积组成的下采样模块,以及由若干层残差块堆叠的残差模块,提取得到该第一图像xs的面部特征,表示为“es(xs)”,该面部特征es(xs)属于rc×h′×w′,其中,c表示通道数,h′与w′分别对应特征图谱的高度和宽度。

步骤704,通过所述第一生成器中的第一辅助分类器,对所述待转换对象的面部特征进行全局池化处理以及全连接处理,得到第一增强特征。

具体地,可参阅图5,服务器104通过编码器es获取得到第一图像xs中的面部特征es(xs)后,可将该面部特征es(xs)首先经过全局池化处理(globalaveragepooling,gap)或(globalmaximumpooling,gmp),然后经过单个全连接层的全连接处理,获取第一增强特征其中,gmp的分类性能与gap相当,因此在本实施例中可任选其一进行全局池化操作。

步骤706,通过所述第一生成器中的特征转换模块,对所述第一增强特征进行正则化处理以及调制融合处理,得到转换后的面部特征。

具体地,服务器104对第一增强特征进行的正则化处理,包括层正则化与实例级正则化,两种正则化处理将分别得到两个正则化结果,则可将两个正则化结果进行调制融合,进而使不同语义区域的特征分布从源域(具有真实拍摄风格的第一图像)转换至目标域(具有指定风格如动漫风格的第二图像),得到按照第二图像所有图像风格特征分布的面部特征,即转换后的面部特征。

步骤708,通过所述解码器,按照预设的渐进式图像生成方式,对所述转换后的面部特征进行分段解码,生成所述待转换对象的第二图像。

具体地,服务器104通过解码器gt,按照预设的渐进式图像生成方式生成第二图像的逻辑步骤,在上述实施例中已解释,在此不再赘述。

本实施例中,利用已训练的第一生成器对第一图像中面部特征的分析,实现对第一图像在图像风格上的转换,可有效提高图像转换的准确率。

在一个实施例中,如图8所示,步骤704包括:

步骤802,通过所述第一生成器中的第一辅助分类器,对所述待转换对象的面部特征进行全局池化处理,得到面部特征矩阵;

步骤804,通过所述第一辅助分类器中的全连接层,将所述面部特征矩阵与预设的全连接权重进行相乘,得到所述第一增强特征。

具体地,服务器104可通过第一辅助分类器进行全局池化处理(globalaveragepooling,gap)或(globalmaximumpooling,gmp),得到面部特征矩阵,然后经过单个全连接层进行全连接处理,判断输入的特征是来自源域(具有真实拍摄风格的第一图像)或目标域(具有指定风格如动漫风格的第二图像),两种处理方式可通过下述公式计算得到(σ表示为方差):

则可进一步将c个全连接层的权重wi(i=1,2,…,c)与对应面部特征es(xs)的各通道特征作矩阵乘法,即可得到第一增强特征c=1,2,…,c。而该第一增强特征可进一步表示为第一增强特征属于1≤h≤h,1≤w≤w。最终,服务器104通过第一辅助分类器,基于注意力机制实现特征增强的可视化效果可参阅图9。

本实施例中,利用已训练的第一生成器对第一图像中面部特征的分析,实现对第一图像在图像风格上的转换,可有效提高图像转换的准确率。

在一个实施例中,如图10所示,步骤706包括:

步骤1002,通过所述第一生成器中的特征转换模块,对所述第一增强特征进行层级正则化处理,得到层级特征,以及对所述第一增强特征进行实例级正则化处理,得到实例级增强特征。

具体地,通过特征转换模块,对第一增强特征(后续简记为a)进行层级正则化处理得到层级特征以及对第一增强特征a进行实例级正则化处理得到实例级增强特征可分别通过下述公式计算得到:

其中,μ表示均值、σ表示方差,ε是一个值较小的预设常量,c=1,2,…,c。

步骤1004,基于预设的模型学习参数,将所述层级特征与所述实例级增强特征进行特征融合,得到融合特征。

其中,预设的模型学习参数是指学习参数ρ。

具体地,融合特征可通过下述公式计算得到:

步骤1006,基于所述图像转换模型在训练过程学习到的缩放因子数和偏差因子数,对所述融合特征进行调制处理,得到特征调制参数。

其中,缩放因子数表示为γ、偏差因子数表示为β。

具体地,特征调制参数adain(a)可通过下述公式计算得到:

同时,为了防止学习参数ρ越界,可增加显示的截断,即:

ρ:=clip[0,1](ρ-τδρ)

其中,自适应调制的参数γ、β由第一增强特征a经过池化、再经过两个独立的多层感知器(multi-layerperceptron,mlp)变换得到,τ为学习率。

步骤1008,获取所述特征调制参数与所述第一增强特征之和,得到所述转换后的面部特征。

具体地,服务器104根据前面所述的预置算法计算得到特征调制参数adain(a)、第一增强特征a之后,可进一步计算两者之和,得到最终转换后的面部特征“a=a+adain(a)”。

本实施例中,利用已训练的第一生成器对第一图像中面部特征的分析,实现对第一图像在图像风格上的转换,可有效提高图像转换的准确率。

在一个实施例中,如图11所示,步骤708包括:

步骤1102,通过所述解码器,按照预设的渐进式图像生成方式,对所述转换后的面部特征进行分段解码;

步骤1104,若对所述转换后的面部特征的解码阶段为第一阶段,则通过所述解码器中的第一阶段解码器,对所述转换后的面部特征进行解码,生成所述第二图像;

步骤1106,若对所述转换后的面部特征的解码阶段为第n阶段,则通过所述解码器中的第n阶段解码器,获取上采样图像和模型训练参数,并根据所述上采样图像和所述模型训练参数,对所述转换后的面部特征进行解码,生成所述第二图像;n≥2。

具体地,服务器104通过解码器gt生成第二图像的过程,可分为k(1≤t≤ceil(log2r)-3)个阶段,其中的ceil函数表示取正无穷大方向的整数,r表示第二图像(第一图像的目标图像)的分辨率。

更具体地,在每个阶段1≤k≤k中,生成器合成图像的分辨率为则在不同阶段可通过下述“if”式子合成第二图像:

其中,“up”是基于双线性插值的图像上采样,a是一个随着模型训练线性递减的参数,torgb(k)(*)表示第k阶段的解码器,表示模块gt的前k层。

本实施例中,利用已训练的第一生成器对第一图像中面部特征的分析,实现对第一图像在图像风格上的转换,可有效提高图像转换的准确率。

在一个实施例中,如图12所示,步骤202包括:

步骤1202,获取包含待转换对象的面部信息的输入图像;

步骤1204,对所述输入图像进行面部识别,得到面部特征点;

步骤1206,根据所述面部特征点,提取出所述输入图像中的面部图像,作为所述第一图像;所述面部图像为包含所述面部特征点的预设剪裁尺寸的图像。

具体地,服务器104可在获取第一图像之前,首先获取由终端102发送的输入图像,而对输入图像进行面部识别可通过预训练的脸部检测器来实现,即通过脸部检测器检测输入图像中包括面部五官以及轮廓等的面部特征点,进而基于检测到的面部特征点,按照预设剪裁尺寸进行裁剪(如256×256大小),即可得到后续需输入至图像转换模型中的包含有待转换对象面部信息的第一图像。

本实施例中,通过识别输入图像中的面部特征点获取第一图像,不仅可提高图像质量,还可提高图像转换的准确率。

在一个实施例中,如图13所示,步骤202之前还包括:

步骤1302,获取训练图像;所述训练图像包括第一训练图像和第二训练图像;所述第一训练图像和所述第二训练图像具有不同图像风格;

步骤1304,将所述第一训练图像和所述第二训练图像,输入至预先建立的图像转换模型中进行模型训练;所述预先建立的图像转换模型中预设有目标函数;所述图像转换模型根据预先确定的模型框架建立;

步骤1306,获取所述预先建立的图像转换模型根据所述目标函数输出的训练结果;

步骤1308,若所述训练结果满足预设的条件,则结束所述图像转换模型训练,得到所述已训练的图像转换模型。

其中,目标函数根据对抗损失函数、循环一致性损失函数、独立性损失函数以及分类损失函数之间的加权求和确定。

其中,第一训练图像和第二训练图像可以是模型训练样本集中具有不同图像风格的训练图像,如第一训练图像为具有真实拍摄风格的训练图像,第二训练图像为具有动漫风格的训练图像。

其中,分类损失函数是指cam(classactivationmapping)分类损失函数。

具体地,本实施例中所指的目标函数,具体由对抗损失函数、循环一致性损失函数、独立性损失函数以及cam分类损失函数组成:

(1)对抗损失函数:

(2)循环一致性损失函数:

(3)独立性损失函数:

(4)cam分类损失函数:

其中,对抗损失函数用于拉近合成性第二图像的数据分布与真实性第二图像的数据分布,从而引导生成器将具有真实拍摄风格的第一图像转换成具有指定风格(动漫风格)的第二图像;循环一致性损失函数用于防止模式崩溃,同时增强第一图像与第二图像之间的语义相关性,要求转换后的第二图像经过相反方向的映射模型(第二生成器gt→s)后与原输入的第一图像基本一致;独立性损失函数用于确保图像转换模型的输入图像与输出图像的在颜色分布上是相近的,即要求当转换模型(第一生成器gs→t)输入的图像是第二图像时,应该不改变第一图像;cam分类损失函数用于通过对生成器与鉴别器各自的辅助分类器分别设计分类任务,基于cam的注意力机制引导生成器和鉴别器关注到造成两类图像数据分布不同的语义区域,专注于对这些语义区域的转换学习。

进一步地,在模型训练阶段,总的目标函数实际为上述四种函数的加权和,具体表示为:

其中,λi是用于权衡各个目标函数的权重,i=1,2,3,4。

此外,由于本申请中提出的图像转换模型为循环一致性生成对抗网络,因此,对抗损失函数而其他三个函数均需如此考虑。

更具体地,对于鉴别器d而言,作用在于尽可能区分出真实图像与合成图像,因此其期望d(x)尽可能的大,d(g(x))尽可能的小;对于生成器g而言,作用在于尽可能欺骗鉴别器d,进而期望d(g(x))尽可能的大,生成器g与鉴别器d之间相互对抗,满足目标函数所调制模型参数最小化的条件时,模型训练即可达到全局最优,此时结束图像转换模型的训练,即可得到已训练的图像转换模型。

本实施例中,通过设置目标函数训练图像转换模型,可使图像转换模型训练效果达到最优,进而提高图像转换的准确率。

本申请还提供一种应用场景,该应用场景应用上述的图像转换方法。具体地,该图像转换方法在该应用场景的应用如下:

用户a通过终端102向服务器104提交了一张包含有待转换对象面部信息的图像,如用户a的自拍大头照,终端102获取到该图像之后发送至服务器104,服务器104在获取到该用户a的自拍大头照之后,首先针对该自拍大头照进行面部识别,在得到图像中面部特征点的基础上,按照预设剪裁尺寸获取包含该面部特征点在一定尺寸范围内的面部图像,作为可输入至图像转换模型中的第一图像,从而使得已训练的图像转换模型得到具有真实拍摄风格的第一图像,如图3所示。

进一步地,由于上述图像转换模型在使用之前已经训练完成,且具体为循环一致性生成对抗网络,因此服务器104将处理好的第一图像输入至该模型之后,可通过模型中生成器包括的编码器、辅助分类器、特征转换器以及解码器,对第一图像进行编码提取面部特征、基于注意力机制增强面部特征、将增强后的面部特征进行语义对齐转换,以及最终解码转换后的面部特征,逐步合成得到具有动漫风格的第二图像,如图3所示,即可得到第一图像对应的目标图像,该图像转换过程即为图像风格转换过程,也即人脸动漫化过程。

然而,在其他实施例中,还可将具有真实拍摄风格的第一图像转换为具有素描风格、卡通风格等指定风格的第二图像,或反向转换,同时待转换对象不仅可以是不同类型的人脸,还可以是其他类型的动物脸等,在本申请中不作限制。

本实施例中,利用已训练的图像转换模型针对第一图像中面部特征的分析,实现对第一图像在图像风格上的转换,可有效提高图像转换的准确率。

应该理解的是,虽然图2、7-8、10-13的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、7-8、10-13中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图14所示,提供了一种图像转换装置1400,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:图像获取模块1402、图像输入模块1404和图像输出模块1406,其中:

图像获取模块1402,用于获取第一图像;所述第一图像包含待转换对象的面部信息;

图像输入模块1404,用于将所述第一图像输入至已训练的图像转换模型;所述图像转换模型用于提取出所述第一图像中所述待转换对象的面部特征,并基于所述面部特征生成所述待转换对象的第二图像;所述第二图像与所述第一图像具有不同图像风格;

图像输出模块1406,用于基于所述已训练的图像转换模型输出的第二图像,得到所述第一图像对应的目标图像;其中,所述图像转换模型包括生成对抗网络,所述生成对抗网络包括生成器和鉴别器;所述生成器用于提取出所述待转换对象的所述面部特征,并基于所述面部特征生成所述第二图像;所述鉴别器用于在所述图像转换模型的训练过程中,辅助所述生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

在一个实施例中,所述已训练的图像转换模型为循环一致性生成对抗网络,所述循环一致性生成对抗网络包括第一生成对抗网络和第二生成对抗网络;所述第一生成对抗网络,用于提取出所述第一图像中所述待转换对象的面部特征,并基于所述面部特征生成所述待转换对象的第二图像;所述第二生成对抗网络,用于检测针对所述第二图像进行还原后得到的图像,是否与所述第一图像一致。

在一个实施例中,所述第一生成对抗网络包括第一生成器;所述第一生成器包括编码器和解码器;所述第一生成器的编码器,用于提取出所述第一图像中所述待转换对象的面部特征;所述第一生成器的解码器,用于基于所述待转换对象的面部特征,按照预设的渐进式图像生成方式,生成所述待转换对象的第二图像。

在一个实施例中,所述第一生成器还包括第一辅助分类器和特征转换模块;所述第一辅助分类器,用于获取所述编码器的面部特征,并通过注意力机制,增强所述面部特征中的第一目标区域特征,得到第一增强特征;所述特征转换模块,用于获取所述第一增强特征,并通过自适应正则化,将所述第一增强特征全局映射至预存的目标语义特征中,得到转换后的面部特征;所述转换后的面部特征用于供所述解码器生成所述第二图像;所述目标语义特征为具有所述第二图像中图像风格的语义特征。

在一个实施例中,所述第一生成对抗网络还包括第一鉴别器;所述第一鉴别器包括编码器;所述第一鉴别器的编码器,用于在所述图像转换模型的训练过程中,提取出所述第二图像中所述待转换对象的面部特征,以基于所述面部特征,辅助所述第一生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

在一个实施例中,所述第一鉴别器还包括第二辅助分类器和分类模块;所述第二辅助分类器,用于在所述图像转换模型的训练过程中,获取所述第一鉴别器中所述编码器的面部特征,并通过注意力机制,增强所述面部特征中的第二目标区域特征,得到第二增强特征;所述分类模块,用于根据所述第二增强特征,对所述第一生成器的第二图像进行分类,得到分类结果;所述分类结果用于辅助所述第一生成器从生成粗糙的第二图像,渐进过渡到生成优质的第二图像。

在一个实施例中,图像输出模块1406还用于通过所述编码器中的下采样模块层和残差模块层,提取出所述第一图像中所述待转换对象的面部特征;通过所述第一生成器中的第一辅助分类器,对所述待转换对象的面部特征进行全局池化处理以及全连接处理,得到第一增强特征;通过所述第一生成器中的特征转换模块,对所述第一增强特征进行正则化处理以及调制融合处理,得到转换后的面部特征;通过所述解码器,按照预设的渐进式图像生成方式,对所述转换后的面部特征进行分段解码,生成所述待转换对象的第二图像。

在一个实施例中,图像输出模块1406还用于通过所述第一生成器中的第一辅助分类器,对所述待转换对象的面部特征进行全局池化处理,得到面部特征矩阵;通过所述第一辅助分类器中的全连接层,将所述面部特征矩阵与预设的全连接权重进行相乘,得到所述第一增强特征。

在一个实施例中,图像输出模块1406还用于通过所述第一生成器中的特征转换模块,对所述第一增强特征进行层级正则化处理,得到层级特征,以及对所述第一增强特征进行实例级正则化处理,得到实例级增强特征;基于预设的模型学习参数,将所述层级特征与所述实例级增强特征进行特征融合,得到融合特征;基于所述图像转换模型在训练过程学习到的缩放因子数和偏差因子数,对所述融合特征进行调制处理,得到特征调制参数;获取所述特征调制参数与所述第一增强特征之和,得到所述转换后的面部特征。

在一个实施例中,图像输出模块1406还用于通过所述解码器,按照预设的渐进式图像生成方式,对所述转换后的面部特征进行分段解码;若对所述转换后的面部特征的解码阶段为第一阶段,则通过所述解码器中的第一阶段解码器,对所述转换后的面部特征进行解码,生成所述第二图像;若对所述转换后的面部特征的解码阶段为第n阶段,则通过所述解码器中的第n阶段解码器,获取上采样图像和模型训练参数,并根据所述上采样图像和所述模型训练参数,对所述转换后的面部特征进行解码,生成所述第二图像;n≥2。

在一个实施例中,图像获取模块1402还用于获取包含待转换对象的面部信息的输入图像;对所述输入图像进行面部识别,得到面部特征点;根据所述面部特征点,提取出所述输入图像中的面部图像,作为所述第一图像;所述面部图像为包含所述面部特征点的预设剪裁尺寸的图像。

在一个实施例中,图像转换装置1400还包括模型训练模块,用于获取训练图像;所述训练图像包括第一训练图像和第二训练图像;所述第一训练图像和所述第二训练图像具有不同图像风格;将所述第一训练图像和所述第二训练图像,输入至预先建立的图像转换模型中进行模型训练;所述预先建立的图像转换模型中预设有目标函数;所述图像转换模型根据预先确定的模型框架建立;获取所述预先建立的图像转换模型根据所述目标函数输出的训练结果;若所述训练结果满足预设的条件,则结束所述图像转换模型训练,得到所述已训练的图像转换模型。

关于图像转换装置的具体限定可以参见上文中对于图像转换方法的限定,在此不再赘述。上述图像转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像转换模型训练参数。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像转换方法。

本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1