用于处理图像交互的方法和装置与流程

文档序号:18027917发布日期:2019-06-28 22:20阅读:177来源:国知局
用于处理图像交互的方法和装置与流程

本申请要求2017年12月20日在韩国知识产权局递交的韩国专利申请no.10-2017-0175942的权益,其全部公开内容通过引用合并于此以用于所有目的。

以下描述涉及处理图像交互。



背景技术:

已经提出了将交互应用于图像的图像处理技术。为了实现增强现实(ar),处理图像交互以将虚拟世界与真实世界相结合。已经提出了将与用户的交互应用于图像中的对象以增强体验感并实现更加真实的ar的技术。

为处理图像交互,从二维(2d)图像中提取三维(3d)信息并重建3d图像。为应用交互,广泛使用了在对3d图像进行渲染之后生成2d图像的技术。而且,正在积极地开展对基于神经网络的交互处理技术的研究。然而,因为此类操作或应用是通过非常专门的计算架构来执行的,并且采用了与它们以非计算机实现或非自动化方式实现的不同的自动化方式,因此,它们也导致了仅由于其实现所使用的自动化的且专门的计算架构方式而出现的问题或缺点。例如,由于需要大量信息,因此在使用3d信息的技术中发生大量错误,并由此降低了可用性。而且,由于对设置的交互的处理的限制,因此降低了与基于神经网络的交互处理相关的研究的可扩展性。因此,需要一种保证图像交互处理的良好性能且具有相对高的可扩展性的图像交互处理技术。



技术实现要素:

提供了本发明内容以介绍下面在具体实施方式中进一步描述的对简化形式的理念的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征,也不意在用作帮助确定所请求保护的主题的范围。

在一个总的方面,提供了一种处理图像交互的方法,该方法包括:使用编码器从输入图像中提取输入特征,基于用于应用于输入图像的交互将输入特征转换为第二特征,以及使用解码器根据第二特征生成结果图像。

转换输入特征可以包括:将与交互相对应的特征图与输入特征相组合,以及使用转换网络,将与特征图组合的输入特征转换为可适合于解码器的输入的第二特征。

特征图可以包括与交互相对应的值。

该方法可以包括:从用户输入中识别用于应用于输入图像的交互,其中,转换输入特征可以包括,使用与所识别的交互相对应的值来生成用于与输入特征组合的特征图。

转换输入特征可以包括:将输入特征与对应于第一交互的第一特征图和对应于第二交互的第二特征图相组合,以及将与第一特征图和第二特征图组合的输入特征转换为可适合于解码器的输入的第二特征。

转换输入特征可以包括:从针对每个交互定义的转换网络中选择与交互相对应的转换网络,以及使用所选择的转换网络,将输入特征转换为第二特征。

该方法可以包括:从用户输入中识别用于应用于输入图像的交互,其中,转换输入特征还可包括:从转换网络中识别与所识别的交互相对应的转换网络。

输入图像和结果图像可以是单通道二维(2d)图像,输入特征可以包括空间大小比输入图像的空间大小小的特征图,以及第二特征可以包括空间大小比结果图像的空间大小小的特征图。

输入图像的空间大小可以等于结果图像的空间大小。

编码器可以包括被配置为根据单通道2d图像生成多通道特征的卷积神经网络(cnn),并且解码器可以包括被配置为根据多通道特征生成单通道2d图像的cnn。

交互可以包括对输入图像中的对象的旋转、移动和变换中的任何一种或任何组合。

在另一总的方面,提供了一种处理图像交互的训练方法,该训练方法包括:使用编码器从训练输入图像中提取训练输入特征,基于用于应用于训练输入图像的交互,使用转换网络将训练输入特征转换为第二特征,使用解码器根据第二特征生成训练结果图像,以及对转换网络进行训练,使得训练结果图像与通过将交互应用于训练输入图像而生成的图像大致相同。

转换训练输入特征可以包括:将与交互相对应的特征图与训练输入特征相组合,以及使用转换网络,将与特征图组合的训练输入特征转换为可适合于解码器的输入的第二特征。

转换训练输入特征可以包括:将训练输入特征与对应于第一交互的第一特征图和对应于第二交互的第二特征图相组合,以及使用转换网络,将与第一特征图和第二特征图组合的训练输入特征转换为可适合于解码器的输入的第二特征。

转换训练输入特征可以包括:响应于与交互相对应的特征图不存在,对第一特征图应用权重,以及使用转换网络,将与第一特征图组合的训练输入特征转换为可适合于解码器的输入的第二特征。

转换训练输入特征可以包括:响应于与交互相对应的特征图不存在,将第一特征图与第二特征图相组合以获取组合的特征图,以及使用转换网络,将与组合的特征图组合的训练输入特征转换为可适合于解码器的输入的第二特征。

转换训练输入特征可以包括:从针对每个交互定义的转换网络中选择与交互相对应的转换网络,以及使用所选择的转换网络,将训练输入特征转换为第二特征。

训练方法可以包括:对编码器和解码器进行训练,使得训练结果图像可以与通过将交互应用于训练输入图像而生成的图像大致相同。

训练输入特征可以由编码器从训练输入图像中提取,训练结果图像可以由解码器根据训练输入特征生成,以及编码器和解码器可以被预先训练为使得训练输入图像与训练结果图像大致相同。

在又一总的方面,提供了一种处理图像交互的装置,该装置包括:处理器,包括编码器和解码器,该处理器被配置为:使用编码器从输入图像中提取输入特征,基于用于应用于输入图像的交互,将输入特征转换为第二特征,以及使用解码器根据第二特征生成结果图像。

处理器可以被配置为:将与交互相对应的特征图与输入特征相组合,以及使用转换网络,将与特征图组合的输入特征转换为可适合于解码器的输入的第二特征。

处理器可以被配置为:将输入特征与对应于第一交互的第一特征图和对应于第二交互的第二特征图相组合,以及将与第一特征图和第二特征图组合的输入特征转换为可适合于解码器的输入的第二特征。

处理器可以被配置为:从针对每个交互定义的转换网络中选择与交互相对应的转换网络,以及使用所选择的转换网络,将输入特征转换为第二特征。

输入图像和结果图像可以是单通道二维(2d)图像,输入特征可以包括空间大小比输入图像的空间大小小的特征图,以及第二特征可以包括空间大小比结果图像的空间大小小的特征图。

编码器可以包括被配置为根据单通道2d图像生成多通道特征的卷积神经网络(cnn),并且解码器可以包括被配置为根据多通道特征生成单通道2d图像的cnn。

交互可以包括对输入图像中的对象的旋转、移动和变换中的任何一种或任何组合。

在另一总的方面,提供了一种处理图像交互的训练方法,该训练装置包括包含编码器和解码器在内的处理器,该处理器被配置为:使用编码器从训练输入图像中提取训练输入特征,基于用于应用于训练输入图像的交互,使用转换网络将训练输入特征转换为第二特征,使用解码器根据第二特征生成训练结果图像,以及对转换网络进行训练,使得训练结果图像与通过将交互应用于训练输入图像而生成的图像大致相同。

处理器可以被配置为:将与交互相对应的特征图与训练输入特征相组合,以及使用转换网络,将与特征图组合的训练输入特征转换为可适合于解码器的输入的第二特征。

处理器可以被配置为:将训练输入特征与对应于第一交互的第一特征图和对应于第二交互的第二特征图相组合,以及使用转换网络,将与第一特征图和第二特征图组合的训练输入特征转换为可适合于解码器的输入的第二特征。

处理器可以被配置为:从针对每个交互定义的转换网络中选择与交互相对应的转换网络,以及使用所选择的转换网络,将训练输入特征转换为第二特征。

其他特征和方面将通过以下详细描述、附图和权利要求变得清楚明白。

附图说明

图1示出了图像交互处理方法的示例。

图2是示出图像交互处理方法的示例的图。

图3示出了特征转换操作的示例。

图4示出了图像交互处理方法的示例。

图5示出了特征转换操作的示例。

图6示出了特征转换操作的示例。

图7示出了图像交互处理方法的示例。

图8示出了图像交互处理方法的示例。

图9示出了用于处理图像交互的训练方法的示例。

图10是示出用于处理图像交互的训练方法的示例的图。

图11示出了用于处理图像交互的训练方法的示例。

图12示出了装置的配置的示例。

在整个附图和详细描述中,除非另有描述或提供,否则相同的附图标记应被理解为指代相同的元件、特征以及结构。附图不必按比例绘制,并且为了清楚、示出和方便,可以扩大附图中的元件的相对尺寸、比例和描绘。

具体实施方式

提供以下详细描述以帮助读者获得对本文所描述的方法、装置和/或系统的全面理解。然而,在理解了本申请的公开内容之后,本文描述的方法、装置和/或系统的各种变型、改型和等同物将是显而易见的。例如,本文所述的操作的顺序仅仅是示例,并不限于本文中阐述的那些顺序,而是可以被改变成在理解本申请的公开内容之后将是显而易见的顺序,除了期望操作必须以某一顺序出现之外。此外,为了更加清楚和简洁,可以省略本领域已知的特征的描述。

本文所述的特征可以以不同的形式来体现,并且不被解释为限于本文所述的示例。相反,本文所述的示例仅仅是为了说明实现本文所述的方法、装置和/或系统的许多可能方式中的一些方式而提供的,这些方法、装置和/或系统在理解了本申请的公开内容之后将是显而易见的。

本公开所公开的示例的以下结构或功能描述仅仅出于描述示例的目的,且示例可以以各种形式实施。示例不意在限制,而是旨在在权利要求的范围内覆盖各种修改、等价物和替代方案。

尽管使用“第一”或“第二”的术语来解释各种组件,但组件不限于这些术语。这些术语应该仅用于将一个组件与另一组件区分开来。例如,在根据本公开的构思的权利范围内,“第一”组件可以被称为“第二”组件,或者类似地,“第二”组件可以被称为“第一”组件。

将理解的是,当提及一个组件“连接”到另一个组件时,该组件可以直接连接或耦接到该另一个组件,或者可以存在介于中间的组件。除非上下文另外清楚指示,否则本文中使用的单数形式也意在包括复数形式。

在下文中,将参考附图来详细描述示例,并且贯穿附图的附图中相同的参考数字用于表示相同或相似的元件。

根据示例,图像交互处理装置(在下文中,被称为“图像处理装置”)是用于处理图像交互的装置,且在硬件模块上实现。在示例中,图像处理装置生成或处理与图像交互有关的操作、算术运算或命令。

在示例中,图像处理装置被包括在各种类型的产品中,例如智能代理、移动电话、蜂窝电话、智能电话、可穿戴智能设备(诸如环、手表、眼镜、眼镜式设备、手环、脚环、带、项链、耳环、头带、头盔、嵌入衣服中的设备或眼镜显示器(egd))、服务器、个人计算机(pc)、膝上型计算机、平板计算机、笔记本电脑、笔记本、子笔记本、上网本、超便携pc(umpc)、平板个人计算机(平板电脑)、平板手机、移动互联网设备(mid)、个人数字助理(pda)、企业数字助理(eda)、数字相机、数字摄像机、便携式游戏机、mp3播放器、便携式/个人多媒体播放器(pmp)、手持电子书、超移动个人计算机(umpc)、便携式实验室pc、全球定位系统(gps)导航、个人导航设备、便携式导航设备(pnd)、手持式游戏机、电子书、电视(tv)、高清电视(hdtv)、智能器具、智能家电、智能车辆、售货亭、基于生物识别的门锁、安全设备、金融服务设备、通信系统、图像处理系统、图形处理系统、通过网络控制的各种物联网(iot)设备、智能车辆、其他消费电子/信息技术(ce/it)设备或能够进行无线通信或网络通信的与本文公开的设备一致的任何其他设备。

在示例中,本文中所述图像处理装置可以被结合到车辆中。本文所述的车辆(vehicle)指的是任何运输、运送或传输工具,例如汽车、卡车、拖拉机、滑板车、摩托车、自行车、水陆两用车辆、雪地摩托车、船、公共交通车、巴士、单轨电车、火车、电车、自主或自动驾驶车辆、智能车辆、无人驾驶车辆、飞机、无人驾驶飞行器、无人机或移动设备。在示例中,图像处理装置适用于需要定位操作的机器人。

在示例中,图像处理装置从预建数据库(db)加载与编码器、转换网络和解码器相关联的信息。db可以被实现为例如包括在图像处理装置中的存储器或经由线缆或网络或无线地连接到图像处理装置的外部设备,诸如服务器。

图像交互是基于用户输入、设备的内部输入或外部输入或设置而应用到图像的效果。图像交互包括例如基于包括在图像中的对象或目标的特性和包括在图像中的对象的旋转、移动和变换的图像视角的改变。例如,响应于用户的输入,执行交互以旋转或扭曲图像中的对象。

例如,图像处理装置使用图像的三维(3d)信息估计技术或对从图像中提取的特征进行转换而不是重建3d图像来处理图像交互。

图像的3d信息估计或重建3d图像以处理二维(2d)图像交互的的操作需要大量计算,并且在计算过程中可能发生错误。然而,本公开的图像处理装置直接对从用于应用交互的图像中提取的特征进行转换,而不是估计3d信息。因此,可以增加交互处理、对图像的理解程度和对象识别性能。在示例中,图像处理装置识别2d图像中的对象的特征,将交互应用于图像,并生成新的图像。

在下文中,将参考图1和图2来描述图像交互处理方法。将参考图3至图8来描述图像交互处理方法的示例,以及将参考图9至图11来描述用于处理图像交互的训练方法的示例。将参考图12来描述图像处理装置和训练装置的配置的示例。

图1示出了图像交互处理的示例。

参考图1,图像处理装置获取输入图像101。输入图像101包括用于应用交互的至少一个对象,且为2d图像。图像处理装置可以使用编码器102、转换网络(未示出)和解码器105中的任何一种或任何组合作为外部模块或内部模块。在示例中,编码器102对输入数据进行编码并提取特征,解码器105对输入特征进行解码并重建图像。

编码器102是一种神经网络,并且编码器102包括例如用于对输入数据进行编码和搜索表示该输入数据的特征的神经网络。解码器105也是一种神经网络,并且解码器105包括例如用于对输入特征进行解码和搜索表示该输入特征的图像的神经网络。编码器102和解码器105被实现为例如卷积神经网络(cnn)、深度神经网络(dnn)、递归神经网络(rnn)、长短期记忆(lstm)和门控复发单元(gru)中的任何一种或任何组合。

在示例中,编码器102和解码器105对应于作为单一组合的网络,并且彼此对称。例如,编码器102被实现为分类器模型,以从图像中提取特征,解码器105被实现为生成模型,以从特征生成图像。编码器102和解码器105的组合(在下文中被称为“编码器102-解码器105网络”)包括输入层、隐藏层和输出层。在示例中,网络包括一个或多个输入层、一个或多个隐藏层和一个或多个输出层。输入层和输出层可以分别包括一个或多个节点,隐藏层可以各自包括多个节点。当整个神经网络包括针对不同目标训练的多个部分时,在不同部分之间可以有或可以没有输入层或输出层。在示例中,输入层的节点数等于输出层的节点数。

激活从输入层到隐藏层的节点的过程被称为“编码”或“嵌入”。激活从隐藏层到输出层的节点的过程被称为“解码”或“重建”。在示例中,“输入层->隐藏层”的结构和“隐藏层->输出层”的结构是彼此对称的。

编码器102-解码器105网络对与输入层中的节点数相对应的输入数据进行编码,生成与隐藏层中节点数相对应的特征,对生成的特征进行解码,并生成与输出层中的节点数相对应的输出数据。例如,输入数据、生成的特征和输出数据中的每一个的大小由编码器102-解码器105网络的输入层、隐藏层和输出层来确定。在示例中,输入数据和输出数据具有相同的大小。

然而,编码器102-解码器105网络可以不具有编码器102和解码器105的对称结构。编码器102和解码器105中的每一个均包括输入层、隐藏层和输出层,并且可根据设计意图、系统效率和所采用的学习和识别技术的类型来不同地应用或修改对称结构。通过采用各种方案,编码器102和解码器105中的每一个均被实现为用于执行特征提取操作和图像生成操作的神经网络。

图2示出了图像交互处理的方法的示例。图2中的操作可以按照所示的顺序和方式来执行,然而在不脱离所述的说明性示例的精神和范围的情况下,可以改变一些操作的顺序,或者省略一些操作。图2所示的许多操作可以并行或同时执行。图2的一个或多个块和这些块的组合可以通过执行指定功能的基于专用硬件的计算机或者专用硬件和计算机指令的组合来实现。除了以下图2的描述之外,对图1的描述也适用于图2,并且通过引用合并于此。因此,这里可以不再重复以上描述。

参考图1和图2,在操作201中,图像处理装置使用编码器102,从输入图像101提取输入特征103。在示例中,编码器102执行编码以增加通道的数量而不压缩图像101的空间大小,并生成输入特征103作为编码的结果,该输入特征103是输入图像101的嵌入数据。例如,利用由编码器102提取的特征来对图像进行分类或识别。在示例中,编码器102被用作分类器模型。

在操作202中,图像处理装置基于应用于输入图像101的交互来将输入特征103转换为第二特征104。图像处理装置通过将与交互相对应的功能或值应用于输入特征103来生成反应该交互的第二特征104。在示例中,第二特征104适合于解码器105的输入。以下将参考图3至图7来描述特征转换操作的示例。

在操作203中,图像处理装置使用解码器105,从第二特征104生成结果图像106。解码器105执行解码,以减少通道的数量而不增加第二特征104的空间大小,并生结果图像106作为解码的结果,该结果图像106是第二特征104的重建数据。例如,使用解码器105从特征重建图像。在示例中,解码器105被用作生成模型。

图像处理装置使用将交互应用于输入特征103的方案将由编码器102提取的输入特征103转换为第二特征104,并使用解码器105从第二特征104重建结果图像106,以通过将交互应用于输入图像101来生成结果图像106。交互例如是对象在逆时针方向上的旋转。图像处理装置执行特征转换操作而不是执行3d信息估计的中间处理,因此可以增加交互处理性能。而且,通过利用基于深度学习的编码器102、转换网络和解码器105来学习,可以增强识别性能。

图3示出了特征转换操作的示例。

参考图3,图像处理装置获取由编码器生成的输入特征301,并且将输入特征301和与交互相对应的特征图302相组合。图像处理装置使用转换网络,将应用了特征图302的输入特征303转换为适合于解码器的输入的第二特征304。特征图302包括至少一个与交互相对应的值。

在示例中,用于生成输入特征301的编码器包括用于根据单通道2d图像生成多通道特征的cnn。用于从第二特征304重建图像的解码器包括用于根据多通道特征生成单通道2d图像的cnn。用于将输入特征303转换为第二特征304的转换网络包括cnn。然而,编码器根据多通道多维图像生成特征,并且解码器根据由编码器生成的特征来生成多通道多维图像。而且,由编码器和解码器处理的图像的通道和维数根据示例不同地改变。

在机器学习中,cnn作为一种神经网络,包括被设计为执行卷积操作的卷积层。cnn的卷积层使用至少一个内核来执行与输入相关联的卷积操作。例如,当cnn包括多个卷积层时,图像处理装置使用被实现为cnn的编码器来执行输入图像的卷积操作,使用被实现为cnn的转换网络来执行输入特征303的卷积操作,以及使用被实现为cnn的解码器来执行第二特征304的卷积操作。基于对应的卷积层的设计来定义每个卷积层的输入、至少一个内核和输出中的每一个的大小。

当输入图像是单通道2d图像且当编码器中的卷积层的内核数为“c”时,由编码器生成的输入特征301的输入特征图的数量为“c”,并且相应地,输入特征301的通道数为“c”。例如,输入特征301的输入特征图的宽度和高度为“w”和“h”,输入特征图的大小为“w×h”,输入特征301的大小由“w×h×c”表示。在该示例中,输入特征301的空间大小为“w×h”,并且通过编码器的编码处理,输入特征301的空间大小小于输入图像的空间大小。当假设输入图像的空间大小为“a×b”时,基于编码器中的卷积层的的内核的空间大小、用于卷积操作的滑动步长的大小和边界填充(pad)的大小,“w×h”小于“a×b”。与单通道输入图像不同,输入特征301对应于基于编码器中的卷积层的内核数的多个通道。

与输入特征301相组合的特征图302的空间大小被设置为等于输入特征301的空间大小,并且包括在特征图302中的值被表示为与交互相对应的值。例如,大小为“w×h”的特征图302包括与对表示刚性对象的图像施加力的交互(例如,移动)相对应的值,或与对表示软对象的图像施加力的交互(例如,改变对象的形状)相对应的值。输入特征303包括大小为“w×h”的特征图302,因此输入特征303的大小由“w×h×(c+1)”表示。基于交互来定义包括在特征图302中的值的组合,并且可基于设计意图、学习和系统的性能和效率,将各种技术应用于定义该值的方案。

在示例中,图像处理装置使用包括cnn的转换网络,将输入特征303转换为第二特征304,以适合于解码器的输入。在示例中,图像处理装置将输入特征303转化为第二特征304以对应于解码器的cnn的输入节点。例如,当解码器被设计为具有与编码器相对称的结构且当输入特征303的大小为“w×h×(c+1)”时,包括cnn的转换网络中的输入层和输出层被分别设计为适合于大小为“w×h×(c+1)”的特征和大小为“w×h×c”的特征。图像处理装置将输入特征303的大小或尺寸转换为由原始编码器和解码器处理的形式。为使用解码器重建图像,对输入特征303进行转换。

图像处理装置使用解码器的cnn,从适合于解码器的cnn的第二特征304生成结果图像。编码器的cnn的结构和解码器的cnn的结构彼此对称,并且输入特征301与第二特征304具有相同的大小。而且,结果图像的空间大小等于输入图像的空间大小。例如,图像处理装置使用解码器,从大小为“w×h×c”的第二特征304中重建大小为“a×b”的结果图像。然而,编码器、转换网络和解码器中的每一个的cnn的结构不限于上述示例,并且使用在通过交互来对输入特征301进行转换以用于图像处理的操作的范围内的各种方案进行修改。

图4示出了图像交互处理方法的示例。

参考图4,图像处理装置从用户输入中识别用于应用于输入图像的交互。例如,为旋转包括在输入图像401中的对象,用户使用用户界面将用户命令输入到终端。图像处理装置从接收自用户的用户输入中识别用于旋转包括在输入图像401中的对象的交互。图像处理装置基于与识别出的交互相对应的至少一个值,来获取或生成用于与编码器所生成的输入特征相组合的特征图。图像处理装置识别与旋转相对应的交互,基于与基于用户输入的旋转角度相对应的值的组合来生成特征图,并且将生成的特征图与输入特征相组合。

根据示例,编码器、转换网络和解码器中的每一个均被实现为被训练以输出结果图像的cnn,该结果图像通过将交互应用于输入图像而生成。图像处理装置不仅对学习的数据执行处理,还通过插值执行与不对应于学习数据的交互相对应的处理。图像处理装置使用预先训练以用于处理交互的编码器、转换网络和解码器,并且基于包括在特征图中的值来定义交互。因此,未包括在训练db中的与任意交互或任意对象相关联的结果图像通过插值来生成。

参考图4,当基于与旋转角度为0度、+15度(顺时针方向)和-15度(逆时针方向)的旋转交互相关联的数据来对编码器、转换网络和解码器进行训练时,图像处理装置生成与它们之间(即在0度和+15度之间,以及0度和-15度之间)的角度的旋转交互相对应的结果图像,。例如,假设与+15度(顺时针方向)的旋转交互相对应的特征图被定义为包括“1”,与-15度(逆时针方向)的旋转交互相对应的特征图被定义为包括“-1”,与非旋转交互相对应的特征图被定义为包括“0”,并且假设编码器、转换网络和解码器被训练为执行旋转角度为0度、+15度(顺时针方向)和-15度(逆时针方向)的旋转交互。

在该示例中,图像处理装置通过将非旋转交互应用于输入图像401来生成结果图像402,通过将+15度(顺时针方向)的旋转交互应用于输入图像401来生成结果图像403,通过将-15度(逆时针方向)的旋转交互应用于输入图像401来生成结果图像404。而且,对于与未记录在训练db中的旋转角度相关联的交互,图像处理装置通过插值,通过应用0度和+15度(顺时针方向)之间的旋转交互来生成结果图像405,通过应用0度和-15度(逆时针方向)之间的旋转交互来生成结果图像406。

图5示出了特征转换操作的另一示例。

在示例中,图像处理装置将输入特征和与多个交互相对应的特征图相组合,使用转换网络将与特征图相组合的输入特征转换为第二特征,并使用解码器根据第二特征重建结果图像。图像处理装置使用采用多个特征图的特征转换技术,生成应用了多个交互的结果图像。

参考图5,图像处理装置获取用于转换的输入特征501。图像处理装置将输入特征501和与第一交互相对应的第一特征图502以及与第二交互相对应的第二特征图503相组合。图像处理装置使用转换网络,将应用了第一特征图502和第二特征图503的输入特征504转换为适合于解码器的输入的第二特征505。例如,图像处理装置识别与旋转和移动交互相对应的用户输入,并将输入特征501和与旋转交互相对应的第一特征图502以及与移动交互相对应的第二特征图503相结合。然而,可对定义与多个交互相对应的特征图的方案进行各种修改,或对将特征图与输入特征501相组合的顺序或位置进行各种修改。

图像处理装置将大小为“w×h×c”的输入特征501与大小为“w×h”的第一特征图502和第二特征图503相组合,以生成大小为“w×h×(c+2)”的输入特征504。图像处理装置使用转换网络,将大小为“w×h×(c+2)”的输入特征504转换为大小为适合于解码器的“w×h×c”的第二特征505。图像处理装置使用执行转换的技术,将特征图与输入特征501相组合,并生成应用了多个交互的结果图像。

图6示出了特征转换操作的另一示例。

参考图6,图像处理装置获取由编码器生成的输入特征601,并从针对每个交互定义的转换网络602中选择与交互相对应的转换网络603。图像处理装置使用所选择的转换网络603,将输入特征601转换为第二特征604。转换网络602例如是与多个交互相对应的cnn。例如,第一转换网络被实现为与+15度(顺时针方向)的旋转交互相对应的cnn,第二转换网络被实现为与-15度(逆时针方向)的旋转交互相对应的cnn,第三转换网络被实现为与移动交互相对应的cnn。

在示例中,图像处理装置识别用于应用的交互,并从预训练的转换网络602中选择与所识别的交互相对应的转换网络603。图像处理装置将大小为“w×h×c”的输入特征601输入到转换网络603,并生成大小为“w×h×c”的第二特征604。图像处理装置使用转换网络603,在不改变大小的情况下将输入特征601转换为第二特征604。在该示例中,转换网络603的输入层和输出层被设计为适合于大小为“w×h×c”的特征并被训练。

在示例中,图像处理装置从转换网络602中选择多个转换网络以用于应用所识别的交互,组合所选择的转换网络或应用权重来生成第二特征604。例如,当与所提供的交互相对应的转换网络未包括在转换网络602中时,图像处理装置应用权重或将多个转换网络相组合以近似与所提供的交互相对应的转换网络。可以采用各种技术来将预训练的转换网络602中的多个转换网络相组合,或对预训练的转换网络602中的多个转换网络应用权重。

图7示出了图像交互处理方法的另一示例。

图像处理装置从用户输入中识别用于应用于输入图像的交互。例如,图像处理装置接收对与预训练的转换网络相对应的交互之一的选择输入,并基于接收到的输入来识别用于应用于输入图像的交互。图像处理装置确定与所识别的交互相对应的转换网络是否包括在预训练的转换网络中。参考图7,图像处理装置接收对与旋转角度相对应的旋转交互之一的选择输入,基于接收到的输入来识别交互,并使用与所识别的交互相对应的转换网络来处理图像的交互。

图8示出了图像交互处理方法的另一示例。

参考图8,图像处理装置使用与分类器模型801相对应的编码器和与生成模型802相对应的解码器的网络来处理图像交互。图像处理装置使用分类器模型801,通过在缩小2d输入图像803的空间大小的同时增加通道的数量来生成中间特征804,并生成输入特征805。如上所述,图像处理装置对用于处理交互的输入特征805进行转换,使用生成模型802,通过在增加输入特征805的空间大小的同时减少通道的数量来生成中间特征806,并生成结果图像807。图像处理装置将交互应用于所生成的特征,并使用编码器和解码器的网络来处理图像交互。

图9示出了用于处理图像交互的训练方法的示例,图10示出了用于处理图像交互的训练方法的示例。

参考图9,训练装置是被配置为执行用于图像交互处理的训练的装置,且在硬件模块上实现。训练装置对图像处理装置901进行训练,以无误地处理图像交互。例如,训练装置基于训练输入图像、通过将交互应用于训练输入图像而生成的图像和基于训练输入图像生成的结果图像,来对图像处理装置901的编码器903、转换网络905和解码器907进行重复训练。在示例中,训练输入图像是用于训练的图像,结果图像是由图像处理装置901生成的图像。通过将交互应用于训练输入图像而生成的图像是需要由图像处理装置901生成的图像,训练装置对图像处理装置901进行训练,使得结果图像类似于通过将交互应用于训练输入图像而生成的图像。

图10示出了用于处理图像交互的训练方法的示例。图10中的操作可以按照所示的顺序和方式来执行,然而在不脱离所述的说明性示例的精神和范围的情况下,可以改变一些操作的顺序,或者省略一些操作。图10所示的许多操作可以并行或同时执行。图10的一个或多个块和这些块的组合可以通过执行指定功能的基于专用硬件的计算机或者专用硬件和计算机指令的组合来实现。除了以下图10的描述之外,图1至图9的描述也适用于图10,并且通过引用合并于此。因此,这里可以不再重复以上描述。

参考图9和图10,在操作1001中,训练装置使用编码器903,从训练输入图像902中提取训练输入特征904。

在操作1002中,训练装置基于用于应用于训练输入图像902的交互,使用转换网络905将训练输入特征904转换为第二特征906。在示例中,训练装置将与交互相对应的特征图与训练输入特征904相组合,并使用转换网络905,将应用了特征图的训练输入特征转换为适合于解码器907的输入的第二特征906。在示例中,训练装置将训练输入特征904与对应于第一交互的第一特征图和对应于第二交互的第二特征图相组合,并使用转换网络905,将应用了第一特征图和第二特征图的训练输入特征转换为适合于解码器907的输入的第二特征906。在另一示例中,训练装置从针对每个交互定义的转换网络中选择与交互相对应的转换网络905,并使用所选择的转换网络905将训练输入特征转换为第二特征906。

在操作1003中,训练装置使用解码器907,从第二特征906生成训练结果图像908。在操作1004中,训练装置对转换网络905进行训练,使得训练结果图像908与通过将交互应用于训练输入图像而生成的图像909相同。在示例中,训练装置对编码器903和解码器907进行训练,使得训练结果图像908与图像909相同。训练装置根据基于训练结果图像908与图像909之间的差异定义的损失函数来执行训练,然而,训练相关技术的类型并不限于上述类型。例如,基于训练结果图像908与图像909之间的像素值的差异来定义损失函数。例如,训练装置预先对编码器903和解码器907的网络进行训练,以执行提取特征和重建图像的操作,将转换网络905添加到经训练的编码器903和经训练的解码器907,并执行用于交互处理的训练。由编码器903从训练输入图像中提取训练输入特征,并由解码器907从提取的训练输入特征生成训练结果图像。而且,编码器903和解码器907被预先训练为使得训练输入图像与训练结果图像相同。

图11示出了用于处理图像交互的训练方法的示例。

参考图11,训练装置使用基于生成对抗网络(gan)的鉴别器网络1102来提高训练性能。如上所述,训练装置使用图像处理装置1101,从训练输入图像1103生成训练结果图像1104。在示例中,为提高训练性能,训练装置基于训练结果图像1104和通过将交互应用于训练输入图像1103而生成的图像1105,将图像处理装置1101与鉴别器网络1102一起进行训练。训练装置对鉴别器网络1102进行训练,以确定训练结果图像1104是假图像,并确定图像1105是真图像。训练装置在鉴别器网络1102的训练期间对图像处理装置1101进行训练。训练装置基于训练结果图像1104和图像1105,对图像处理装置1101进行训练,使得鉴别器网络1102将训练结果图像1104确定为真图像,而不是假图像。如上所述,训练装置同时对图像处理装置1101和鉴别器网络1102进行训练,因此可以提高图像处理装置1101和鉴别器网络1102的识别性能,并可以减轻结果图像变模糊的现象。

在另一示例中,训练装置基于预先训练过的鉴别器网络1102来对图像处理装置1101进行训练。对鉴别器网络1102进行预先训练以确定训练结果图像1104是假图像,并确定图像1105是真图像。训练装置对图像处理装置1101进行训练,使得预先训练的鉴别器网络1102将训练结果图像1104确定为真图像,而不是假图像。

图12示出了装置1201的配置的示例。

参考图12,装置1201包括处理器1202和存储器1203。装置1201例如是上述图像处理装置或上述训练装置。处理器1202包括参考图1至图11的上述装置中的至少一个,或执行参考图1至图11的上述方法中的至少一个。存储器1203存储上述图像交互处理方法、与图像交互处理方法相关联的信息、上述训练方法或与训练方法相关联的信息。而且,存储器1203存储实现图像交互处理方法或训练方法的程序。存储器1203包括例如易失性存储器或非易失性存储器。以下提供对处理器和存储器的进一步描述。

处理器1202执行程序并控制装置1201。处理器1202所执行的程序的代码存储在存储器1203中。装置1201经由输入/输出设备(未示出)连接到外部设备(例如,个人计算机(pc)或网络),并与外部设备交换数据。

图像处理装置901和1101、编码器102和903、解码器105和907、装置1201和本文中参考图1、9、11和12所描述的其他装置、单元、模块、设备和其他组件由硬件组件实现。在适当的情况下可用于执行本申请中所描述的操作的硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请所述的操作的任何其它电子组件。在其它示例中,执行本申请中所述的操作的一个或多个硬件组件通过计算硬件来实现(例如,通过一个或多个处理器或计算机来实现)。处理器或计算机可以由一个或多个处理元件(比如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望的结果的任何其它设备或设备的组合)来实现。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件,诸如操作系统(os)和在os上运行的一个或多个软件应用程序,以执行本申请中描述的操作。硬件组件还可以响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见,在本申请中描述的示例的描述中可以使用单数术语“处理器”或“计算机”,但是在其它示例中可以使用多个处理器或计算机,或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如,单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现,并且一个或多个其它硬件组件可以由一个或多个其它处理器或另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件具有不同的处理配置中的任何一种或多种,所述处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(sisd)多处理、单指令多数据(simd)多处理、多指令单数据(misd)多处理、和多指令多数据(mimd)多处理。

执行本申请中所述的操作的图2和图10所示的方法是由计算硬件来执行的,例如,由如以上描述而实现的、执行指令或软件以执行本申请所述的操作(通过所述方法实现的操作)的一个或多个处理器或计算机来执行的。例如,单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可以由一个或多个处理器或者处理器和控制器执行,并且一个或多个其它操作可以由一个或多个其它处理器或者另一处理器和另一控制器执行。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。

用于控制处理器或计算机如上所述地实现硬件组件并执行所述方法的指令或软件被写为计算机程序、代码段、指令或其任何组合,用于单独地或共同地指示或配置处理器或计算机作为机器或专用计算机来操作,以执行由硬件组件执行的操作和上述方法。在示例中,指令或软件包括以下至少一项:小应用程序、动态链接库(dll)、中间件、固件、设备驱动程序、存储防止冲突的方法的应用程序。在一个示例中,指令或软件包括由处理器或计算机直接执行的机器代码,例如由编译器产生的机器代码。在另一个示例中,指令或软件包括由处理器或计算机使用解释器执行的更高级代码。本领域的普通程序员能够基于附图中所示的框图和流程图以及说明书中的对应描述来容易地编写指令或软件,其中公开了用于执行由硬件组件和如上所述的方法执行的操作的算法。

用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或其上。非暂时性计算机可读存储介质的示例包括:只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-rlth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态驱动器(ssd)、闪存、卡类型的存储器(比如,多媒体卡或微型卡(例如,安全数字(sd)或极限数字(xd)))、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘、以及被配置为以非暂时方式存储指令或软件以及如下所述的任何其它设备,所述任何其它设备被配置为以非暂时性方式存储指令或软件、以及任何相关联的数据、数据文件和数据结构,并且向处理器或计算机提供指令或软件以及相关联的数据、数据文件和数据结构,使得处理器或计算机可以执行所述指令。非暂时性计算机可读存储介质的示例包括只读存储器(rom)、随机存取存储器(ram)、闪存、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-rlth、bd-re、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘以及被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并向一个或多个处理器或计算机提供指令或软件以及任何关联的数据、数据文件和数据结构使得所述一个或多个处理器或计算机可以执行指令的任何其他设备。在一个示例中,指令或软件以及任何关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得一个或多个处理器或计算机以分布方式存储、访问和执行所述指令和软件以及任何关联的数据、数据文件和数据结构。

尽管本公开包括特定示例,但是在理解了本申请的公开内容之后将显而易见的是,在不脱离权利要求及其等同物的精神和范围的情况下,可以对这些示例进行形式和细节上的各种改变。本文描述的示例仅被认为是描述性的,而不是为了限制的目的。每个示例中的特征或方面的描述被认为适用于其它示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或被其它组件或其等同物替换或补充,则可以实现合适的结果。因此,本公开的范围不是由详细描述来限定,而是由权利要求及其等同物来限定,并且在权利要求及其等同物的范围内的所有变化都被解释为包括在本公开中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1