用于多域多模态图像转换的装置和方法与流程

文档序号：35128851发布日期：2023-08-14 22:13阅读：43来源：国知局

本发明大体涉及图像处理。更具体地，本发明涉及一种用于多域多模态图像转换的图像处理装置和方法。

背景技术：

1、图像到图像转换是计算机视觉技术中一个成熟的研究领域，有助于扩大图像数据集，并在图像编辑方面显示出巨大的潜力。例如，在用于自动驾驶的应用中收集大型图像数据集。在示例性自动驾驶场景中，自动驾驶车辆可以收集多个标记的晴朗日间图像，即具有不同图像内容但来自相同图像域(有时也称为图像风格)的图像，用于训练辅助自动驾驶的物体检测模型。为了使该物体检测模型在更具挑战性的条件(如多雾、多雨和夜间条件)(即，图像域)下也能够很好地工作，还有必要收集这些更具挑战性条件的标记图像。

技术实现思路

1、本发明的目的在于提供一种用于多域多模态图像转换的改进装置和方法。

2、上述和其它目的是通过由独立权利要求请求保护的主题来实现的。其它实现方式在从属权利要求、说明书和附图中是显而易见的。

3、根据第一方面，提供了一种用于根据输入图像生成输出图像的图像处理装置。

4、根据第一方面所述的图像处理装置用于生成内容特征图和风格特征向量，其中，所述内容特征图指示所述输入图像的图像内容，所述风格特征向量指示所述输入图像的图像域(有时也称为图像风格)。此外，所述图像处理装置用于根据所述风格特征向量，将所述图像域确定为多个图像域中的一个图像域。

5、所述图像处理装置还用于根据所述输入图像的所述内容特征图以及与所述多个图像域中的另一图像域相关联(即，属于所述多个图像域中的另一图像域)的另一风格特征向量，生成所述输出图像。

6、例如，在自动驾驶场景中，根据第一方面所述的图像处理装置允许将训练图像从日间图像域转换为其它天气和/或光照条件。这样，所述图像处理装置允许在相同位置(即，具有相同内容)获取各种输出图像，并且重用同一标签来微调物体检测模型，该模型甚至无法通过沿相同道路发送第二试驾来实现微调。将所有混合数据一起训练，最终可以提高物体检测模型的鲁棒性。有利地，与传统方法相比，根据第一方面所述的图像处理装置允许以更低的空间复杂度执行多域多模态图像到图像转换。

7、在所述第一方面的另一种可能的实现方式中，所述图像处理装置包括第一编码器神经网络，所述第一编码器神经网络用于生成所述内容特征图，其指示所述输入图像的所述图像内容。

8、在所述第一方面的另一种可能的实现方式中，所述图像处理装置包括第二编码器神经网络，所述第二编码器神经网络用于生成所述风格特征向量，其指示所述输入图像的所述图像域。

9、在所述第一方面的另一种可能的实现方式中，所述图像处理装置用于使用高斯混合模型，根据所述风格特征向量，确定所述多个图像域中的所述图像域。

10、在所述第一方面的另一种可能的实现方式中，所述多个图像域中的每个图像域与所述高斯混合模型中的一个高斯相关联。

11、在所述第一方面的另一种可能的实现方式中，所述图像处理装置用于根据所述输入图像，生成多个输出图像。更具体地，所述图像处理装置用于：根据所述输入图像的所述内容特征图以及与所述多个图像域中的第一另一图像域相关联的第一另一风格特征向量，生成第一输出图像；根据所述输入图像的所述内容特征图以及与所述多个图像域中的第二另一图像域相关联的第二另一风格特征向量，生成第二输出图像。

12、在所述第一方面的另一种可能的实现方式中，所述图像处理装置包括内容判别器神经网络，其中，在训练阶段，所述内容判别器神经网络用于在所述内容特征图包含与所述输入图像的所述图像域相关的信息的情况下，对所述内容特征图进行过滤(即，丢弃)。

13、在所述第一方面的另一种可能的实现方式中，所述图像处理装置包括生成器神经网络，所述生成器神经网络用于根据所述输入图像的所述内容特征图以及与所述多个图像域中的所述另一图像域相关联的所述另一风格特征向量，生成所述输出图像。

14、在所述第一方面的另一种可能的实现方式中，所述图像处理装置包括：第一编码器神经网络，用于生成所述内容特征图，其指示所述输入图像的所述图像内容；第二编码器神经网络，用于生成所述风格特征向量，其指示所述输入图像的所述图像域；其中，在所述训练阶段，所述图像处理装置还用于通过以下方式训练所述生成器神经网络：将所述输出图像馈送回所述第一编码器神经网络和所述第二编码器神经网络，以获取重建输入图像；最小化所述输入图像与所述重建输入图像之间的差异(即，重建损失)。

15、在所述第一方面的另一种可能的实现方式中，所述图像处理装置还包括多尺度判别器神经网络，其中，在所述训练阶段，所述多尺度判别器神经网络用于根据所述输出图像确定反馈信息，并将所述反馈信息提供给所述生成器神经网络用于训练所述生成器神经网络，所述反馈信息包括有关所述输出图像是否属于所述多个图像域中的所述另一图像域和/或所述输出图像看起来是否像所述多个图像域中的所述另一图像域中的真实图像的信息。

16、在所述第一方面的另一种可能的实现方式中，所述多尺度判别器神经网络包括多个平均池化层，用于将所述输出图像下采样到具有不同图像分辨率的多个下采样输出图像。

17、在所述第一方面的另一种可能的实现方式中，所述图像处理装置包括另一神经网络，所述另一神经网络用于确定与所述风格特征向量相关联的所述多个图像域中的所述图像域。

18、根据第二方面，提供了一种用于根据输入图像生成输出图像的图像处理方法。所述图像处理方法包括以下步骤：

19、生成内容特征图，其指示所述输入图像的图像内容；

20、生成风格特征向量，其指示所述输入图像的图像域；

21、根据所述风格特征向量，确定多个图像域中的图像域；

22、根据所述输入图像的所述内容特征图以及与所述多个图像域中的另一图像域相关联的另一风格特征向量，生成所述输出图像。

23、根据本发明第二方面所述的图像处理方法可以由根据本发明第一方面所述的图像处理装置执行。因此，根据本发明第二方面所述的图像处理方法的其它特征直接通过根据本发明第一方面所述的图像处理装置的功能及其上述和下述不同实现形式实现。

24、根据第三方面，提供了一种计算机程序产品，包括程序代码，所述程序代码在由计算机或处理器执行时，使所述计算机或所述处理器执行根据第二方面所述的图像处理方法。

25、附图及以下说明中将详细描述一个或多个实施例。其它特征、目的和优点在说明、附图以及权利要求中是显而易见的。

技术特征：

1.一种用于根据输入图像(150)生成输出图像(160)的图像处理装置(100)，其特征在于，所述图像处理装置(100)用于：

2.根据权利要求1所述的图像处理装置(100)，其特征在于，所述图像处理装置(100)包括第一编码器神经网络(112)，所述第一编码器神经网络(112)用于生成所述内容特征图(114)，其指示所述输入图像(150)的所述图像内容。

3.根据权利要求1或2所述的图像处理装置(100)，其特征在于，所述图像处理装置(100)包括第二编码器神经网络(111)，所述第二编码器神经网络(111)用于生成所述风格特征向量(113)，其指示所述输入图像(150)的所述图像域。

4.根据上述权利要求中任一项所述的图像处理装置(100)，其特征在于，所述图像处理装置(100)用于使用高斯混合模型(125)，根据所述风格特征向量(113)，确定所述多个图像域(125)中的所述图像域。

5.根据权利要求4所述的图像处理装置(100)，其特征在于，所述多个图像域(125)中的每个图像域与所述高斯混合模型(125)中的一个高斯相关联。

6.根据上述权利要求中任一项所述的图像处理装置(100)，其特征在于，所述图像处理装置(100)用于：根据所述输入图像(150)的所述内容特征图(114)以及与所述多个图像域(125)中的第一另一图像域相关联的第一另一风格特征向量(113’)，生成第一输出图像(160)；根据所述输入图像(150)的所述内容特征图(114)以及与所述多个图像域(125)中的第二另一图像域相关联的第二另一风格特征向量(113’)，生成第二输出图像(160)。

7.根据上述权利要求中任一项所述的图像处理装置(100)，其特征在于，所述图像处理装置(100)包括内容判别器神经网络(116)，其中，在训练阶段，所述内容判别器神经网络(116)用于在所述内容特征图(114)包含与所述输入图像(150)的所述图像域相关的信息的情况下，对所述内容特征图(114)进行过滤。

8.根据上述权利要求中任一项所述的图像处理装置(100)，其特征在于，所述图像处理装置(100)包括生成器神经网络(120)，所述生成器神经网络(120)用于根据所述输入图像(150)的所述内容特征图(114)以及与所述多个图像域(125)中的所述另一图像域相关联的所述另一风格特征向量(113’)，生成所述输出图像(160)。

9.根据权利要求8所述的图像处理装置(100)，其特征在于，所述图像处理装置(100)包括：第一编码器神经网络(112)，用于生成所述内容特征图(114)，其指示所述输入图像(150)的所述图像内容；第二编码器神经网络(111)，用于生成所述风格特征向量(113)，其指示所述输入图像(150)的所述图像域；其中，在训练阶段，所述图像处理装置(100)还用于通过以下方式训练所述生成器神经网络(120)：将所述输出图像(160)馈送回所述第一编码器神经网络(112)和所述第二编码器神经网络(111)，以获取重建输入图像；最小化所述输入图像(150)与所述重建输入图像之间的差异。

10.根据权利要求8或9中任一项所述的图像处理装置(100)，其特征在于，所述图像处理装置(100)还包括多尺度判别器神经网络(121)，其中，在训练阶段，所述多尺度判别器神经网络(121)用于根据所述输出图像(160)确定反馈信息，并将所述反馈信息提供给所述生成器神经网络(120)用于训练所述生成器神经网络(120)，所述反馈信息包括有关所述输出图像(160)是否属于所述多个图像域(125)中的所述另一图像域的信息。

11.根据权利要求10所述的图像处理装置(100)，其特征在于，所述多尺度判别器神经网络(121)包括多个平均池化层，用于将所述输出图像(160)下采样到具有不同图像分辨率的多个下采样输出图像。

12.根据上述权利要求中任一项所述的图像处理装置(100)，其特征在于，所述图像处理装置(100)包括神经网络，所述神经网络用于确定与所述风格特征向量(113)相关联的所述多个图像域(125)中的所述图像域。

13.一种用于根据输入图像(150)生成输出图像(160)的图像处理方法(300)，其特征在于，所述图像处理方法(300)包括：

14.一种计算机程序，其特征在于，包括程序代码，所述程序代码在由计算机执行时，使所述计算机执行根据权利要求13所述的方法。

15.一种计算机程序产品，其特征在于，包括用于存储程序代码的非瞬时性计算机可读存储介质，所述程序代码在由计算机或处理器执行时，使所述计算机或所述处理器执行根据权利要求13所述的方法(300)。

技术总结
提供了一种用于根据输入图像(150)生成输出图像(160)的图像处理装置(100)。所述图像处理装置(100)用于生成内容特征图和风格特征向量，其中，所述内容特征图指示所述输入图像(150)的图像内容，所述风格特征向量指示所述输入图像(150)的图像域。此外，所述图像处理装置(100)用于根据所述风格特征向量，确定多个图像域中的图像域。所述图像处理装置(100)还用于根据所述输入图像(150)的所述内容特征图以及与所述多个图像域中的另一图像域相关联的另一风格特征向量，生成所述输出图像(160)。此外，还提供了一种对应的图像处理方法。

技术研发人员：沈枫易,奥纳伊·优厄法利欧格路
受保护的技术使用者：华为技术有限公司
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈枫易奥纳伊
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：一种含硫普罗宁的稳定性优异的药用组合物及其制备工艺的制作方法
上一篇：一种管路消声器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。