用于对图像或视频进行编码/解码的方法和装置与流程

文档序号：37554571发布日期：2024-04-08 14:07阅读：30来源：国知局

本发明实施方案总体涉及用于将第一潜在空间展开到第二潜在空间上的方法和装置，并且更具体地涉及基于神经网络展开潜在空间。本发明实施方案总体还涉及用于基于神经网络对图像或视频进行编码或解码的方法和装置。

背景技术：

1、生成性模型诸如gan(生成性对抗网络)(生成性对抗网络：概述。ieee signalprocessing magazine，35(1)，53-65，creswell，a.w.)是机器学习技术，其学习给定对象(例如图像)的分布并且生成貌似真实的新对象。近来，gan不仅因其生成性能力而受到关注，而且因为其潜在(也称为隐藏)空间表现出由潜在空间的解缠结性质所显现的良好性质而受到关注。生成因素(属性)似乎比在对象的原始空间中更“线性”可分离或解缠结。

2、因此，开发了许多技术来将对象投影到gan潜在表示并对其进行操纵。例如，在面部图像的情况下，可以仅改变像“唇膏”这样的面部属性的一个属性。

3、在图像编辑中，stylegan是一种gan体系结构，该gan体系结构具有提供可解释特性和解缠结特性的中间潜在空间。这意味着为了改变属性，仅必须改变中间潜在空间的相关分量。因此这在图像编辑任务中是有用的。图像编辑(例如interfacegan)的最新现有技术方法由于上述特性而依赖于stylegan潜在空间，并且通常由两个步骤组成：

4、1.表示stylegan的潜在空间中的感兴趣图像

5、2.在上述投影的潜在空间上应用编辑。

6、interfacegan(interfacegan：解释由gan学习的解缠结的面部表示。ieeetransactions on pattern analysis and machine intelligence，shen y.y.，2020)假定属性被线性地分离并且在与超平面正交的方向上执行编辑。所编辑的图像的质量取决于感兴趣图像在gan的潜在空间中被表示得有多好，并且这种表示可能丢失感知图像空间中的几何关系和语义关系。换句话说，已经确定了潜在空间的两个几何限制：(a)欧几里得距离不同于图像感知距离，以及(b)解缠结不是最优的，并且使用线性模型的面部属性分离是限制性假设。例如，对图像的属性的编辑可对原始空间中的其他属性具有影响。

7、因此，需要改进现有技术。

技术实现思路

1、根据一个实施方案，提供了一种用于将第一潜在空间展开到第二潜在空间上的方法，该方法包括：

2、-从原始空间获得表示至少一个对象的属性的第一潜在空间，

3、-基于至少一个约束，将所述第一潜在空间展开到第二潜在空间上。

4、根据一个实施方案，一种用于将第一潜在空间展开到第二潜在空间上的装置，该装置包括一个或多个处理器，该一个或多个处理器被配置用于：

5、-从原始空间获得表示至少一个对象的属性的第一潜在空间，

6、-基于至少一个约束，将所述第一潜在空间展开到第二潜在空间上。

7、根据一个实施方案，从生成性对抗网络获得第一潜在空间。根据另一实施方案，至少一个约束是全局约束或局部约束中的至少一者。根据另一实施方案，展开是语义展开或几何展开或两者。

8、根据另一实施方案，展开使用神经网络。在一个变型中，展开基于可逆变换。在另一变型中，变换是归一化流。

9、根据另一实施方案，该至少一个对象是图像。

10、根据另一实施方案，提供了一种用于对至少一个图像进行编码的方法，其中对至少一个图像进行编码包括：获得该图像在第一潜在空间中的第一潜在表示；获得该图像在第二潜在空间中的第二潜在表示；将该第二潜在表示编码为图像数据或视频数据。

11、根据另一实施方案，提供了一种用于对至少一个图像进行解码的方法，其中从图像数据或视频数据对至少一个图像进行解码包括从该图像数据或该视频数据对该图像的潜在表示进行解码，从所解码的潜在表示获得该图像的另一潜在表示，从该另一潜在表示生成解码图像。

12、根据另一实施方案，提供了一种用于视频编码的方法和一种用于视频解码的方法。

13、一个或多个实施方案还提供一种装置，该装置包括一个或多个处理器，该一个或多个处理器被配置用于执行上述方法的实施方案中的任一个实施方案。

14、一个或多个实施方案还提供了一种计算机程序，该计算机程序包括指令，该指令在由一个或多个处理器执行时使该一个或多个处理器执行根据上述任一实施方案的方法中的任一者。本发明实施方案中的一个或多个实施方案还提供一种计算机可读存储介质，其上存储有用于根据上述实施方案中的任一个实施方案编辑视频镜头、对至少一个图像或视频进行编码或对至少一个图像或视频进行解码的指令。

15、一个或多个实施方案还提供了包括根据上述编码方法的实施方案中的任一个实施方案编码的图像数据或视频数据的比特流。本发明实施方案中的一个或多个实施方案还提供了一种计算机可读存储介质，其上存储有上述比特流。

16、一个或多个实施方案还提供了一种用于发送包括根据本文所述的编码方法的实施方案中的任一个实施方案编码的图像数据或视频数据的比特流的方法。一个或多个实施方案还提供了一种用于发送包括根据本文所述的编码方法的实施方案中的任一个实施方案编码的图像数据或视频数据的比特流的装置。

技术特征：

1.一种方法，所述方法包括：

2.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于：

3.根据权利要求1所述的方法或根据权利要求2所述的装置，其中所述第二潜在空间是基于速率-失真约束从所述第一潜在空间的展开获得的。

4.根据权利要求1或3中任一项所述的方法或根据权利要求2至3中任一项所述的装置，其中所述第一潜在空间是从生成性对抗网络获得的。

5.根据权利要求1或3至4中任一项所述的方法或根据权利要求2至4中任一项所述的装置，其中对至少一个图像进行编码还包括：

6.根据权利要求5所述的方法或装置，其中对至少一个图像进行编码还包括：

7.根据权利要求1或3至6中任一项所述的方法或根据权利要求2至6中任一项所述的装置，其中编码包括熵编码。

8.根据权利要求1或3至7中任一项所述的方法或根据权利要求2至7中任一项所述的装置，其中编码包括量化。

9.根据权利要求3所述的方法或装置，其中所述展开使用神经网络。

10.根据权利要求3或9所述的方法或装置，其中所述展开基于可逆变换。

11.根据权利要求10所述的方法或装置，其中所述可逆变换是归一化流。

12.一种方法，所述方法包括从图像数据或视频数据中对至少一个第一图像进行解码，所述从图像数据或视频数据中对至少一个第一图像进行解码包括：

13.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于从图像数据或视频数据中对至少一个第一图像进行解码，所述从图像数据或视频数据中对至少一个第一图像进行解码包括：

14.根据权利要求12所述的方法，所述方法还包括，或根据权利要求13所述的装置，其中所述一个或多个处理器被进一步配置为：

15.根据权利要求14所述的方法或装置，其中获得第三图像的第四潜在表示包括对所述第二潜在表示和所述第三潜在表示进行内插。

16.根据权利要求15所述的方法或装置，其中所述内插是线性的。

17.根据权利要求15或16所述的方法或装置，其中所述内插使用至少一个比例因子，所述比例因子取决于所述第二潜在表示和所述第三潜在表示的至少一层，所述第二潜在表示和所述第三潜在表示在所述内插中被用于生成所述第四潜在表示的对应层。

18.根据权利要求15至17中任一项所述的方法或装置，其中所述内插使用表示所述第一图像与所述第二图像之间的时间距离的至少一个比例因子。

19.根据权利要求18所述的方法或装置，其中所述比例因子是在所述编码器处确定的。

20.根据权利要求12所述的方法或根据权利要求13所述的装置，其中对至少一个图像进行解码还包括：

21.根据权利要求20所述的方法或装置，其中在所述第二潜在空间中获得所述后续图像的所述潜在表示还包括：

22.根据权利要求12或14至21中任一项所述的方法或根据权利要求13至21中任一项所述的装置，其中对所述第一图像的所述第一潜在表示进行解码或对所述差进行解码或对所述残差进行解码包括熵解码。

23.根据权利要求22所述的方法或装置，其中熵解码使用相同的经训练的熵模型来对所述差分潜在代码和所述残差进行解码。

24.根据权利要求12或14至23中任一项所述的方法或根据权利要求13至23中任一项所述的装置，其中对所述第一图像的所述第一潜在表示进行解码或对所述差进行解码或对所述残差进行解码包括解量化。

25.根据权利要求12或14至24中任一项所述的方法或根据权利要求13至24中任一项所述的装置，其中从所解码的第一潜在表示获得所述第一图像的所述第二潜在表示包括将所解码的第一潜在表示从代理潜在空间映射到目标潜在空间。

26.根据权利要求25所述的方法或装置，其中所述映射使用神经网络。

27.根据权利要求25至26中任一项所述的方法或装置，其中所述映射基于可逆变换。

28.根据权利要求27所述的方法或装置，其中所述可逆变换是归一化流。

29.根据权利要求25至28中任一项所述的方法或装置，其中所述代理潜在空间是基于速率-失真约束从所述目标潜在空间的展开获得的。

30.根据权利要求12或14至29中任一项所述的方法或根据权利要求13至29中任一项所述的装置，其中所述目标潜在空间是从生成性对抗网络获得的。

31.一种方法，所述方法包括：

32.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于：

33.根据权利要求31所述的方法，还包括，或根据权利要求32所述的装置，其中所述一个或多个处理器进一步被配置用于在所述第二潜在空间中编辑至少一个对象的至少一个属性。

34.根据权利要求31或33所述的方法，还包括，或根据权利要求32或33所述的装置，其中所述一个或多个处理器进一步被配置用于将所述至少一个对象在所述第二潜在空间中的表示重新映射到所述第一潜在空间。

35.根据权利要求31或33至34中任一项所述的方法，还包括，或根据权利要求32至34中任一项所述的装置，其中所述一个或多个处理器进一步被配置用于从所述至少一个对象在所述第一潜在空间中的表示生成所述原始空间中的新对象表示。

36.一种比特流，所述比特流包括表示根据权利要求1、3至11或31中任一项获得的至少一个第一图像的潜在表示的图像数据或视频数据。

37.一种计算机可读介质，所述计算机可读介质包括根据权利要求36所述的比特流。

38.一种计算机可读存储介质，所述计算机可读存储介质具有存储在其上的指令，所述指令用于使一个或多个处理器执行根据权利要求1或3至12或14至31或33至35中任一项所述的方法。

39.一种设备，所述设备包括：

40.根据权利要求39所述的设备，所述设备包括电视机、移动电话、平板电脑或机顶盒。

41.一种装置，所述装置包括：

42.一种方法，所述方法包括：访问包括根据权利要求36所述的比特流的数据，以及传输所访问的数据。

技术总结
提供了用于基于神经网络对图像或视频进行编码或解码的方法和装置。在一个实施方案中，通过例如从生成性对抗网络获得图像在第一潜在空间中的第一潜在表示来对图像进行编码。从第一潜在表示获得图像在第二潜在中的第二潜在表示并对其进行编码。在一个实施方案中，基于至少一个约束从该第一潜在空间的展开获得第二潜在空间。在一个实施方案中，使用神经网络获得该第二潜在空间。该方法或该装置可以用于图像编辑和/或图像编码或视频编码。

技术研发人员：P·赫利尔,M·舒科尔,B·B·达莫达兰,姚旭
受保护的技术使用者：交互数字CE专利控股有限公司
技术研发日：
技术公布日：2024/4/7

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P·赫利尔,M·舒科尔,B·B·达莫达兰,姚旭
技术所有人：交互数字CE专利控股有限公司
我是此专利的发明人

上一篇：感知工作负载的虚拟处理单元的制作方法
上一篇：使用能量调节器的成像和治疗束能量调制的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。