使用机器学习系统的实例自适应图像和视频压缩的制作方法

文档序号:34454535发布日期:2023-06-13 23:27阅读:61来源:国知局
使用机器学习系统的实例自适应图像和视频压缩的制作方法

概括地说,本公开内容涉及数据压缩,并且更具体地说,本公开内容涉及使用机器学习系统来压缩图像和/或视频内容。


背景技术:

1、许多设备和系统允许图像/视频数据被处理并输出以供消费。数字图像/视频数据包括大量的数据,以满足对图像/视频质量、性能和特征不断增长的需求。例如,视频数据的消费者通常期望具有高保真度、高分辨率、高帧速率等的高质量视频。满足这些需求通常所需要的大量视频数据给处理和存储视频数据的通信网络和设备带来了沉重的负担。视频编解码(coding)技术可以用于压缩视频数据。视频编解码的一个示例目标是将视频数据压缩为使用较低比特率的形式,同时避免视频质量的下降或使视频质量的下降最小。随着不断发展的视频服务变得可用以及对大量视频数据的需求不断增加,需要具有更好性能和效率的编解码技术。


技术实现思路

1、在一些示例中,描述了用于使用一个或多个机器学习系统来进行数据压缩和/或解压缩的系统和技术。在一些示例中,提供了用于对图像/视频数据进行压缩和/或解压缩的机器学习系统。根据至少一个说明性示例,提供了一种对图像/视频数据进行压缩和/或解压缩的方法。在一些示例中,所述方法可以包括:通过神经网络压缩系统接收输入数据以便通过所述神经网络压缩系统进行压缩;确定用于所述神经网络压缩系统的一组更新,所述一组更新包括使用所述输入数据调谐的经更新的模型参数;通过所述神经网络压缩系统使用潜在先验生成包括所述输入数据的经压缩的版本的第一比特流;通过所述神经网络压缩系统使用所述潜在先验和模型先验生成包括所述经更新的模型参数的经压缩的版本的第二比特流;以及输出所述第一比特流和所述第二比特流以传输到接收机。

2、根据至少一个说明性示例,提供了一种用于对图像/视频数据进行压缩和/或解压缩的非暂时性计算机可读介质。在一些方面,所述非暂时性计算机可读介质可以包括指令,所述指令在由一个或多个处理器执行时,使所述一个或多个处理器用于:通过神经网络压缩系统接收输入数据以便通过所述神经网络压缩系统进行压缩;确定用于所述神经网络压缩系统的一组更新,所述一组更新包括使用所述输入数据调谐的经更新的模型参数;通过所述神经网络压缩系统使用潜在先验生成包括所述输入数据的经压缩的版本的第一比特流;通过所述神经网络压缩系统使用所述潜在先验和模型先验生成包括所述经更新的模型参数的经压缩的版本的第二比特流;以及输出所述第一比特流和所述第二比特流以传输到接收机。

3、根据至少一个说明性示例,提供了一种用于对图像/视频数据进行压缩和/或解压缩的装置。在一些方面,该装置可以包括其上存储有计算机可读指令的存储器以及一个或多个处理器,所述处理器被配置为:通过神经网络压缩系统接收输入数据以便通过所述神经网络压缩系统进行压缩;确定用于所述神经网络压缩系统的一组更新,所述一组更新包括使用所述输入数据调谐的经更新的模型参数;通过所述神经网络压缩系统使用潜在先验生成包括所述输入数据的经压缩的版本的第一比特流;通过所述神经网络压缩系统使用所述潜在先验和模型先验生成包括所述经更新的模型参数的经压缩的版本的第二比特流;以及输出所述第一比特流和所述第二比特流以传输到接收机。

4、根据另一说明性示例,一种用于对图像/视频数据进行压缩和/或解压缩的装置可以包括用于进行以下操作的单元:通过神经网络压缩系统接收输入数据以便通过所述神经网络压缩系统进行压缩;确定用于所述神经网络压缩系统的一组更新,所述一组更新包括使用所述输入数据调谐的经更新的模型参数;通过所述神经网络压缩系统使用潜在先验生成包括所述输入数据的经压缩的版本的第一比特流;通过所述神经网络压缩系统使用所述潜在先验和模型先验生成包括所述经更新的模型参数的经压缩的版本的第二比特流;以及输出所述第一比特流和所述第二比特流以传输到接收机。

5、在一些方面中,上述方法、装置以及计算机可读介质可以生成包括所述第一比特流和所述第二比特流的经级联的比特流;以及将所述经级联的比特流发送到所述接收机。

6、在一些示例中,所述第二比特流还包括所述潜在先验的经压缩的版本和所述模型先验的经压缩的版本。

7、在一些情况下,生成所述第二比特流可以包括:通过所述神经网络压缩系统使用所述模型先验对所述潜在先验进行熵编码;以及通过所述神经网络压缩系统使用所述模型先验对所述经更新的模型参数进行熵编码。

8、在一些示例中,所述经更新的模型参数包括解码器模型的一个或多个经更新的参数。在一些情况下,所述一个或多个经更新的参数可以是使用所述输入数据被调谐的。

9、在一些示例中,所述经更新的模型参数包括编码器模型的一个或多个经更新的参数。在一些情况下,所述一个或多个经更新的参数可以是使用所述输入数据被调谐的。在一些情况下,所述第一比特流是通过所述神经网络压缩系统使用所述一个或多个经更新的参数生成的。

10、在一些示例中,生成所述第二比特流可以包括:通过所述神经网络压缩系统使用所述一个或多个经更新的参数将所述输入数据编码为所述输入数据的潜在空间表示;以及通过所述神经网络压缩系统使用所述潜在先验将所述潜在空间表示熵编码为所述第一比特流。

11、在一些方面中,上述方法、装置和计算机可读介质可以基于用于训练所述神经网络压缩系统的训练数据集来生成所述神经网络压缩系统的模型参数;使用所述输入数据来调谐所述神经网络压缩系统的所述模型参数;以及基于所述模型参数与经调谐的模型参数之间的差异来确定所述一组更新。

12、在一些示例中,所述模型参数是基于所述输入数据、所述输入数据的所述经压缩的版本的比特大小、所述一组更新的比特大小、以及所述输入数据与从所述输入数据的所述经压缩的版本生成的重构的数据之间的失真而被调谐的。

13、在一些示例中,所述模型参数是基于所述输入数据以及发送所述一组更新的成本与所述输入数据和从所述输入数据的所述经压缩的版本生成的重构的数据之间的失真的比率而被调谐的,所述成本基于所述一组更新的比特大小。

14、在一些示例中,调谐所述模型参数可以包括:基于以下确定将一个或多个参数包括在所述经调谐的模型参数中:将所述一个或多个参数包括在所述经调谐的模型参数中伴随着以下各项中的至少一项的减少:所述输入数据的所述经压缩的版本的比特大小以及所述输入数据和从所述输入数据的所述经压缩的版本生成的重构的数据之间的失真。

15、在一些示例中,确定用于所述神经网络压缩系统的所述一组更新可以包括:处理所述神经网络压缩系统处的所述输入数据;基于经处理的输入数据确定所述神经网络压缩系统的一个或多个损失;以及基于所述一个或多个损失来调谐所述神经网络压缩系统的模型参数,经调谐的模型参数包括用于所述神经网络压缩系统的所述一组更新。

16、在一些情况下,所述一个或多个损失包括:与用于基于所述第一比特流的大小来发送所述输入数据的所述经压缩的版本的速率相关联的速率损失,与所述输入数据和从所述输入数据的经压缩的版本生成的重构的数据之间的失真相关联的失真损失,以及与用于基于所述第二比特流的大小来发送经更新的模型参数的所述经压缩的版本的速率相关联的模型速率损失。

17、在一些示例中,所述接收机包括编码器。在一些方面,上述方法、装置和计算机可读介质可以通过所述编码器接收包括所述第一比特流和所述第二比特流的数据;通过所述解码器对基于所述第二比特流的所述经更新的模型参数的所述经压缩的版本进行解码;以及通过所述解码器使用所述一组经更新的参数,基于所述第一比特流中所述输入数据的所述经压缩的版本生成所述输入数据的经重构的版本。

18、在一些方面,上述方法、装置和计算机可读介质可以通过降低速率失真和模型速率损失来训练所述神经网络压缩系统,其中,模型速率反映了用于发送模型更新的比特流的长度。

19、在一些示例中,所述模型先验包括独立高斯网络先验、独立拉普拉斯网络先验和/或独立spike和slab网络先验。

20、在一些方面,装置可以是下列各项或者可以是下列各项的一部分:相机(例如,ip相机)、移动设备(例如,移动电话或所谓的“智能电话”或其他类型的移动设备)、智能可穿戴设备、扩展现实设备(例如,虚拟现实(vr)设备、增强现实(ar)设备或混合现实(mr)设备)、个人计算机、膝上型计算机、服务器计算机、3d扫描仪、多相机系统,或者其他设备。在一些方面,所述装置包括用于捕获一个或多个图像的相机或多个相机。在一些方面,所述装置还包括用于显示一个或多个图像、通知和/或其他可显示数据的显示器。在一些方面,上述装置可以包括一个或多个传感器。

21、本
技术实现要素:
并不旨在标识所要求保护的发明主题的关键或重要特征,也不旨在单独用于确定要求保护的发明主题的范围。应当通过参考本专利的整个说明书的适当部分、任何或所有附图以及每项权利要求来理解发明主题。

22、通过参考以下说明书、权利要求书和附图,前述以及其他特征和实施例将变得更加显而易见。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1