背景技术:
1、近来,iso/iec mpeg(jtc 1/sc 29/wg 11)一直在积极尝试对未来的视频编解码技术进行标准化,特别是可利用机器学习或人工智能(ml/ai)的标准化。iso/iec jpeg已建立专注于基于ai的端到端神经图像压缩的jpeg-ai小组。中国avs标准还成立avs-ai特别小组来致力于神经图像和视频压缩技术的研究。此外,还对神经图像压缩(nic)方面的专门研究项目提供资金。
2、在基于神经网络的视频或图像编解码框架中,可使用多个模型,且每个模型可能需要大数据集并实现多个机器学习模型。传统的混合视频编解码器框架可专注于单独地训练和优化多个模型中的每一个模型,这可增加率失真损失或增加视频或图像编解码框架的计算成本,导致图像或视频框架/过程的总体性能降低。
3、因此,需要优化编解码框架并提高总体性能的方法。
技术实现思路
1、根据实施例,可提供一种用于使用具有替代项(substitution)的非线性量化进行神经图像压缩的方法。该方法可由一个或多个处理器执行。该方法可包括:接收待压缩的输入图像;基于输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩替代图像;通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。
2、根据实施例,可提供一种用于使用具有替代项的非线性量化进行神经图像压缩的装置。该装置可包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取程序代码并按照程序代码的指令进行操作。程序代码可包括:第一接收代码,配置成使得至少一个处理器接收输入图像;第一生成代码,配置成使得至少一个处理器基于输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩代码,配置成使得至少一个处理器压缩替代图像;量化代码,配置成使得至少一个处理器通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及编码代码,配置成使得至少一个处理器使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。
3、根据实施例,可提供一种非暂时性计算机可读介质,该非暂时性计算机可读介质存储有指令。当指令由用于使用具有替代项的非线性量化进行神经图像压缩的至少一个处理器运行时,指令可使得至少一个处理器:接收输入图像;基于输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩替代图像;通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。
1.一种使用具有替代项的非线性量化进行神经图像压缩的方法,所述方法由一个或多个处理器执行,所述方法包括:
2.根据权利要求1所述的方法,其中,所述非线性量化器是对数量化器。
3.根据权利要求2所述的方法,其中,所述获得量化表示包括:
4.根据权利要求1所述的方法,其中,所述方法进一步包括:
5.根据权利要求4所述的方法,其中,最佳压缩表示是所述输入图像和所述重建图像之间的率失真损失与所述压缩表示的比特消耗率之间的折衷的全局最小值。
6.根据权利要求1所述的方法,其中,所述生成压缩表示包括:
7.根据权利要求1所述的方法,其中,所述神经图像压缩包括预训练模型,并且其中,与所述预训练模型相关联的一个或多个模型权重是固定的。
8.根据权利要求7所述的方法,其中,使用所述非线性量化器对所述预训练模型进行微调。
9.根据权利要求1所述的方法,其中,所述神经图像压缩包括训练模型,并且其中,训练所述训练模型包括:
10.根据权利要求9所述的方法,其中,基于所述损失函数的输出损失来反向调整所述学习速率。
11.一种用于使用具有替代项的非线性量化进行神经图像压缩的装置,所述装置包括:
12.根据权利要求11所述的装置,其中,所述非线性量化器是对数量化器,并且其中,所述量化代码进一步包括:
13.根据权利要求11所述的装置,其中,所述程序代码进一步包括:
14.根据权利要求13所述的装置,其中,最佳压缩表示是所述输入图像和所述重建图像之间的率失真损失与所述压缩表示的比特消耗率之间的折衷的全局最小值。
15.根据权利要求11所述的装置,其中,所述神经图像压缩包括预训练模型,并且其中,与所述预训练模型相关联的一个或多个模型权重是固定的。
16.根据权利要求15所述的装置,其中,使用所述非线性量化器对所述预训练模型进行微调。
17.一种非暂时性计算机可读介质,存储有指令,当所述指令由用于使用具有替代项的非线性量化进行神经图像压缩的至少一个处理器运行时,所述指令使得所述至少一个处理器:
18.根据权利要求17所述的非暂时性计算机可读介质,其中,所述非线性量化器是对数量化器,并且其中,所述生成量化表示包括:
19.根据权利要求17所述的非暂时性计算机可读介质,其中,当所述指令由所述至少一个处理器运行时,所述指令进一步使得所述至少一个处理器:
20.根据权利要求19所述的非暂时性计算机可读介质,其中,最佳压缩表示是所述输入图像和所述重建图像之间的率失真损失与所述压缩表示的比特消耗率之间的折衷的全局最小值。