基于自编码器的图像压缩方法和装置与流程

文档序号:35851560发布日期:2023-10-25 19:43阅读:30来源:国知局
本发明涉及图像压缩,尤其涉及一种基于自编码器的图像压缩方法和装置。
背景技术
::1、现有技术中,基于神经网络进行图像压缩的方法均为使用神经网络对整张图像(全图)进行压缩,而非先将图像切分成图块再进行压缩。此外,现有技术在神经网络训练时也均使用整张图像作为训练数据进行训练。2、使用整张图像进行压缩的优势在于,整张图像中包括非常丰富的语义信息,这使得神经网络能够感知整张图像中的所有内容,从而能够提取更高层次的语义特征和全局特征。理论上而言,由于获得了更高层次的语义特征和全局特征,神经网络对整张图像进行压缩能够获得比对切割后的图像块进行压缩更高的压缩率。3、然而,尽管对整张图像进行压缩能够取得更好的压缩率,但是其在实际应用中仍存在一些问题。首先,为了获得更高的压缩率,神经网络需要学习全面的语义特征和全局特征,这导致整图压缩的神经网络体积通常会很大,而且需要更大的训练数据集和更长时间的训练才能达到要求。其次,神经网络体积变大还会严重影响压缩和解压缩的速度,尤其是难以在低算力低功耗的设备上部署使用。并且,由于网络算力高,大体积的神经网络也难以扩展应用至例如视频编解码等对吞吐率要求高的场景下。此外,由于需要全图输入,因此流式传输过程中编码器需要等到全图输入完毕后才能开始编码,在解码时解码器同样也需要接收到完整的图像比特流才能开始解码。这就导了图像编解码延迟增加,对延迟较高的应用场景(例如视频直播、云游戏等)存在较大的影响。4、现有技术中,基于频域变换(例如jpeg、mpeg)进行图像压缩的方法通常是,分隔图像为多个图块,对每个图块进行无损频域变换(离散余弦变换或小波变换),然后将变换后的结果使用量化表(quantization table)有损量化到更少的比特表示上,接着采用熵编码(例如霍夫曼编码)将所有图块的频域比特表示无损压缩成比特流。解压缩的方法是压缩方法的逆过程。5、然而,传统的频域压缩算法中,量化表是靠人的主观感知手工设计的,很难考虑到纹理的深层次关系并提取出冗余信息。此外,由于不同场景、不同风格的图像纹理存在不同,仅使用一个固定的量化表,很难在面对不同场景和风格的图片时均取得同样好的效果,但是对于每一种风格和场景分别设计一个量化表,又过于费时费力。6、综上所述,现有技术中无论是基于神经网络进行图像压缩的方法还是基于频域变换进行图像压缩的方法均存在一定的问题。技术实现思路1、鉴于此,本发明提供了一种基于自编码器的图像压缩方法及装置,以用于解决现有技术中的上述技术问题。2、根据本发明的一个方面,提供了一种基于自编码器的图像压缩方法,其中,该图像压缩方法包括以下步骤:3、s1:切割待处理图像为多个区域图块;4、s2:将多个区域图块输入至当前自编码器中,获得与多个区域图块中的每个区域图块分别对应的图块纹理特征;5、s3:对多个区域图块的图块纹理特征进行维度合并,得到压缩纹理特征集;6、s4:根据压缩纹理特征集,通过当前查找表查找出与压缩纹理特征集中的每行压缩纹理特征最邻近的行特征,根据行特征获得最邻近查找结果集;7、s5:对最邻近查找结果集进行维度拆分,获得与多个区域图块中的每个区域图块的图块纹理特征最邻近的最邻近纹理特征;8、s6:将多个区域图块中的每个区域图块的最邻近纹理特征输入至当前解码器中获得多个最邻近区域图块;9、s7:将多个最邻近区域图块进行拼接,获得输出图像,10、其中,当前查找表从预先构建的查找表集合中选定,然后根据选定的当前查找表从预先训练好的自编码器与解码器集合中选定当前自编码器以及当前解码器。11、根据本发明的另一个方面,提供了一种基于自编码器的图像压缩装置,其中,该图像压缩装置包括以下模块:12、图像切割模块,被配置为切割待处理图像为多个区域图块;13、图像编码模块,被配置为将多个区域图块输入至当前自编码器中,获得与多个区域图块中的每个区域图块分别对应的图块纹理特征;14、维度合并模块,被配置为对多个区域图块的图块纹理特征进行维度合并,得到压缩纹理特征集;15、邻近查找模块,被配置为根据压缩纹理特征集,通过当前查找表查找出与压缩纹理特征集中的每行压缩纹理特征最邻近的行特征,根据行特征获得最邻近查找结果集;16、维度拆分模块,被配置为对最邻近查找结果集进行维度拆分,获得与多个区域图块中的每个区域图块的图块纹理特征最邻近的最邻近纹理特征;17、图像解码模块,被配置为将多个区域图块中的每个区域图块的最邻近纹理特征输入至当前解码器中获得多个最邻近区域图块;18、图像获取模块,被配置为将多个最邻近区域图块进行拼接,获得输出图像,19、其中,当前查找表从预先构建的查找表集合中选定,然后根据选定的当前查找表从预先训练好的自编码器与解码器集合中选定当前自编码器以及当前解码器。20、根据本发明的又一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,其中,存储器用于存储可执行指令;一个或多个处理器被配置为经由可执行指令来实现上述的方法。21、根据本发明的再另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,使处理器执行上述的方法。22、从以上技术方案可以看出,本发明所提供的技术方案至少存在以下优点:23、1. 本发明使用自编码器和隐空间的离散表示直接压缩,能够在纹理的更高层次统计纹理的冗余信息并进行分类压缩,从而达到更好的压缩效果;24、2. 本发明使用小型神经网络直接提取训练图片中图块的局部纹理特征,并学习局部纹理特征到低维空间的映射关系,再用训练最临近查找表的方式将低维空间映射到图块的低比特表示上,从而不仅提高了压缩和解压缩的速度,降低了图像的编解码延迟,还能够提取到人眼感知不到的纹理特征,学习到更高效的纹理特征到低比特的映射关系,既提高了压缩率又能节省人工;25、3. 本发明还通过从多个查找表中进行选择的方式实现了多级别的码率控制,使得本发明所提供的方法具有用户可调的码率(压缩率)控制功能。技术特征:1.一种基于自编码器的图像压缩方法,其特征在于,所述图像压缩方法包括以下步骤:2.根据权利要求1所述的图像压缩方法,其特征在于,所述查找表集合在对所述自编码器与解码器集合进行预先训练的过程中构建。3.根据权利要求2所述的图像压缩方法,其特征在于,所述查找表集合中的每个查找表分别具有查找表序号,所述查找表序号为正整数。4.根据权利要求3所述的图像压缩方法,其特征在于,所述当前自编码器包括基础编码卷积模块组以及x个附加编码卷积模块,所述当前解码器包括基础解码卷积模块组以及x个附加解码卷积模块,其中x的值为所述当前查找表的序号减去1得到的值。5.根据权利要求4所述的图像压缩方法,其特征在于,所述方法还包括对所述最邻近查找结果集进行熵编码后传输至解码器端。6.根据权利要求5所述的图像压缩方法,其特征在于,所述自编码器与解码器集合的训练方法包括输入训练图片集,并分别对训练图片集中的每一帧训练图片执行以下步骤:7.根据权利要求6所述的图像压缩方法,其特征在于,所述方法中判断是否邻近的度量指标包括l1或l2范数。8.根据权利要求7所述的图像压缩方法,其特征在于,所述解码器输入端反向回传的梯度与所述自编码器输出端反向回传的梯度相同。9.根据权利要求8所述的图像压缩方法,其特征在于,所述压缩纹理特征集的压缩倍数由用户自行设定,所述压缩倍数包括正整数与正分数。10.根据权利要求9所述的图像压缩方法,其特征在于,当所述图块纹理特征除以所述压缩倍数后得到的压缩纹理特征的尺寸为分数时,则向上取整。11.一种基于自编码器的图像压缩装置,其特征在于,所述图像压缩装置包括以下模块:12.一种电子设备,其特征在于,所述电子设备包括:13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器执行权利要求1至10中任一项所述的方法。技术总结本发明提供了一种基于自编码器的图像压缩方法和装置。其中,该方法包括切割待处理图像为多个区域图块并依次输入至预先训练好的自编码器中,获得多个区域图块的图块纹理特征并进行维度合并,得到压缩纹理特征集;选定当前查找表并对将压缩纹理特征集进行最邻近查找,获得最邻近查找结果集后再进行维度拆分,得到与每个区域图块的图块纹理特征最邻近的最邻近纹理特征;将每个区域图块的最邻近纹理特征输入至预先训练好的解码器中获得多个最邻近区域图块并进行拼接获得输出图像。本发明的技术方案能够提取人眼感知不到的纹理特征,既提高压缩率又节省人工,而且具有用户可调的码率控制功能。技术研发人员:张浩,高熙和,张磊受保护的技术使用者:瀚博半导体(上海)有限公司技术研发日:技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1