一种基于多尺度残差和窗口注意力的两阶段八度卷积的屏幕内容图像压缩方法

文档序号:37069394发布日期:2024-02-20 21:22阅读:30来源:国知局
一种基于多尺度残差和窗口注意力的两阶段八度卷积的屏幕内容图像压缩方法

本发明涉及一种基于多尺度残差和窗口注意力的两阶段八度卷积的屏幕内容图像压缩方法,属于图像处理。


背景技术:

1、目前,互联网中的图像与视频内容以惊人的速度逐年递增,而云计算和远程技术的快速发展使得屏幕内容图像的占比也在逐年递增。特别是近年来,在线会议、远程控制和协作、直播共享、云游戏等逐渐成为人们日常生活中进行学习和娱乐的重要手段。如何对海量的屏幕内容(sc)进行编码与传输成为一个亟待解决的问题。传统图像压缩算法已经经历了几十年的发展,产生了许多经典的编码标准,如h.264/avc,h.265/hevc,h.266/vvc等。而近年来基于学习的图像编码算法展示出了优秀的潜力,在率失真性能方面超越了最新的编码标准vvc。但目前绝大多数基于学习的图像压缩算法都是针对自然图像的编码进行研究,而没有考虑到屏幕内容图像的特点进行设计。传统的图像编码方案更关注对自然场景内容编码而忽略了屏幕内容,后者具有明显区别于前者的特性,包括无噪声、高对比度、边缘锐利等。

2、与通过传统摄像设备捕捉的自然场景(ns)图像不同,屏幕内容是由计算机生成的,包括文本、表格、图形以及动画等信息。因此,屏幕内容图像具有与自然场景图像不同的信号特征,屏幕内容往往具有极高或极低频率的内容,如大范围的平滑区域以及锐利的文本或边缘。此外,屏幕内容具有无噪音(non-existence of a noise level)以及更多重复的图案和像素。所以并不是所有针对摄像机捕获内容的图像编码技术都可以充分应用于屏幕内容。最新的通用视频编码标准vvc以及第三代视频编码标准avs3都对屏幕内容编码(scc)进行了探索,开发了许多编码工具,包括intra block copy(ibc),palette mode(plt),transform skip mode(tsm),intra string copy,deblocking modifications等。这些编码工具可以有效提升对于屏幕内容的编码性能,进一步扩展了编码标准的应用范围。相比于传统编码方案,端到端的图像压缩方案可以联合优化网络的各个模块来提升编码性能,针对屏幕内容编码也体现出了更加优越的性能。目前针对屏幕内容编码的端到端方案还没有得到充分的研究。


技术实现思路

1、针对现有技术的不足,本发明提供了一种基于多尺度残差和窗口注意力的两阶段八度卷积的屏幕内容图像压缩方法;

2、考虑到屏幕内容图像不同于自然场景图像的独有特性,本发明提供了一种针对屏幕内容图像的端到端压缩方法,利用两阶段八度卷积网络进行频率分解,提取特征的高频和低频信息。同时,利用级联的多尺度残差块进行跨尺度学习,并结合基于窗口的注意力模块来捕获高对比度信息。实验结果证明了提出方案的有效性。

3、术语解释:

4、1、lic(learned image compression):基于深度学习的图像编码算法。

5、2、ns(natural scene):自然场景内容,由摄像机捕捉生成。

6、3、sc(screen content):屏幕内容,由计算机生成。

7、4、vae(variational autoencoders):变分自编码器是一种生成模型,用于学习输入数据的潜在表示和生成新的数据样本。

8、5、gdn(generalized divisive normalization):广义分裂归一化操作。

9、6、gocb(generalized octave convolution block):广义八度卷积块。

10、7、torb(two-stage octave residual block):两阶段八度卷积残差块。

11、8、cmsrb(cascaded multi-scale residual blocks):级联的多尺度残差块。

12、9、wam(window-based attention module):基于窗口的注意力机制模块。

13、10、rb(residual block):残差网络块。

14、11、q(quantization):量化单元,将信号连续取值映射为离散值的过程,是图像编码过程中的重要环节。

15、12、ae/ad(arithmetic encoding and arithmetic decoding):算术编码/算术解码,通过熵编码将量化后的特征在编码端写入码流以及在解码端进行解码。

16、本发明的技术方案为:

17、一种基于多尺度残差和窗口注意力的两阶段八度卷积的屏幕内容图像压缩方法,包括:

18、将屏幕内容图像预处理后输入训练后的端到端图像压缩模块中实现屏幕内容图像的编码和解码,输出重构后的图像;

19、其中,利用两阶段八度卷积残差块(torb)进行频率分解,提取特征的高频和低频信息;同时,利用级联多尺度残差块(cmsrb)进行跨尺度学习,并结合基于窗口的注意力(wam)模块来捕获高对比度信息。

20、根据本发明优选的,端到端图像压缩模块包括基础编码器ga、基础解码器gs、超先验编码器ha、超先验解码器hs、量化单元、算术编码器ae、算术解码器ad、熵参数模型和上下文模型;

21、屏幕内容图像的编码中:输入图像x经过基础编码器模块ga得到图像的潜在特征y,y包括高频特征和低频特征,对高频特征和低频特征分别进行量化,分别得到量化后的高频特征yh和量化后的低频特征yl,然后使用算术编码器对yh和yl进行算术编码得到潜在特征y的编码码流;

22、y经过超先验编码器ha得到图像的超先验潜在特征z,z包括超先验高频特征和超先验低频特征,对超先验高频特征和超先验低频特征分别进行量化,分别得到量化后的超先验高频特征zh和量化后的超先验低频特征zl,然后使用算术编码器对zh和zl进行算术编码得到超先验潜在特征z的编码码流;

23、屏幕内容图像的解码中:首先对超先验编码器输出的超先验潜在特征z的码流进行算术解码,得到量化后的超先验高频特征zh和量化后的超先验低频特征zl,zh和zl经过反量化得到反量化后的超先验高频特征和反量化后的超先验低频特征和共同构成解码后的超先验潜在特征

24、经过超先验解码器hs得到潜在特征y的超先验信息,将超先验信息送入熵参数模型,并通过上下文模型学习潜在特征y的熵模型分布参数;熵参数模型用来学习熵参数模型的分布参数,包括三个卷积神经网络,卷积核大小为1×1。上下文模型包括一个掩膜(mask)卷积,卷积核大小为5×5。将上下文模型的输出和超先验解码器hs的输出一起送入熵参数模型,得到熵参数模型分布的均值和方差参数。根据学习的参数分布,对潜在特征y的码流进行算术解码,得到量化后的高频特征yh和量化后的低频特征yl;yh和yl再经过反量化,得到反量化后的高频特征和反量化后的低频特征和共同构成解码后的潜在特征

25、通过基础解码器gs得到重构后的解码图像

26、根据本发明优选的,基础编码器模块ga包括一个广义八度卷积块、四个两阶段八度卷积残差块、四个级联多尺度残差块和两个基于窗口的注意力模块;级联多尺度残差块使用不同大小的卷积核提取多尺度信息,基于窗口的注意力模块包括窗口注意力块(wb)和残差块(rb)。

27、根据本发明优选的,超先验编码器ha包括三个两阶段八度卷积残差块,其中,后两个两阶段八度卷积残差块分别使用lrelu函数作为激活函数。

28、根据本发明优选的,超先验解码器hs包括三个两阶段八度卷积残差块,与超先验解码器hs对称,其中,卷积使用转置卷积。

29、根据本发明优选的,基础解码器gs包括一个广义八度卷积块、四个两阶段八度卷积残差块、四个级联多尺度残差块和两个基于窗口的注意力模块;与基础编码器ga对称,其中,卷积使用转置卷积。

30、根据本发明优选的,利用两阶段八度卷积残差块进行频率分解,提取特征的高频和低频信息;包括:

31、对于输入的原始图像x,首先通过广义八度卷积神经网络(gocb)得到一个与原始图像分辨率大小相同的高频特征和一个分辨率大小减半的低频特征其中表示空间维度,w、h和ch表示特征图的宽度、高度和通道数;其中,ch=(1-α)c和cl=αc,α表示通道分配与输入特征的比值;具体实现过程如式(1)、式(2)、式(3)、式(4)所示:

32、

33、

34、

35、

36、式(1)、式(2)、式(3)、式(4)中,yh→h表示从高频到高频进行信息更新的特征,yl→l表示从低频到低频进行信息更新的特征,yl→h表示从低频到高频进行信息转换的特征,yh→l表示从高频到低频进行信息转换的特征,和表示第一阶段输出的高频特征和低频特征,yh和yl表示第二阶段输出的高频特征和低频特征;函数f(·;w)表示参数为w的卷积操作,而↑和↓对应以s的步长进行上采样卷积和下采样卷积,fst(·)表示卷积步长为2的跳跃连接,wh表示从到yh的卷积网络参数,wl表示从到yl的卷积网络参数,s2表示卷积步长为2;

37、yh、yl就是得到的特征的高频信息、低频信息。

38、根据本发明优选的,利用级联多尺度残差块进行跨尺度学习,包括:

39、级联多尺度残差块包括两个跳跃连接的多尺度残差块(msrb);

40、在每个多尺度残差块中,通过使用不同卷积核大小的两个分支提取特征,然后将其拼接起来进行特征融合;具体包括:第一个支路采用一个3×3的卷积提取特征,第二个支路采用一个5×5的卷积提取特征,将两个支路的特征分别进行特征交互,再分别送入一个3×3的卷积和一个5×5的卷积,将得到的特征拼接到一起送入一个1×1的卷积,输出的结果与来自原始输入特征的shortcut连接到一起得到一个多尺度残差块的输出;

41、使用一个由两个多尺度残差块级联到一起的级联多尺度残差块,得到最终的特征输出。

42、根据本发明优选的,结合基于窗口的注意力模块来捕获高对比度信息,包括:

43、通过基于窗口的注意力模块将更多的比特分配到高对比度的复杂区域,同时在低对比度的简单区域保留比特,具体如式(5)、式(6)、式(7)所示:

44、

45、

46、

47、首先,对于输入的窗口特征,分别通过θ、φ和g跨通道卷积变换,对于θ和φ的输出利用f(·)进行计算,对于g的输出利用g(·)进行计算,然后,将f(·)和g(·)的输出相乘后利用c(xk)进行归一化得到通过跨通道卷积wz进行变换后与进行shortcut连接得到最终的输出向量

48、其中,和表示输入特征的第k个窗口中的第i个和第j个元素,c(xk)为归一化因子,xk表示输入特征的第k个窗口特征,表示第i个位置处的输出,是根据第i和第j个位置的特征进行变换后加权平均得到,θ和φ为卷积核为1×1卷积的跨通道变换,f(·)为内嵌高斯函数,g(·)表示卷积运算,wz为对所有通道进行线性1×1卷积,最终得到经过shortcut连接的输出向量

49、根据本发明优选的,端到端图像压缩模块中,损失函数表述如式(8)所示:

50、

51、其中,λ表示拉格朗日乘子,码率r包括:高频特征yh的熵低频特征yl的熵超先验高频特征zh的熵和超先验低频特征zl的熵失真表示输入图像x和重构图像的重构误差。

52、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于多尺度残差和窗口注意力的两阶段八度卷积的屏幕内容图像压缩方法的步骤。

53、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于多尺度残差和窗口注意力的两阶段八度卷积的屏幕内容图像压缩方法的步骤。

54、本发明的有益效果为:

55、与其他方法相比,在解码图像的客观评价指标psnr相同的条件下,本发明的编码码率更低,说明本发明提出的方法具有更好的编码性能,即可以使用更低的码率获得更好的图像质量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1