一种高效的多尺度CTU分区网络架构

文档序号:37582111发布日期:2024-04-18 12:05阅读:6来源:国知局
一种高效的多尺度CTU分区网络架构

本发明属于视频编码,涉及一种高效的多尺度ctu分区网络架构。


背景技术:

1、近年来,降低hevc的编码复杂度的方法主要分为两大类:基于启发式的方法(heuristic-based methods)和基于深度学习的方法(deep-learning-based methods)。

2、基于启发式的方法通常是通过人为提取ctu中cu的特征或者人为设置某些规则来提前终止ctu的深度划分过程。早期,gweon等人通过在亮度和色度的所有编码块标志codedblock flags(cbf)为零的情况下跳过对当前cu深度的rdcost计算来减少计算复杂度。choi等人通过判断当前cu深度下的最佳预测模式是否为skip来提前结束对该cu深度的划分。yang等人通过采用差分运动矢量和编码块标志两个特征作为cu是否划分的标准来降低编码器的复杂度。kim等人使用了具有低复杂度和低rdcost的贝叶斯决策规则来对cu的划分做出判决。zhang等人采用时空相关性进行自适应的cu深度搜索,从而降低ctu划分的复杂度。在这些方法中都试图寻找到一种影响ctu划分的图像特征,以此作为ctu分区的依据。然而自然图像中边缘和纹理是千变万化的,不同cu之间的边缘/纹理特征以及它们之间的关系是十分复杂的,这种人为设置相关规则的方式是几乎不可能满足所有的cu的。因此,虽然启发式的方法能够在一定程度上降低hevc的编码复杂度,但其性能仍有较大提升空间。

3、近年来,深度学习神经网,尤其是cnn,因为其强大的特征提取能力和非线性表达能力,人们已将其用于ctu的深度划分中,出现了基于深度学习的方法。yu等人提出了一种基于cnn的二分类ctu深度划分方法:从初始的64×64图像块开始,判断其是否需要划分,如需要划分则继续对下一层的每个32×32图像块进行二分类判断,如不需要划分则直接终止对该层cu的划分,并且对所有深度的cu采用相同的网络架构。li等人针对不同深度的cu设计了不同的神经网络以实现更具针对性的cu深度预测,但是li等人却忽略了不同尺寸cu间的关联性。xu等人提出了一种eth-cnn(early terminated hierarchical-cnn)来进行分等级的cu深度地图预测,以降低帧内模式hevc的复杂度。feng等人提出了一种基于cnn的hevc帧内深度范围(hevc intra depth range cnn:hidr-cnn)预测网络,通过预测ctu可能的深度范围,并仅在预测的深度范围内执行rdcost计算来减少rdcost的计算次数,从而达到降低编码复杂度的目的。ren等人提出了一种基于cnn的帧内块划分(intra block partitioncnn:ibp-cnn)网络,通过学习图像块的纹理特征来实现ctu块的深度划分

4、由以上分析可知,虽然现有的基于深度学习的预测方法能够通过自主学习ctu的结构来做出对应的ctu深度划分决策,但是,现有的基于cnn的ctu深度划分方法几乎都只考虑了单一尺度的输入,而忽略了不同尺度cu之间的特征关联。由于缺乏对小尺度cu的特征提取和融合多尺度cu特性信息,导致这些网络不能很好的进行更准确ctu划分,因此现有的基于学习的方法仍有较大的提升空间。

5、在现有的基于学习的方法中,大家普遍的使用以cnn为基础构建的神经网络,并将整块ctu的亮度分量作为神经网络学习的数据进行训练,在这些方法中大多只考虑改变神经网络神经深度或者卷积核的尺寸来提高对ctu的特征提取能力,但却忽略了ctu中不同尺度下的cu之间的联系。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种高效的多尺度ctu分区网络架构。

2、为达到上述目的,本发明提供如下技术方案:

3、一种高效的多尺度ctu分区网络架构,其包括一级预测结构、二级预测结构以及三级预测结构,其中,一级预测结构用于预测64×64cu是否需要划分,二级预测结构用于预测32×32cu是否需要划分;三级预测结构用于预测16×16cu是否需要划分;

4、一级预测结构中包括单尺度特征提取层、深层特征提取层以及cu分区预测输出层,其中,单尺度特征提取层对应输入64×64cu;

5、二级预测结构中包括双尺度特征提取层、深层特征提取层以及cu分区预测输出层,其中,双尺度特征包括第一层和第二层,第一层对应输入64×64cu,第二层对应输入32×32cu;

6、三级预测结构中包括多尺度特征提取层、深层特征提取层以及cu分区预测输出层,其中,多尺度特征包括第一层、第二层以及第三层,第一层对应输入64×64cu,第二层对应输入32×32cu;第三层对应输入16×16cu。

7、进一步,在一级预测结构中,执行如下操作:

8、1)在一级预测结构的单尺度特征提取层中,采用1个步长为1的5×5卷积层来提取其中的特征信息,并在该卷积层之后执行1次2×2的最大池化操作,得到一个16×32×32的特征图;再采用2个3×3的卷积层来进一步提取细节特征,其中,第1个3×3卷积层的步长为1,第2个3×3卷积层的步长为2,得到48×16×16的特征图;再将48×16×16特征图经过1个3×3的卷积层和1个2×2的最大池化操作,将特征图的分辨率降为8×8,得到56×8×8的特征图;

9、2)进入一级预测结构的深层特征提取层,将56×8×8特征图经过2个步长为1的3×3卷积层和2个2×2的最大池化操作,分别得到维度为128×4×4和64×2×2的特征图,其中64×2×2特征图为最终得到的特征图;

10、3)在一级预测结构完成了基于卷积的特征提取和融合之后,采用5个连续的全连接层对64×2×2的特征图进行进一步的特征提取和输出最终的每个16×16cu是否需要划分的二分类结果,5个全连接层由4个隐藏层和1个输出层组成。

11、进一步,在二级预测结构中,执行如下操作:

12、1)在二级预测结构的多尺度特征提取层的第一层中,针对64×64的cu,采用了1个步长为1的5×5卷积层来提取其中的特征信息,并在该卷积层之后执行1次2×2的最大池化操作,得到一个16×32×32的特征图;再采用2个3×3的卷积层来进一步提取细节特征,其中,第1个3×3卷积层的步长为1,第2个3×3卷积层的步长为2,得到32×16×16的特征图;

13、2)在二级预测结构的多尺度特征提取层的第二层中,采用1个步长为1的3×3的卷积层来提取32×32cu的特征,在卷积层之后执行1次2×2的最大池化操作,将第二级的特征图的分辨率降为16×16,得到16×16×16的特征图,并将其与第一级的32×16×16特征图在通道维度上进行拼接得到48×16×16特征图;然后,将拼接后的48×16×16特征图再经过1个3×3的卷积层和1个2×2的最大池化操作,得到56×8×8的特征图;

14、3)然后进入二级预测结构的深层特征提取层,将拼接后的56×8×8特征图经过2个步长为1的3×3卷积层和2个2×2的最大池化操作,分别得到维度为128×4×4和64×2×2的特征图,其中64×2×2特征图为最终得到的特征图;

15、4)在二级预测结构完成了基于卷积的二级特征提取和融合之后,采用5个连续的全连接层对64×2×2的特征图进行进一步的特征提取和输出最终的每个16×16cu是否需要划分的二分类结果,5个全连接层由4个隐藏层和1个输出层组成。

16、进一步,在三级预测结构中,执行如下操作:

17、1)在三级预测结构的多尺度特征提取层的第一层中,针对64×64的cu,采用了1个步长为1的5×5卷积层来提取其中的特征信息,并在该卷积层之后执行1次2×2的最大池化操作,得到一个16×32×32的特征图;再采用2个3×3的卷积层来进一步提取细节特征,其中,第1个3×3卷积层的步长为1,第2个3×3卷积层的步长为2,再次将特征图的分辨率降为16×16,得到32×16×16的特征图;

18、2)在三级预测结构的多尺度特征提取层的第二层中,采用1个步长为1的3×3的卷积层来提取32×32cu的特征,在卷积层之后执行1次2×2的最大池化操作,将第二级的特征图的分辨率降为16×16,得到16×16×16的特征图,并将其与第一级的32×16×16特征图在通道维度上进行拼接得到48×16×16特征图;然后,将拼接后的48×16×16特征图再经过1个3×3的卷积层和1个2×2的最大池化操作,得到56×8×8的特征图;

19、3)在三级预测结构的多尺度特征提取层的第三层中,采用一个步长为1的3×3卷积层和一个2×2的最大池化层将输入的16×16cu映射为16×8×8的特征图,并与第二级中的56×8×8特征图再次进行通道维度上的拼接,得到72×8×8的特征图;

20、4)然后进入三级预测结构的深层特征提取层,将再次拼接后的72×8×8特征图经过2个步长为1的3×3卷积层和2个2×2的最大池化操作,分别得到维度为128×4×4和64×2×2的特征图,其中64×2×2特征图为最终得到的特征图;

21、5)在三级预测结构完成了基于卷积的三级特征提取和融合之后,本发明采用5个连续的全连接层对64×2×2的特征图进行进一步的特征提取和输出最终的每个16×16cu是否需要划分的二分类结果;5个全连接层由4个隐藏层和1个输出层组成。

22、进一步,在一级预测结构、二级预测结构以及三级预测结构的基于卷积的特征提取过程中,每个卷积层均采用prelu来作为非线性激活函数。

23、进一步,在一级预测结构、二级预测结构以及三级预测结构中均采用交叉熵作为其损失函数,如公式(1)所示:

24、

25、在公式(1)中,n表示不同尺度下cu的数量,在一级预测结构中n=1;在二级预测结构中n=4;在三级预测结构中n=16;

26、和分别表示每个cu真实的类别和网络输出的类别,i表示类别数,i∈[0,1]。

27、本发明的有益效果在于:提出了一种新的多尺度的卷积神经网络来实现对不同尺寸下cu的图像特征信息的提取,进而实现更加准确的ctu分区预测,从而降低hevc的编码复杂度。实验结果表明,与近几年极具代表神经网络方法相比,本发明提出的多尺度的卷积神经网络,可以更加高效的预测ctu分区信息有效的降低了hevc的编码复杂度。

28、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1