本发明涉及利用基于块的深度学习模型的视频编解码器。
背景技术:
1、本部分中的陈述仅提供与本发明有关的背景技术信息,并不一定构成现有技术。
2、由于视频数据与音频数据或静止影像数据相比具有较大的数据量,视频数据需要大量的硬件资源(包括存储器)来存储或发送未经压缩处理的视频数据。
3、相应地,编码器通常用于压缩并存储或发送视频数据。解码器接收压缩的视频数据,解压接收到的压缩的视频数据,并且播放解压的视频数据。视频压缩技术包括h.264/avc、高效率视频编码(high efficiency video coding,hevc)和多功能视频编码(versatile video coding,vvc),所述多功能视频编码(vvc)比hevc的编码效率提高了大约30%或更多。
4、然而,由于影像大小、分辨率和帧速率逐渐增加,要编码的数据量也在增多。相应地,需要一种与现有的压缩技术相比提供更高的编码效率和改善的影像增强效果的新的压缩技术。
5、近年来,基于深度学习的图像处理技术已经应用于现有的编码基本技术。通过将基于深度学习的图像处理技术应用于现有的编码技术(特别是,诸如帧间预测、帧内预测、环内滤波、变换等的压缩技术),可以提高编码效率。代表性的应用示例包括基于由深度学习模型生成的虚拟参考帧的帧间预测,以及基于去噪模型的环内滤波。因此,需要进一步采用基于深度学习的图像处理技术来提高影像编码/解码的编码效率。
技术实现思路
1、技术课题
2、在一些实施方案中的本发明致力于提供一种视频编解码器,其在通过利用深度学习模型处理视频块时,通过堆叠或封装yuv视频块的相应视频块来生成超级块,并且将生成的超级块输入到深度学习模型。视频编解码器根据超级块的构成的yuv块的特征,在深度学习模型内执行卷积的过程中不同地处理输入。
3、解决方法
4、本发明的至少一个方面提供了由计算装置执行的用于基于深度学习技术来处理视频块的方法。该方法包括:获得视频输入块,所述视频输入块包括y块、u块和v块,所述y块、u块和v块分别具有采样率格式为4:2:0或4:4:4的y信号、u信号和v信号。该方法还包括:通过堆叠或组合y块、u块和v块来生成输入块。该方法还包括将输入块输入到至少一个深度学习模型。该方法还包括通过基于至少一个或更多个深度学习模型执行卷积运算来从输入块生成输出块。该方法还包括从输出块生成视频输出块。
5、本发明的另一个方面提供了用于基于深度学习技术来处理视频块的装置。用于处理视频块的装置包括输入单元,所述输入单元配置为获得视频输入块,并且通过堆叠或组合y块、u块和v块来生成输入块,所述y块、u块和v块包括在视频输入块中并且分别具有采样率格式为4:2:0或4:4:4的y信号、u信号和v信号。用于处理视频块的装置还包括转换单元,所述转换单元配置为通过基于至少一个或更多个深度学习模型执行卷积运算来从输入块生成输出块。用于处理视频块的装置还包括输出单元,所述输出单元配置为从输出块生成视频输出块。
6、发明效果
7、如上所述,本实施方案提供了一种视频编解码器,其在通过堆叠或封装yuv视频块的相应视频块来生成超级块,并且将生成的超级块输入到深度学习模型。视频编解码器根据超级块的构成的yuv块的特征,在深度学习模型内执行卷积的过程中不同地处理输入,以提高编码效率并降低复杂度和存储要求。
1.一种由计算装置执行的用于基于深度学习技术处理视频块的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,生成输入块包括:
3.根据权利要求2所述的方法,其中,扩大包括:
4.根据权利要求2所述的方法,其中,扩大包括:
5.根据权利要求2所述的方法,其中,扩大包括:
6.根据权利要求1所述的方法,其中,生成输入块包括:
7.根据权利要求6所述的方法,其中,四等分包括:
8.根据权利要求1所述的方法,其中,生成输入块包括:
9.根据权利要求8所述的方法,其中,生成超级块包括:
10.根据权利要求1所述的方法,其中,生成输入块包括:
11.根据权利要求1所述的方法,其中,生成输入块包括:
12.根据权利要求1所述的方法,其中,将输入块输入包括:
13.根据权利要求1所述的方法,其中,将输入块输入包括:
14.根据权利要求1所述的方法,其中,将输入块输入包括:
15.根据权利要求1所述的方法,其中,生成输出块包括以下各项,以执行卷积运算:
16.根据权利要求15所述的方法,其中,填充包括:
17.根据权利要求15所述的方法,其中,填充包括:
18.根据权利要求15所述的方法,其中,设置步长值包括:
19.根据权利要求15所述的方法,其中,预设的核具有基于输入块的大小或色度分量而设置的核大小。
20.根据权利要求1所述的方法,进一步包括:
21.根据权利要求20所述的方法,其中,输入额外信息是响应于额外信息确定为块分区结构,堆叠输入块和块分区结构并将输入块和块分区结构的堆叠输入到深度学习模型。
22.根据权利要求20所述的方法,其中,输入额外信息是响应于额外信息确定为编码的图,堆叠输入块和编码的图并将输入块和编码的图的堆叠输入到深度学习模型。
23.一种用于基于深度学习技术处理视频块的装置,其包括: