视频代码化的感受野一致卷积模型的制作方法

文档序号：22688600发布日期：2020-10-28 12:58阅读：来源：国知局

技术特征：

1.一种用于确定在视频代码化时对块进行编码的模式决策的卷积神经网络，包括：

特征提取层，所述特征提取层用于提取用于确定所述模式决策的所述块的特征，其中，通过设置等于内核大小的步幅值来对所述特征提取层中的至少一个处的输入执行非重叠卷积运算，所述模式决策包括对所述块的块分割，所述块具有n×n大小，并且所述块的最小分割输出具有s×s大小；以及

多个分类器，所述多个分类器用于处理所述块的所述特征，其中：

每个分类器包括分类层，所述分类层中的每个分类层用于接收具有相应特征尺寸的相应特征映射，

每个分类器配置为通过以下操作来针对所述块中的大小为(αs)×(αs)的子块推断分割决策，其中，α是2的幂，且α＝2,……,n/s：

在所述分类层中的一些连续分类层处应用大小为1×1的内核，以减小所述相应特征尺寸；以及

通过所述分类层中的最终层来输出与n/(αs)×n/(αs)×1输出映射对应的输出。

2.根据权利要求1所述的卷积神经网络，其中，进入所述特征提取层中的初始特征提取层的输入具有包括所述块和所述块的相邻像素的大小(n+1)×(n+1)×1，并且所述特征提取层的分支中的第一滤波器具有2^k+1的内核大小和等于2^k的步幅值，其中，k为整数。

3.根据权利要求1或2所述的卷积神经网络，其中，所述特征提取层中的最终层包括从所述特征提取层接收所述块的第一特征映射的级联层，其中，所述第一特征映射中的每一个具有s×s的大小。

4.根据权利要求1至3中任一项所述的卷积神经网络，其中，所述特征提取层包括等于所述块的可能四叉树分割决策的数目的分支数目，所述分支中的每一个包括所述特征提取层中的至少一个。

5.根据权利要求4所述的卷积神经网络，其中，所述特征提取层布置成使得所述分支中的每一个包括不同特征提取层，所述不同特征提取层不指代所述分支中的任何其它分支的所述特征提取层。

6.根据权利要求4或5所述的卷积神经网络，其中，所述多个分类器包括与所述分支中的相应分支对应的相应分类器，由相应分类器的初始分类层接收的所述特征映射被配置为针对所述块中的大小为(αs)×(αs)的子块推断所述分割决策，所述子块包括具有相应特征尺寸(n/2^β)×(n/2^β)的n个特征映射的卷积，其中，β为整数，且β＝0，……，(分支数目-1)。

7.根据权利要求1至4中任一项所述的卷积神经网络，其中，所述特征提取层中的初始特征提取层包括用于使用所述块的亮度数据作为输入来执行第一卷积运算的第一内核以及用于使用所述块的色度数据作为输入来执行第二卷积运算的第二内核，所述第一内核具有与所述第二内核不同的内核大小，并且其中，对所述块的所述块分割包括对所述块的所述亮度数据的分割。

8.根据权利要求7所述的卷积神经网络，其中，在所述初始特征提取层之后的第二滤波器提取层输出具有单个内核大小的相应特征映射。

9.根据权利要求7或8所述的卷积神经网络，其中，所述特征提取层布置成多个分支，每个分支与所述多个分类器中的相应一个分类器相关联，并且其中，所述分支中的每一个至少共享所述初始特征提取层。

10.根据权利要求1至9中任一项所述的卷积神经网络，其中，所述模式决策包括所述块的预测模式，所述多个分类器包括块分割分类器，并且所述卷积神经网络进一步包括多个预测模式分类器，其中：

多个预测模式分类器中的每一个包括至少一个分类层，所述分类层中的每个分类层接收具有相应特征尺寸的相应特征映射，并且每个分类器的初始分类层接收所述特征映射作为下述中的一个：所述特征提取层中的最终特征提取层的输出、或相应多个预测模式分类器的分类层的输出。

11.一种编码器，所述编码器包括根据权利要求1至10中任一项所述的卷积神经网络，其中，所述编码器被配置为使用由所述分类层中的最终层的输出所指示的一个或多个模式决策来对所述块进行编码。

12.一种使用卷积神经网络确定在视频代码化时对块进行编码的模式决策的方法，包括：

使用所述卷积神经网络的特征提取层来提取用于确定所述模式决策的所述块的特征，其中，通过设置等于内核大小的步幅值来对所述特征提取层中的至少一个处的输入执行非重叠卷积运算，所述模式决策包括对所述块的块分割，所述块具有n×n大小，并且所述块的最小分割输出具有s×s大小；

由所述卷积神经网络的每个包括分类层的多个分类器，通过以下操作来推断所述模式决策：

由每个分类层接收具有相应特征尺寸的相应特征映射；

由所述多个分类器中的相应分类器通过以下操作来针对所述块中的大小为(αs)×(αs)的子块推断分割决策，其中，α是2的幂，且α＝2,……,n/s：

在所述分类层中的一些连续分类层处应用大小为1×1的内核，以减小所述相应特征尺寸；以及

由所述分类层中的最终层来输出与n/(αs)×n/(αs)×1输出映射对应的输出。

13.根据权利要求12所述的方法，其中，提取所述块的所述特征包括：

使用第一特征提取层来将(n/s)×(n/s)非重叠卷积滤波器应用于所述块，以生成所述块的特征映射的第一基数。

14.根据权利要求13所述的方法，其中，提取所述块的所述特征包括：

使用第二特征提取层来将m×m非重叠卷积滤波器应用于所述第一特征提取层的输出，以生成每个大小为(n/m)×(n/m)的特征映射的第二基数，其中，m小于s，大于1并且是2的幂。

15.根据权利要求12至14中任一项所述的方法，进一步包括：

使用来自所述分类层中的所述最终层的所述输出来对所述块进行编码。

16.根据权利要求12至15中任一项所述的方法，其中，所述特征提取层包括：

第一分支，所述第一分支将特征映射提供给针对大小为(2s)×(2s)的子块推断分割决策的第一分类器的初始分类层；

第二分支，所述第二分支将特征映射提供给针对大小为(4s)×(4s)的子块推断分割决策的第二分类器的初始分类层；以及

第三分支，所述第三分支将特征映射提供给针对大小为(8s)×(8s)的子块推断分割决策的第三分类器的初始分类层；并且其中，所述第一分支、所述第二分支以及所述第三分支共享所述特征提取层中的至少一个。

17.根据权利要求16所述的方法，其中，推断所述模式决策包括：

在所述第一分类器的所述初始分类层处应用(n/s)×(n/s)非重叠卷积滤波器，以减小由所述第一分支提供的所述特征映射中的特征数目；

在所述第二分类器的所述初始分类层处应用(n/s)×(n/s)非重叠卷积滤波器，以减小由所述第二分支提供的所述特征映射中的特征数目；以及

在所述第三分类器的所述初始分类层处应用(n/s)×(n/s)非重叠卷积滤波器，以减小由所述第三分支提供的所述特征映射中的特征数目。

18.根据权利要求12至17中任一项所述的方法，其中，所述多个分类器包括多个分割分类器，所述模式决策包括所述块的变换大小，并且推断所述模式决策进一步包括：

由所述卷积神经网络的每个包括分类层的多个变换模式分类器中的相应分类器，使用来自所述特征提取层中的所述最终特征提取层的所述特征映射，针对所述块中的大小为(αs)×(αs)的子块推断变换大小决策。

19.一种用于对图像块进行解码的设备，包括：

处理器，所述处理器被配置为执行一种方法，所述方法包括：

在压缩比特流中接收将所述图像块分割成子块的指示，其中，编码器使用卷积神经网络来确定所述图像块的所述分割，所述卷积神经网络包括：

特征提取层，所述特征提取层用于提取用于确定所述分割的所述块的特征，其中，通过设置等于内核大小的步幅值来对所述特征提取层中的至少一个处的输入执行非重叠卷积运算，所述块具有n×n大小，并且所述块的最小分割输出具有s×s大小；以及

多个分类器，其中：

每个分类器包括分类层，所述分类层中的每个分类层接收具有相应特征尺寸的相应特征映射，

每个分类器被配置为通过以下操作来针对所述块中的大小为(αs)×(αs)的子块推断分割决策，其中，α是2的幂，且α＝2,……,n/s：

在所述分类层中的一些连续分类层处应用大小为1×1的内核，以减小所述相应特征尺寸；以及

由所述分类层中的最终层来输出与n/(αs)×n/(αs)×1输出映射对应的输出；以及

使用所述图像块的所述分割的所述指示来对所述图像块进行解码。

20.根据权利要求19所述的设备，其中，所述多个分类器共享所述特征提取层中的至少一个。

技术总结
确定用于对块进行编码的模式决策的卷积神经网络包括特征提取层和多个分类器。非重叠卷积运算通过设置等于内核大小的步幅值来在特征提取层处执行。所述块具有N×N大小，并且所述块的最小分割输出具有S×S大小。每个分类器的分类层接收具有特征尺寸的特征映射。初始分类层接收所述特征映射作为最终特征提取层的输出。每个分类器通过以下操作来针对所述块中的大小为(αS)×(αS)的子块推断分割决策，其中，α是2的幂，且α＝2、……、N/S：在一些连续分类层处应用1×1内核，以减小相应特征尺寸；并且通过所述分类层中的最后一个分类层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。

技术研发人员：克劳迪诺·科埃略;阿基·库塞拉;山·李;达克·何
受保护的技术使用者：谷歌有限责任公司
技术研发日：2019.09.17
技术公布日：2020.10.27

完整全部详细技术资料下载

当前第2页1 2