基于卷积神经网络的块内容分类方法与流程

文档序号:13627828阅读:384来源:国知局
基于卷积神经网络的块内容分类方法与流程

本发明涉及视频编码技术领域,尤其涉及一种基于卷积神经网络的块内容分类方法。



背景技术:

卷积神经网络作为深度学习算法中的一种,目前已经被广泛应用于图像分类和模式识别领域中。与此同时,高效视频编码(hevc)扩展延伸的屏幕内容编码(scc)采用了调色板模式(palette),帧内块预测模式(ibc)来提高编码效率,这样也不可避免地带来了很高的编码复杂度。

预测每个编码单元的内容类型是关键的一步,虽然目前已有一些工作通过低层特征,比如梯度、方差、熵和颜色数量等,可以被用于编码块的分类。然而,相关方法对于编码块内容类型预测的准确度还有待提高。



技术实现要素:

本发明的目的是提供一种基于卷积神经网络的块内容分类方法,可以提高内容类型预测的准确度与计算效率。

本发明的目的是通过以下技术方案实现的:

一种基于卷积神经网络的块内容分类方法,包括:

构建数据集,并将其内容类型作为训练样本的标签;

构建卷积神经网络,将训练样本转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特来做为卷积神经网络的输入,通过训练获得末位比特-卷积神经网络模型;

对输入的n×n的编码块进行预测时,首先利用末位比特-卷积神经网络模型预测当前编码块的内容类型,若输出为相机拍摄块,则获得分类结果;若输出为计算机生成块,则继续利用末位比特-卷积神经网络模型进行预测,获得相应的计算机生成文本块或计算机生成非文本块的分类结果。

由上述本发明提供的技术方案可以看出,根据预先训练的卷积神经网络模型,对每个编码单元预测其内容类型,预测结果具有较高的准确度;此外,利用预测结果作为预处理方法,可以很容易的与快速模式选择和码率控制模块结合,来指导编码模式选择和码率控制,以减少冗余计算,提高压缩质量。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的将原始图像的灰度图转换成卷积神经网络的输入格式的示意图;

图2为本发明实施例提供的基于卷积神经网络的块内容分类方法的示意图;

图3为本发明实施例提供的不同大小编码块内容类型预测的示意图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

现有的屏幕内容编码标准中增加了一些新的编码工具,包括调色板模式(palette),帧内块匹配(intrablockcopy,ibc)等等。这些工具显著的提高了压缩质量,同时也大大增加了编码复杂度。因此寻找一种有效的方法,既可以保持压缩质量,又可以节约编码时间,将是一个非常重要和有前景的方法。本发明提出的一种基于卷积神经网络的块内容分类方法作为一个预处理方法,可以很容易的与快速模式选择和码率控制模块结合,来解决这个问题。

本发明实施例提供的一种基于卷积神经网络的块内容分类方法,主要包括如下步骤:

步骤1、构建数据集,并将其内容类型作为训练样本的标签。

步骤2、构建卷积神经网络,将训练样本转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特来做为卷积神经网络的输入,通过训练获得末位比特-卷积神经网络模型。

如图1所示,为将训练样本(即原始图)的灰度图转换为卷积神经网络的输入格式的示意图;图1(a)为rgb模式的原始图转换后的灰度图,图1(b)为转换后的末位比特图。

从图1(b)中可以看出:相机拍摄内容和计算机生成内容的末位比特分布有着较高的区分度,相机拍摄内容区域呈现无序雪花状,而计算机生成内容区域则能基本反映原图的纹理。因此通过末位比特图来区分相机拍摄内容和计算机生成内容能降低分类难度,提高分类准确度。

本领域技术人员可以理解,图1(a)~图1(b)主要是为了展示灰度图转换为末位比特图后二者的区别,以及末位比特图中相机拍摄内容和计算机生成内容的区别,图中模糊的文字、图形以及各种图像仅为举例并非构成限制,同时模糊的内容也不影响本发明的完整性。

步骤3、对输入的n×n的编码块进行预测时,首先利用末位比特-卷积神经网络模型预测当前编码块的内容类型,若输出为相机拍摄块,则获得分类结果;若输出为计算机生成块,则继续利用末位比特-卷积神经网络模型进行预测,获得相应的计算机生成文本块或计算机生成非文本块的分类结果。

如图2所示,分类预测分为两步,第一步,通过末位比特图区分相机拍摄块和计算机生成块;对于计算机生成块,执行第二步通过其灰度图进一步细分成计算机生成文本块和计算机生成非文本块。具体如下:

将当前编码块转换为灰度图,再将灰度图的每个像素用八比特二进制数进行表示,提取每个像素的末位比特,获得相应的末尾比特图,再利用末位比特-卷积神经网络模型对末尾比特图的内容类型进行预测;

若输出为相机拍摄块,则获得分类结果,终止流程;

若输出为计算机生成块,则根据计算机生成块的位置信息从灰度图中提取对应的灰度块,再利用末位比特-卷积神经网络模型对灰度块的内容类型进行预测;输出的分类结果为计算机生成文本块或计算机生成非文本块。

本领域技术人员可以理解,如图2所示仅为示意性的给出分类预测的过程,图中所涉及的各种图示仅为举例并非构成限制,同时,各种图示的表示形式也不影响本发明的完整性。

另外,对于输入的非n×n的编码块,分为如下两种情况:

若尺寸大于n×n,则根据其内部包含的所有n×n的编码块的内容类型来预测;如果所有n×n的编码块的内容类型都相同,则将相应的内容类型作为输入的非n×n的编码块的内容类型;否则,将输入的非n×n的编码块的内容类型标记为混合内容块;

若尺寸小于n×n,则认为其内容类型与其所在的n×n编码块的内容类型相同。

示例性的,可以设n=32。如图3所示,图3左侧的64×64的编码块记为a,其四个32×32的编码块的内容类型不完全相同,则将编码块a标记为混合内容块。图3右侧的左下角32×32的编码块记为b其为相机拍摄块,图3右侧右上方32×32的编码块为计算机生成文本块,其内部16×16的编码块c为计算机生成文本块,其内部8×8的编码块d为计算机生成文本块。

当对输入的编码块进行内容分类后,还可以进行编码模式选择,以及码率控制,具体如下:

1、编码模式选择。

本发明实施例中,根据编码块的尺寸及其内容类型进行编码模式选择。

如表1所示,若为2n×2n的相机拍摄块,则使用skip模式(跳过模式);若为n×n、n/2×n/2或者n/4×n/4的相机拍摄块,则使用intra模式(传统帧内预测模式);

若为2n×2n的计算机生成文本块,则使用skip模式;若为n×n、n/2×n/2或者n/4×n/4的计算机生成文本块,则使用palette模式(调色板模式);

若为2n×2n的计算机生成非文本块,则使用intra模式;若为n×n的计算机生成非文本块,则使用intra模式或者palette模式;若为n/2×n/2或者n/4×n/4的计算机生成非文本块,则使用intra模式、palette模式或者ibc模式(帧内块预测模式);

若为2n×2n的混合内容块,则使用skip模式。

表1编码块大小及内容类型,与编码模式的对应关系

另外,还对上述方案的性能进行实验,实验结果如表2所示。

表2本发明编码模式选择方案与scm-6.0性能比较

表2中,△bd-rate为y/u/v三通道的bd-rate增加平均值。从表2中可知,在标准测试环境(commontestconditions)下,本发明编码模式选择方案比scm-6.0能减少40.1%编码时间,仅带来1.3%的压缩性能下降。

2、码率控制。

本发明实施例中,根据编码块的内容类型,结合不同应用中对不同内容的压缩质量要求,通过改变编码块的量化系数以及跳过耗时长的模式来实现码率控制,可以提高压缩效率同时降低编码复杂度。

本发明实施例上述方案,根据预先训练的卷积神经网络模型,对每个编码单元预测其内容类型,预测结果具有较高的准确度;此外,利用预测结果作为预处理方法,可以很容易的与快速模式选择和码率控制模块结合,来指导编码模式选择和码率控制,以减少冗余计算,提高压缩质量。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1