基于深度神经网络的多功能视频快速编码方法与流程

文档序号:21040619发布日期:2020-06-09 20:39阅读:217来源:国知局
基于深度神经网络的多功能视频快速编码方法与流程

本发明属于视频编码技术领域,具体涉及一种基于深度神经网络的多功能视频快速编码方法,以达到在不影响编码器编码性能的前提下,实现大幅度节省编码时间的目的。



背景技术:

新一代多功能视频编码标准(vvc)采用了更多的技术来提升压缩率,以解决急剧增长的视频数据与有限带宽的网络传输环境的冲突问题。但是在提升编码效率的同时也增加了编码的计算复杂度。在vvc编码过程中,视频图像编码时会根据内容特征划分为不同大小的块(编码单元(cu))以提升压缩效率,而确定视频图像最佳分块方式会耗费大量的编码时间。因此,如果能优化编码单元的划分过程将极大提高编码器的编码效率。但目前适用于vvc的帧内快速编码算法还不够完善。

针对这种现象,本发明提出了基于深度神经网络的多功能视频编码快速算法,并通过实验结果表明,在不影响编码器编码性能的情况下,与原始编码器相比,该算法可以节省平均59.82%的编码时间。



技术实现要素:

本发明的目的在于提供一种基于深度神经网络的多功能视频快速编码方法,该方法较传统编码方法节省了编码时间。

为实现上述目的,本发明的技术方案是:一种基于深度神经网络的多功能视频快速编码方法,包括如下步骤:

步骤s1、判断参考深度单元个数是否达到预设值,若是执行步骤s2;

步骤s2、基于bp神经网络对当前编码单元cu进行深度图预测,再根据深度图信息确定cu的划分深度;

步骤s3、基于概率模型,统计已编码cu最佳划分模式次数占比,依照概率从大到小确定当前cu划分模式预测顺序;

步骤s4、计算率失真rd代价值并根据相应代价判断规律,基于前提决策条件跳过不必要预测模式,提前终止划分过程,并确定当前cu的最佳预测模式。

在本发明一实施例中,所述步骤s1具体实现为:预设值个数为25,若参考深度单元个数小于25则采用原始编码流程对当前编码单元cu进行编码,否则执行步骤s2。

在本发明一实施例中,所述步骤s2具体实现为:

步骤s21、用c(x,y,t)表示视频第t帧中左上角像素值坐标为(x,y)的参考深度图单元,c(x,y,t)可表示如下:

其中,δx和δy表示-2到2的整数;上式表示,如果当前帧的参考深度图单元存在,就使用其为参考深度图单元;否则使用前一帧的相邻深度图单元作为参考深度图单元;

步骤s22、利用bp神经网络预测,bp神经网络模型的定义如下:

zl=act(wlxl+bl)

其中,zl、wl、xl、bl分别表示bp神经网络第l层的输出、权重、输入及偏置项;act表示激活函数;

步骤s23、在网络训练时采用交叉熵为损失函数,公式如下:

其中,p(d)和q(d)分别表示训练标签向量和bp神经网络的输出结果向量,d表示深度值;q(d)中概率最高的值被选为参考深度图单元的预测值u,定义如下:

步骤s24、cu的预测深度值pd可用如下公式表示如下:

其中,round(*)表示四舍五入函数,n和un分别表示该cu所包含的参考深度单元数目及该cu所包含的第n个深度单元的预测值。

在本发明一实施例中,所述激活函数act采用relu作为激活函数。

在本发明一实施例中,所述步骤s4具体实现为:

步骤s41、计算当前编码模式rd代价值;

步骤s42、基于前提决策条件判断跳过不必要划分模式:

前提决策条件判断表示如下:

cmin<ck

其中,ps表示第s个测试的划分模式成为最佳模式的次数占比;k表示第k个测试的划分模式;ck表示第k个划分模式的rd代价值;cmin表示在测试第k个划分模式前的cu的最小rd代价值;α为阈值,范围为0到1。

在本发明一实施例中,所述α取0.5。

相较于现有技术,本发明具有以下有益效果:本发明在不影响编码器编码性能的前提下,实现了大幅度降低编码时间的效果,具有非常广泛的应用场景。

附图说明

图1为本发明的方法流程图。

图2为ctu划分。

图3为划分深度信息。

图4为深度图信息。

图5为bp神经网络模型。

具体实施方式

下面结合附图,对本发明的技术方案进行具体说明。

本发明提供了一种基于深度神经网络的多功能视频快速编码方法,包括如下步骤:

步骤s1、判断参考深度单元个数是否达到预设值,若是执行步骤s2;

步骤s2、基于bp神经网络(反向传播神经网络)对当前编码单元cu进行深度图预测,再根据深度图信息确定cu的划分深度;

步骤s3、基于概率模型,统计已编码cu最佳划分模式次数占比,依照概率从大到小确定当前cu划分模式预测顺序;

步骤s4、计算率失真rd代价值并根据相应代价判断规律,基于前提决策条件跳过不必要预测模式,提前终止划分过程,并确定当前cu的最佳预测模式。

以下为本发明一具体实施例,。

本实施提供基于深度神经网络的多功能视频快速编码方法,整体工作流程如图1所示,包括以下步骤:步骤s1、判断参考深度单元个数是否充足决定是否采用快速算法;步骤s2、基于bp神经网络对当前cu进行深度图预测,再根据深度图信息确定cu的划分深度;步骤s3、基于概率模型,统计已编码cu最佳划分模式次数占比,依照概率从大到小确定当前cu划分模式预测顺序;步骤s4、计算rd代价值并根据相应代价判断规律,基于前提决策条件跳过不必要预测模式,提前终止划分过程,并确定当前cu的最佳预测模式。

在本实施例中,所述基于参考的深度单元个数充分性对本发明方法的影响考虑,如果参考深度单元个数充足,本发明方法效果明显;反之,样本个数不足时,本发明方法预测效果将不够明显,具体包括以下步骤:

步骤s1、本发明通过实验验证确定参考深度单元个数以25为指标,当参考单元不足25个时,按照原始编码流程对当前cu块进行编码;反之采用本发明方法。

在本实施例中,vvc采用了基于块的混合编码框架。所有输入编码器的图像帧都会先划分为相同大小的单元,称为ctu(树形编码单元)。ctu进一步划分为多个cu,以适应编码单元的局部图像特征。在编码过程中,cu会遍历所有可能的划分模式,并计算不同划分模式的rd代价值,最终选定rd代价值最小的划分模式作为最佳划分模式。划分后的cu还可以继续划分为更小的cu块,直到不能划分为止。与hevc中采用的四叉树划分不同,vvc为了提升压缩效率,在对cu进行划分时采用了更为复杂的二叉、三叉、四叉树划分结构,如图2,ctu划分示例所示;vvc的ctu的大小为128×128,cu的深度范围为0到6,划分深度信息如图3所示。每个cu最多要遍历5种不同的划分模式,包括二叉树水平划分、二叉树垂直划分、三叉树水平划分、三叉树垂直划分、四叉树划分。本发明使用bp神经网络如图5所示对cu进行深度图预测,再通过深度图信息确定cu的划分深度。其中cu的深度图指cu实际划分深度信息的矩阵表示,深度图信息如图4所示。

步骤s21、用c(x,y,t)表示视频第t帧中左上角像素值坐标为(x,y)的参考深度图单元,c(x,y,t)可表示如下:

其中,δx和δy表示-2到2的整数;上式表示,如果当前帧的参考深度图单元存在,就使用其为参考深度图单元;否则使用前一帧的相邻深度图单元作为参考深度图单元;

步骤s22、利用bp神经网络预测,bp神经网络模型的定义如下:

zl=act(wlxl+bl)

其中,zl、wl、xl、bl分别表示bp神经网络第l层的输出、权重、输入及偏置项;act表示激活函数,本发明采用relu作为激活函数;

步骤s23、在网络训练时采用交叉熵为损失函数,公式如下:

其中,p(d)和q(d)分别表示训练标签向量和bp神经网络的输出结果向量,d表示深度值;q(d)中概率最高的值被选为参考深度图单元的预测值u,定义如下:

步骤s24、cu的预测深度值pd可用如下公式表示如下:

其中,round(*)表示四舍五入函数,n和un分别表示该cu所包含的参考深度单元数目及该cu所包含的第n个深度单元的预测值。

进一步地,在上述步骤中获取当前cu块参考深度单元的信息后,进行概率排序,具体包括以下步骤:

基于概率统计模型统计已编码cu中最佳划分模式次数占比,并按照占比从大到小排序进行测试。

最后,在进行最佳模式预测过程时,通过一些简单处理跳过不必要步骤,进一步节省时间,具体步骤如下:

步骤s41、计算当前编码模式rd代价值;

步骤s42、基于前提决策条件判断跳过不必要划分模式:

前提决策条件判断表示如下:

cmin<ck

其中,ps表示第s个测试的划分模式成为最佳模式的次数占比;k表示第k个测试的划分模式;ck表示第k个划分模式的rd代价值;cmin表示在测试第k个划分模式前的cu的最小rd代价值;α为阈值,范围为0到1,本发明中α取经验值0.5。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1