一种基于方向梯度统计特征的快速帧内预测模式决策方法

文档序号:24981163发布日期:2021-05-07 22:56阅读:185来源:国知局
一种基于方向梯度统计特征的快速帧内预测模式决策方法

本发明属于视频压缩技术领域,具体涉及一种基于方向梯度统计特征的快速帧内预测模式决策方法。



背景技术:

高清、超高清及4k视频等超高分辨率视频的出现,一方面,这意味着需要更大的带宽来传输视频数据,另一方面,也意味着需要更大的存储空间来保存视频数据。为缓解视频传输、存储对资源的需求,视频编码标准作为视频压缩技术的一种常用有效手段,目标是在不降低视频解码后的视频质量的条件下,最大可能地提高视频压缩比。视频编码标准发展历程中,一直都在探索创新中寻求新的突破,截止目前已经发布了很多不同的版本,最新版本是还在不断完善中的h.266/vvc(versatilevideocoding)标准。

vvc预测编码包括帧内预测编码和帧间预测编码。帧内预测编码消除了大量空域冗余,它是利用同一帧已编码完成的像素点对即将编码的像素点进行预测。vvc帧内预测模式由h.265原有的35种增加到67种,即dc模式,planar平面模式,和65种角度预测模式。预测模式的增加大大提高了帧内预测的准确性,但同时也带来了非常高的计算复杂度。vvc帧内预测通过采用粗模式选择(rmd)和最有可能预测模式(mpm)相结合的方法减少率失真优化(rdo)过程中涉及到的预测模式,从而降低帧内预测编码的复杂度。但即使是这样,vvc的帧内预测模式仍然涉及到众多的帧内模式选择,运算量非常大。



技术实现要素:

为了降低帧内预测模式决策复杂度,本发明公布了一种基于方向梯度统计特征(sog)的h.266/vvc快速帧内编码方法,以解决planar和非planar模式的快速决策。具体来说,用基于梯度方向统计的9维特征向量sog提取每个编码块(cu)的信息,然后利用sog特征,针对每种大小的cu,分别训练了一个支持向量机(svm:supportvectormachine)模型,用于进行planar和非planar预测模式的快速决策。本方法可以在保证编码效果的前提下有效降低编码算法的计算复杂度。

本发明采用以下技术方案:一种基于方向梯度统计特征的快速帧内预测模式决策方法,包括步骤:

s1、在离线阶段,从n个类型的视频序列中提取训练实例,以组成训练数据集;

s2、在离线阶段,利用训练数据集提取编码块cu的特征向量x={sog,xqstep}和对应的类别标签y,计算局部区域的梯度方向并进行统计,以此作为该局部区域的特征,并将训练数据集划分成训练集、验证集、测试集,其中特征sog反映了编码块cu的方向特征,xqstep表示量化步长;

s3、在离线阶段,训练各不同大小编码块cu的svm离线模型;

s4、在在线阶段,提取当前待编码块cu的特征向量,并将其输入到步骤s3训练好的对应的svm模型中,并通过svm模型预测待编码块cu是否选择planar模式。

作为优选方案,步骤s1中,n个类型分别是a、b、c、d、e,5个类型,且该5个类型的视频序列为根据分辨率的不同进行分类,其中a类视频分辨率是2560×1600,b类视频分辨率是1920×1080,c类视频分辨率是832×480,d类视频分辨率是416×240,e类视频分辨率是1280×720。

作为优选方案,5个类型的视频序列分别选择a类视频序列peopleonstreet、b类视频序列bqterrace、c类视频序列bqmall、d类视频序列basketballpass、e类视频序列fourpeople。

作为优选方案,步骤s1中,a类视频序列帧数为13帧、b类视频序列帧数为25帧、c类视频序列帧数为125帧、d类视频序列帧数为500帧、e类视频序列帧数为55帧。

作为优选方案,步骤s1中,通过在每个类型的视频序列中分别随机抽取相同数量的训练实例并对所述训练实例进行标签分类,以组成所需的训练数据集,且标签y=1表示当前编码块cu判断为选择planar模式的类,标签y=-1表示当前编码块cu判断为没有选择planar模式的类。

作为优选方案,步骤s2中,具体包括如下步骤:

s2.1、使用[-1,0,1]算子计算每个像素点x轴梯度值,使用[-1,0,1]t算子计算每个像素点y轴梯度值,即编码块cu中像素点(x,y)的梯度为:

gx(x,y)=h(x+1,y)-h(x-1,y)

gy(x,y)=h(x,y+1)-h(x,y-1),

公式中gx(x,y)表示目标区域位置(x,y)的水平方向梯度,gy(x,y)表示目标区域位置(x,y)的垂直方向梯度,h(x,y)表示位置(x,y)的像素值;

s2.2、通过gx(x,y)和gy(x,y)计算该像素点的梯度大小g(x,y)和梯度方向θ(x,y),即:

公式中g(x,y)为梯度大小,θ(x,y)为梯度方向;

s2.3、根据当前编码块cu中每个位置的梯度大小及方向进行sog特征计算;

s2.4、计算量化步长xqstep,以反映量化参数qp,并将xqstep加入特征向量x,计算量化步长xqstep的公式如下:

其中qp取22、27、32、37中的一个数值;

s2.5、将帧内预测planar和非planar模式决策的过程转化为二分类问题,即可以表示为y={+1,-1};

s2.6、将训练数据集划分成训练集、验证集、测试集。

作为优选方案,步骤s2.3中,具体包括以下步骤:

s2.3.1、以20°为间隔将梯度方向进行量化,得到9个方向区间,其角度中心数值分别为10°、30°、50°、70°、90°、110°、130°、150°、170°;

s2.3.2、初始化sog特征为9维0矢量,sog=[sog1、sog2、sog3、sog4、sog5、sog6、sog7、sog8、sog9]=[0,0,0,0,0,0,0,0,0];

s2.3.3、按像素点逐点计算当前编码块cu的sog特征,假设当前像素点的梯度大小和方向分别g(x,y)、θ(x,y),以下分别用g、θ表示,计算方法如下:

a.根据θ找出离其最近的两个角度中心θi、θi+1;

b.按θ离两个角度中心θi和θi+1的距离得到两个加权系数(θ-θi)/20和(θi+1-θ)/20;

c.按下面公式计算该点的sog特征:

sogi=sogi+g×(θi+1-θ)/20,sogi+1=sogi+1+g×(θ-θi)/20,

若θ与某个方向区间i的角度中心重合,则该点只对应方向区间i,此时sog特征计算公式为:sogi=sogi+g。

作为优选方案,步骤s3中,训练各不同大小编码块cu的svm离线模型,共17个模型。

作为优选方案,步骤s3中,svm离线模型选用径向基函数为核函数,惩罚参数c和rbf参数γ由网格搜索gs法确定。

作为优选方案,步骤s4中,具体包括以下步骤:

s4.1、提取当前待编码块cu的特征向量x,根据当前块大小选择对应大小的svm模型进行分类判别;

s4.2、若svm模型预测该待编码块cu选择planar模式,则不需要进行常规的角度模式优化选择过程;若svm模型预测该待编码块cu不选择planar模式,则排除planar模式,进行常规帧内模式选择过程。

本发明的有益效果是:本发明针对帧内预测模式选择过程,提出一种方向梯度统计sog的新特征向量,该特征向量能够反映编码块的方向特征,对图像块有良好的表达能力,对帧内预测模式分类的区分度高;基于sog特征,提出针对vvc的帧内预测planar模式和非planar模式决策的支持向量机模型,设计了相应的分类函数,并训练了相应的支持向量机模型。本发明的方法在保证视频质量基本不变的前提下,有效地降低了vvc帧内编码时间和复杂度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是一种基于方向梯度统计特征的快速帧内预测模式决策方法的流程图;

图2为角度分割示意图;

图3为sog计算示意图;

图4为基于网格搜索法的svm参数优化示意图;

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

参照图1,本实施例提供一种基于方向梯度统计特征的快速帧内预测模式决策方法,包括步骤:

s1、在离线阶段,从n个类型的视频序列中提取训练实例,以组成训练数据集;

s2、在离线阶段,利用训练数据集提取编码块cu的特征向量x={sog,xqstep}和对应的类别标签y,计算局部区域的梯度方向并进行统计,以此作为该局部区域的特征,并将训练数据集划分成训练集、验证集、测试集,其中特征sog反映了编码块cu的方向特征,xqstep表示量化步长;

s3、在离线阶段,训练各不同大小编码块cu的svm离线模型;

s4、在在线阶段,提取当前待编码块cu的特征向量,并将其输入到步骤s3训练好的对应的svm模型中,并通过svm模型预测待编码块cu是否选择planar模式。

具体的:

视频编码联合协作组(jointcollaborativeteamonvideocoding,jct-vc)推荐了若干格式为yuv的视频序列,这些视频序列根据分辨率的不同被分成了a-e五大类,因此步骤s1中,n个类型分别是a、b、c、d、e,5个类型,其中a类视频分辨率是2560×1600,b类视频分辨率是1920×1080,c类视频分辨率是832×480,d类视频分辨率是416×240,e类视频分辨率是1280×720。

5个类型的视频序列分别选择a类视频序列peopleonstreet、b类视频序列bqterrace、c类视频序列bqmall、d类视频序列basketballpass、e类视频序列fourpeople。可参照下表1:

表1常用视频序列

且,在进行离线训练时,应尽量使各训练序列提供相当的亮度ctu数量。即,用于svm训练的视频帧数应根据序列类别不同而有所不同,以减少数据(或类别)不平衡的问题。本实施例中,步骤s1中,a类视频序列帧数为13帧、b类视频序列帧数为25帧、c类视频序列帧数为125帧、d类视频序列帧数为500帧、e类视频序列帧数为55帧。

步骤s1中,通过在每个类型的视频序列中分别随机抽取相同数量的训练实例并对所述训练实例进行标签分类,以组成所需的训练数据集,且标签y=1表示当前编码块cu判断为选择planar模式的类,标签y=-1表示当前编码块cu判断为没有选择planar模式的类。

步骤s2中,具体包括如下步骤:

s2.1、使用[-1,0,1]算子计算每个像素点x轴梯度值,使用[-1,0,1]t算子计算每个像素点y轴梯度值,即编码块cu中像素点(x,y)的梯度为:

gx(x,y)=h(x+1,y)-h(x-1,y)

gy(x,y)=h(x,y+1)-h(x,y-1),

公式中gx(x,y)表示目标区域位置(x,y)的水平方向梯度,gy(x,y)表示目标区域位置(x,y)的垂直方向梯度,h(x,y)表示位置(x,y)的像素值;

s2.2、通过gx(x,y)和gy(x,y)计算该像素点的梯度大小g(x,y)和梯度方向θ(x,y),即:

公式中g(x,y)为梯度大小,θ(x,y)为梯度方向;

s2.3、根据当前编码块cu中每个位置的梯度大小及方向进行sog特征计算;

s2.4、计算量化步长xqstep,以反映量化参数qp,并将xqstep加入特征向量x,计算量化步长xqstep的公式如下:

视频压缩编码中,qp一般取22、27、32和37,如当qp=22时,则xqstep=8;

s2.5、将帧内预测planar和非planar模式决策的过程转化为二分类问题,即可以表示为y={+1,-1},其中,且标签y=+1表示当前编码块cu判断为选择planar模式的类,标签y=-1表示当前编码块cu判断为没有选择planar模式的类;

s2.6、将训练数据集划分成训练集、验证集、测试集。

其中,步骤s2.3中,具体包括以下步骤:

s2.3.1、参照图2、3,以20°为间隔将梯度方向进行量化,得到9个方向区间,其角度中心数值分别为10°、30°、50°、70°、90°、110°、130°、150°、170°;

s2.3.2、初始化sog特征为9维0矢量,sog=[sog1、sog2、sog3、sog4、sog5、sog6、sog7、sog8、sog9]=[0,0,0,0,0,0,0,0,0];

s2.3.3、按像素点逐点计算当前编码块cu的sog特征,假设当前像素点的梯度大小和方向分别g(x,y)、θ(x,y),以下分别用g、θ表示,计算方法如下:

a.根据θ找出离其最近的两个角度中心θi、θi+1;

b.按θ离两个角度中心θi和θi+1的距离得到两个加权系数(θ-θi)/20和(θi+1-θ)/20;

c.按下面公式计算该点的sog特征:

sogi=sogi+g×(θi+1-θ)/20,sogi+1=sogi+1+g×(θ-θi)/20,

若θ与某个方向区间i的角度中心重合,则该点只对应方向区间i,此时sog特征计算公式为:sogi=sogi+g。

本实施例中,如图3所示,假设当前像素点的梯度方向为78°、梯度大小为40,则计算过程如下:

a.找到离78°最近的两个角度中心,它们为70°和90°,对应第4和第5个角度区间;

b.计算权重系数,第4、5个角度区间的权重系数分别为(90-78)/20=0.6和(78-70)/20=0.4;

c.计算该点对sog特征的贡献,即sog4=sog4+0.6*40=sog4+24,sog5=sog5+0.4*40=sog5+16。

步骤s3中,训练各不同大小编码块cu的svm离线模型,共17个模型。svm离线模型选用径向基函数为核函数,惩罚参数c和rbf参数γ由网格搜索gs(gridsearch)法确定。

支持向量机通过使用核函数来解决训练样本在原始输入空间中线性不可分的问题,即将已知训练样本的原始输入空间转换为新的特征空间并解决最优分类超平面问题。本发明中使用径向基核函数rbf,如下:

k(xi,xj)=exp(-γ||xi-xj||)2

本实施例中使用网格搜索法确定惩罚参数c和rbf参数γ。基于网格搜索法的svm参数优化示意图如图4所示。设置参数搜索步长以及参数空间,搜索步长用来划分参数空间,这样参数空间就可由网格表示,网格的交叉点即为网格节点。之后为网格中的每个节点赋值,得到一系列参数组值。最后评价每个参数组值的分类准确度,比较每个参数组值在svm模型中的表现性能,并选出分类准确度最高的参数组值,该参数组值即为该支持向量机模型的最优参数。本发明中的网格搜索法使用libsvm中的grid.py文件,例如大小为64×64的支持向量机的网格搜索图。

本实施例采用libsvm软件包训练svm,训练块大小为64×64、32×32、32×16、16×32、16×16、32×8、8×32、8×16、4×32、32×4、16×8、8×8、4×16、16×4、8×4、4×8、4×4的17个支持向量机模型。

步骤s4中,具体包括以下步骤:

s4.1、提取当前待编码块cu的特征向量x,根据当前块大小选择对应大小的svm模型进行分类判别;

s4.2、若svm模型预测该待编码块cu选择planar模式,则不需要进行常规的角度模式优化选择过程;若svm模型预测该待编码块cu不选择planar模式,则排除planar模式,进行常规帧内模式选择过程。

实验结果表明,本文提出算法与vtm5.0(vvc的参考模型)相比,编码时间大幅度缩短,而编码比特率bd-rate仅轻微增加,可以在保证编码效果的前提下有效降低编码算法的计算复杂度。

其中上述涉及的编码块cu可以为亮度编码块cu。此外,上述方法同样适用于cb色度编码块cu和cr色度编码块cu。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1