一种基于特征的帧间编码方法与流程

文档序号:15202221发布日期:2018-08-19 14:29阅读:233来源:国知局

本发明涉及图像视频编码领域,特别是一种基于特征的帧间编码方法。



背景技术:

hevc(highefficiencyvideocoding,高清视频编码标准)作为最新一代的视频编码标准,相比上一代h.264编码标准,在相同编码质量的情况下,压缩效率可以提升一倍,但是hevc的编码复杂度会大于h.264的150%,hevc是基于视频图像质量的编码方法,即在相同的图像质量下,尽可能的压缩视频编码码率,或者反过来说,在相同的压缩码率下,尽可能的提高图像质量,在机器视觉应用中(比如物体识别、匹配、检索、分类等等),hevc等传统的视频压缩方法显得无能为力,一方面,基于图像质量的视频编码没有考虑到未来压缩后的视频会用于机器视觉,仅仅考虑到人对视频质量的愉悦感,对于机器来说,绚丽愉悦的视频质量并没有什么帮助,机器视觉需要的是视频中尽可能的保留更多的视频内容特征的信息;另一方面,现有的视频压缩技术都是有损压缩,因而难免会丢失信息,这些丢失的信息中就很有可能包含视频重要的内容特征,再者,由于hevc的广泛使用,导致视频编码的复杂度明显上升和编码时间增加。

基于以上几个要求,需要提出一种针对机器学习的尽可能保留足够多的可供识别的特征信息的视频编码方式,同时要求降低码率和编码时间。



技术实现要素:

为解决上述问题,本发明的目的在于提供一种基于特征的帧间编码方法,可以在保证编码性能不变的前提下,实现编码前后的特征信息尽量不丢失,提高视频压缩低码率编码中的主观质量,缩短编码时间,降低帧间预测编码过程中预算复杂度。

本发明解决其问题所采用的技术方案是:

一种基于特征的帧间编码方法,其特征在于:包括以下步骤:

a、利用基于视觉领域的特征提取方法定位视频中的每一帧的关键点,并提取出关键点的特征向量;

b、对关键点进行计算得到感兴趣区域,采用帧差法将当前帧图像与前一帧图像的感兴趣区域的关键点的特征向量进行比较,得到当前帧的运动特性,并对编码单元进行编码深度划分;

c、遍历编码单元所有深度下的预测单元预测模式,得到视频编码的帧间模式。

进一步,所述步骤a中利用基于视觉领域的特征提取方法定位视频中的每一帧的关键点,所述特征提取方法为fgsift算法。

进一步,所述步骤a利用基于视觉领域的特征提取方法定位视频中的每一帧的关键点,并提取出关键点的特征向量,包括以下步骤:

a1、对视频中的每一帧进行尺度空间极值检测,得到极值点;

a2、采用dog函数定位关键点的位置;

a3、提取关键点的特征向量。

进一步,所述步骤b对关键点进行计算得到感兴趣区域,采用帧差法将当前帧图像与前一帧图像的感兴趣区域的关键点的特征向量进行比较,得到当前帧的运动特性,并对编码单元进行编码深度划分,包括以下步骤:

b1、判断当前帧是否为第一帧,若是,转步骤b8,若否,转步骤b2;

b2、判断当前最大编码单元是否为第一个最大编码单元,若是,转步骤b4,若否,转步骤b3;

b3、判断当前最大编码单元是否在边界上,若是,转步骤b8,若否,以最大编码单元为单位,遍历每个最大编码单元,转步骤b4;

b4、采用特征映射函数将分布在当前最大编码单元上的关键点数量进行感兴趣区域参数的计算,根据设定的感兴趣区域阈值判断当前最大编码单元是否处于感兴趣区域,若为非感兴趣区域,转步骤b5,若为感兴趣区域,转步骤b6;

b5、判断非感兴趣区域是否为近似平滑区域,若是近似平滑区域,则当前最大编码单元中的所有编码单元划分深度为0,且预测单元模式设为part_2nx2n,若为非近似平滑区域,转步骤b9;

b6、将当前帧图像与前一帧图像的感兴趣区域的特征向量进行比较,统计图像中位置和方向都发生变动的关键点个数,并计算变动比其中numc为变动的关键点个数,numt为当前最大编码单元中总的关键点个数;

b7、根据设定的变动关键点阈值判定当前最大编码单元是否为运动剧烈区域,若为运动剧烈区域,转步骤b8,若为非运动剧烈区域,转步骤b9;

b8、采用xcompresscu函数对编码单元进行hm标准的四叉树递归划分;

b9、参考前一帧图像的对应位置最大编码单元的划分情况,对当前编码的最大编码单元按设定的深度进行划分。

进一步,所述步骤b4中采用特征映射函数将分布在当前最大编码单元上的关键点数量进行感兴趣区域参数的计算,其中特征映射函数的计算式为:

其中i表示视频帧中子块的编号,numkey[i]表示第个子块中关键点的数量,表示视频帧中非零的numkey[i]的期望值,t和t分别表示上限和下限。

进一步,所述步骤b4中根据设定的感兴趣区域阈值判断当前最大编码单元是否处于感兴趣区域,设定的感兴趣区域阈值为λthr=0.5,若计算得到的感兴趣区域参数大于0.5,即当前最大编码单元处于感兴趣区域,否则处于非感兴趣区域。

进一步,所述步骤b5中判断非感兴趣区域是否为近似平滑区域,通过与设定的近似平滑区域阈值进行对比,当该区域的关键点个数低于近似平滑区域阈值时即为近似平滑区域,否则为非近似平滑区域,其中近似平滑区域阈值为numthr=32。

进一步,所述步骤b6中根据设定的变动关键点阈值判定当前最大编码单元是否为运动剧烈区域,其中设定的变动关键点阈值为rthr=0.5,当关键点的变动比大于0.5时,即为运动剧烈区域,否则为非运动剧烈区域。

进一步,所述步骤c中遍历编码单元所有深度下的预测单元预测模式,采用hevc规定遍历编码单元所有深度下的预测单元预测模式。

进一步,所述步骤c中得到视频编码的帧间模式的具体步骤为:通过hm的率失真计算,选取率失真代价最小的编码单元划分方式和预测单元预测模式,作为该帧的帧间编码模式。

本发明的有益效果是:本发明采用的一种基于特征的帧间编码方法,利用相邻帧的特征信息相关性,根据前后两帧中相同位置的关键点的特征向量来确定两帧的相似程度,并根据相似程度来快速确定编码单元的划分模式,从而减少预测编码的遍历深度以及冗余的率失真代价值递归计算,可以在保证编码性能不变的前提下,实现编码前后的特征信息尽量不丢失,提高视频压缩低码率编码中的主观质量,缩短编码时间,降低帧间预测编码过程中预算复杂度。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明一种基于特征的帧间编码方法的流程框图;

图2是本发明一种基于特征的帧间编码方法的流程图。

具体实施方式

参照图1,本发明的一种基于特征的帧间编码方法,其特征在于:包括以下步骤:a、利用基于视觉领域的特征提取方法定位视频中的每一帧的关键点,并提取出关键点的特征向量;b、对关键点进行计算得到感兴趣区域,采用帧差法将当前帧图像与前一帧图像的感兴趣区域的关键点的特征向量进行比较,得到当前帧的运动特性,并对编码单元(编码单元)进行编码深度划分;c、遍历编码单元所有深度下的预测单元(预测单元)预测模式,得到视频编码的帧间模式。

通过本发明的方法,可以在保证编码性能不变的前提下,实现编码前后的特征信息尽量不丢失,提高视频压缩低码率编码中的主观质量,缩短编码时间,降低帧间预测编码过程中预算复杂度

具体地,步骤a采用的是fgsift算法作为特征提取算法进行关键点的定位以及特征向量的提取,具体过程为:

a1、对视频中的每一帧进行尺度空间极值检测,得到极值点;

a2、采用dog函数精确定位关键点的位置,首先,根据下列计算式计算dog函数中的x方向上的高斯差分dog_x:

dog_x=g_x(x,y,kσ)-g_x(x,y,σ)

=g(x,kσ)*i(x,y)-g(x,σ)*i(x,y);

=(g(x,kσ)-g(x,σ))*i(x,y)

其中,dog_x是两个附近尺度的g_x的差值,其中g_x(x,y,σ)是输入图像i(x,y)和图像i(x,y)在x维的1-d高斯核g(x,σ)(1×n矢量)的卷积,上式可以直接从两个高斯内核与输入图像的差的卷积产生dog_x,它可以在从w×h到n的过程中减少一次图像卷积计算和减法运算的次数(w和h是图像的宽度和高度),接下来,用dog_x与y方向上的高斯差分的卷积计算出dog_xy(x,y,kσ),y方向上的高斯差分为y维的两个附近尺度的1-d高斯核g_(x,σ)(1×n矢量)的差值,根据下式计算得到dog_xy(x,y,kσ):

dog_xy(x,y,kσ)=(g(y,kσ)-g(y,σ))*dog_x(x,y,kσ);

这个算法选择dog_xy(x,y,kσ)的局部峰值作为候选关键点时,单层使用3x3点窗口来检测极值点,因为分两个方向来求差值再卷积,实际上滤除了多余的点。

然后,fgsift算法要去除其中低对比度的点和边缘极值点,同时也去除一些噪声。

a3、提取关键点的特征向量。

具体地,本发明在特征点检测算法方面可以选取其他算法,例如sift、kaze、surf等算法。

具体地,步骤b包括以下步骤:

b1、判断当前帧是否为第一帧,若是,转步骤b8,若否,转步骤b2;

b2、判断当前最大编码单元是否为第一个最大编码单元,若是,转步骤b4,若否,转步骤b3;

b3、判断当前最大编码单元是否在边界上,若是,转步骤b8,若否,以最大编码单元为单位,遍历每个最大编码单元,转步骤b4;

b4、采用特征映射函数将分布在当前最大编码单元上的关键点数量进行感兴趣区域参数的计算,根据设定的感兴趣区域阈值判断当前最大编码单元是否处于感兴趣区域,若为非感兴趣区域,转步骤b5,若为感兴趣区域,转步骤b6;

b5、判断非感兴趣区域是否为近似平滑区域,若是近似平滑区域,则当前最大编码单元中的所有编码单元划分深度为0,且预测单元模式设为part_2nx2n,若为非近似平滑区域,转步骤b9;

b6、将当前帧图像与前一帧图像的感兴趣区域的特征向量进行比较,统计图像中位置和方向都发生变动的关键点个数,并计算变动比其中numc为变动的关键点个数,numt为当前最大编码单元中总的关键点个数;

b7、根据设定的变动关键点阈值判定当前最大编码单元是否为运动剧烈区域,若为运动剧烈区域,转步骤b8,若为非运动剧烈区域,转步骤b9;

b8、采用xcompresscu函数对编码单元进行hm标准的四叉树递归划分;

b9、参考前一帧图像的对应位置最大编码单元的划分情况,对当前编码的最大编码单元按设定的深度进行划分。

具体地,步骤b4中采用特征映射函数将分布在当前最大编码单元上的关键点数量进行感兴趣区域参数的计算,其中特征映射函数的计算式为:

其中i表示视频帧中子块的编号,numkey[i]表示第个子块中关键点的数量,表示视频帧中非零的numkey[i]的期望值,t和t分别表示上限和下限。

在计算得到当前最大编码单元上的关键点数量的感兴趣区域参数后,将其与预先设定好的感兴趣区域阈值λthr进行对比,本发明设定的感兴趣区域阈值λthr=0.5,若计算得到的感兴趣区域参数大于0.5即表示当前最大编码单元处于感兴趣区域,否则处于非感兴趣区域。

具体地,步骤b5中判断非感兴趣区域是否为近似平滑区域,通过与设定的近似平滑区域阈值进行对比,当该区域的关键点个数低于近似平滑区域阈值时即为近似平滑区域,否则为非近似平滑区域,其中近似平滑区域阈值为numthr=32。

在步骤b5中的part_2nx2n为帧间编码预测单元的的8种分割模式中的一种,代表最平滑的预测单元预测模式,当判断非感兴趣区域为近似平滑区域时,即采用模式part_2nx2n作为最终的预测单元预测模式。

具体地,步骤b6中根据设定的变动关键点阈值判定当前最大编码单元是否为运动剧烈区域,其中设定的变动关键点阈值为

rthr=0.5,当关键点的变动比大于0.5时,即为运动剧烈区域,否则为非运动剧烈区域。

具体地,本发明所设定的感兴趣区域阈值λthr、asr阈值numthr、变动关键点阈值rthr的大小可以根据实际情况进行设定。

具体地,步骤c中遍历编码单元所有深度下的预测单元预测模式,采用hevc规定遍历编码单元所有深度下的预测单元预测模式。

具体地,步骤c中得到视频编码的帧间模式的具体步骤为:通过hm的率失真计算,选取率失真代价最小的编码单元划分方式和预测单元预测模式,作为该帧的帧间编码模式。

参照图2所示,本发明的一种基于特征的帧间编码方法的流程图,其中lcu为最大编码单元,asr为近似平滑区域,cu为编码单元,pu为预测单元,具体步骤为:

s1、对每一帧图像进行特征检测,转步骤s2;

s2、当前帧是否为第一帧,否转步骤s3,是转步骤s12;

s3、当前lcu是否为第一个lcu,否转步骤s4,是转步骤s5;

s4、当前lcu是否处于边界,否转步骤s5,是转步骤s12;

s5、进入特征映射函数,转步骤s6;

s6、当前lcu是否处于感兴趣区域,是转步骤s7,否转步骤s9;

s7、采用帧差法进行计算,转步骤s8;

s8、当前lcu是否为运动剧烈区域,否转步骤s10,是转步骤s12;

s9、是否为asr区域,是转步骤s13,否转步骤s10;

s10、参考前一帧对应的lcu划分形式,转步骤s11;

s11、按照hevc规定遍历所有cu深度下的所有pu模式,转步骤s14;

s12、对cu进行hm标准的四叉树递归划分,转步骤s14;

s13、当前lcu中所有cu划分深度为0,且pu模式为part_2nx2n,转步骤s14;

s14、结束。

本发明将与hevc视频编码标准的参考软件hm16.5的方法进行比较,并对其中三种视频编码性能进行比较分析:峰值信噪比psnr(主要体现视频的客观视频质量)、比特率(体现占用资源大小)、编码时间(体现编码的计算复杂度),引入如下三个衡量指标进行评价:

δpsnr=psnrours-psnrhm;

其中δpsnr表示本发明方法与hm16.5标准方法峰值信噪比的差值,δbr为本发明方法与hm16.5标准方法比特率的差值占比,δt为本发明方法与hm16.5标准方法编码时间的差值占比。

表1(本发明与hm16.5标准方法各个参数之间的比较)

表1为本发明提供的方法和hm16.5之间的psnr、比特率和编码时间的比较,如表1所示,与hm16.5相比,使用本发明的方法在视频质量和比特率损失很小的情况下,节省了33.14%~56.53%的编码时间。

另外,针对本发明保留特征的特点,为了保证视频帧的特征被保留,所以需引入匹配对和匹配度这两个评估标准来对本发明方法输出的视频序列与hm16.5自身编码方式输出的视频序列,与未编码的视频序列进行匹配,结果如表2所示。

匹配步骤如下:将本发明方法输出的视频序列与未编码的视频序列用fg-sift算法找出关键点,生成描述子,然后进行匹配,然后统计两者的匹配线的数目,即为匹配对,hm16.5自身编码方式输出的视频序列也是如此。

因为本发明中视频帧的特征信息用关键点的形式表现出来,所以可以用关键点的匹配来证明本发明方法能够将视频帧中的特征信息保留下来,并通过用匹配度来进行直观的评判,匹配度的定义为:

如表2所示,本发明提供的方法的匹配度最高可达到91.90%,平均可达到84.27%,匹配度越高,表示保留特征性能越好,所以本发明提供的方法基本上保留了视频帧中的特征信息。

表2(本发明提供的方法与hm16.5之间的匹配度)

综上所述,本发明方法可以实现在保证编码性能不变的前提下,实现编码前后的特征信息尽量不丢失,提高视频压缩低码率编码中的主观质量,缩短编码时间,降低帧间预测编码过程中预算复杂度等目标。

以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1