一种基于VMAF的感知视频率失真编码优化方法及装置与流程

文档序号:23011954发布日期:2020-11-20 12:12阅读:158来源:国知局
一种基于VMAF的感知视频率失真编码优化方法及装置与流程
本发明涉及视频编码优化领域,具体涉及一种hevc(视频质量多方法评价融合)基于视觉感知特性的编码优化技术,尤其涉及一种基于vmaf的感知视频率失真编码优化方法及装置。
背景技术
:当前视频编码标准,如hevc、avc、avs等为了去除视频数据中的冗余信息,均采用了包含变换、量化、预测和熵编码的混合编码框架。其中具体的编码参数包括参考帧的选择方式、编码单元的划分模式、帧内和帧间的预测模式、变换单元的变换模式和量化单元的量化系数等需要编码器进行择优选择。为了联合考虑编码失真与编码码率,目前hevc使用率失真优化技术(rate-distortionoptimization,rdo)为输入视频选择一组最优参数,使得在有限码率的约束下保证编码后视频的失真最小。在率失真优化过程中需要失真函数d来量化对应的编码失真,考虑到视频质量评价指标的复杂度与可量化性,一般在率失真优化过程中使用mse(meansquareerror)或sse(sumofsquareerror)作为失真函数。但由于这些函数算法衡量单一,缺乏对视频前后整体序列的总体评估,使得失真计算结果与主观感受并不相符。随着结合人眼视觉特性的视频质量评价的深入研究,已经提出了一些可以反映视觉感知失真的客观质量评价指标,例如结构相似度指标ssim(structuredsimilarity)等。这些指标通过考虑图像的结构信息以及邻域像素的对比信息等因素综合评估图像质量,因此相比sse具有更好的主观一致性。而随着机器学习和视频质量评价的深入研究,一种基于机器学习的质量指标vmaf(videomultimethodassessmentfusion)被提出,可以针对多种场景、多种特征的视频场景进行测量,并且大量实验也验证了其相比与psnr或ssim更能真实反映人对视频质量感知情况。因此,可以将目前与人眼特性视觉结合最密切的指标vmaf应用到视频编码优化中,消除视觉感知冗余,提升视频质量主客观一致度。但是vmaf使用了机器学习算法支持向量机将基本指标进行融合,计算复杂度极高,无法直接迭代进入编码器中。并且在实际编码过程中视频会被分割成为更小的编码单元进行处理,vmaf只能针对视频的帧进行计算,无法像psnr或ssim那样对一个编码单元的失真进行独立计算,无法直接运行于编码混合框架中。技术实现要素:为了克服现有技术中存在的在编码优化过程中没有充分考虑人眼视觉特性,并避免直接利用vmaf优化编码器所带来的高复杂度问题,本发明提供一种利用时空内容因子拟合vmaf影响因子的率失真优化编码方法和装置。根据本发明的第一方面,提供一种基于vmaf的感知视频率失真编码优化方法,包括:在编码单元被编码前,计算编码单元与前一帧的像素差异并进行归一化,得到时域内容因子;在编码单元被编码前,计算编码单元的亮度、对比度、纹理并进行归一化,根据加权系数得到空域内容因子;将所述时域内容因子和所述空域感知因子拟合得到编码单元对于整体帧图像的vmaf分数的影响因子;使用所述vmaf影响因子修改编码过程中的率失真优化的拉格朗日因子,得到最终的编码优化方案。可选地,计算编码单元的亮度、对比度、纹理,根据加权系数得到空域内容因子,其中,对于当前待编码视频图像帧,计算编码单元的2nx2n划分rdcost、与临近单元的亮度与对比度、像素梯度与梯度方向性,合并计算得到空域内容因子。进一步的,亮度因子公式由像素平均亮度推导,对比度因子由像素平均亮度与编码单元亮度差异推导,纹理因子由梯度、梯度方向性、rdcost因子共同推导。可选地,根据得到的vmaf分数的影响因子,自适应地修改编码过程中的率失真优化的拉格朗日因子,使得影响因子大的区域获得更多码率以及较低失真,从而提升视频整体vmaf分数。根据本发明的第二方面,提供一种基于vmaf的感知视频率失真编码优化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行所述的基于vmaf的感知视频率失真编码优化方法。与现有技术相比,本发明实施例具有以下至少一种有益效果:本发明上述方法及装置,综合考虑了时空域内容感知因子,通过预编码的方式得到内容感知因子与vmaf分数的影响因子之间拟合的经验公式,用以拟合vmaf分数的影响因子从而自适应调整率失真优化过程中的拉格朗日乘子,避免了基于机器学习的质量指标vmaf在编码过程中的高复杂度问题,在保持相同的时间复杂度情况下提升编码性能。本发明上述方法及装置,在保证时间复杂度不提升的情况下,提升视频的编码效率。具体地,在hevc通用测试的ctc序列中,本发明实施例的时间复杂度基本不变的情况下(编码时间平均提升4%),相比hevc标准参考模型hm提升bd-vmaf3%以上(平均提升bd-vmaf3.03%)。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1是本发明一实施例的方法流程框图。具体实施方式下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。图1是本发明一实施例的方法流程框图。本发明实施例主要基于vmaf对视频率失真编码进行优化,综合考虑了时空域内容感知因子,通过预编码的方式得到内容感知因子与vmaf影响系数之间拟合的经验公式,从而调整率失真优化中的拉格朗日乘子以提升编码性能。具体地,参照图1所示,对于时域掩蔽效应,运动剧烈区域物体的具体失真细节相比运动缓慢区域物体更难以被人眼察觉,相邻画面的变化剧烈时人眼的分辨力会下降。类似的,对于空域掩蔽效应,纹理复杂区域产生的失真无法被人眼察觉。通过对视频的预编码与视频块内容替换可以得到vmaf块级影响系数,利用人眼视觉特性与视频时空内容因子,根据经验公式拟合的时空内容因子预测得到vmaf块级影响系数,在编码过程中进行率失真优化过程时对拉格朗日乘子进行优化调整。以下对本发明实施例的具体处理细节进行说明,以便于理解本发明的技术方案的实现。对于视频切片中的编码单元,具体感知视频率失真编码优化方法可以参照如下步骤进行:1、在编码单元被编码前计算编码单元与前一帧的像素差异并进行归一化,得到时域内容因子ωt,具体对应的计算公式为的如(1)式所示其中,ωt表示时域内容因子,表示当前编码单元与前一帧对应单元的平均像素差异。2、在编码单元被编码前计算编码单元的亮度、对比度、纹理并进行归一化,根据加权系数得到空域内容因子ωs,计算公式如(2)所示。其中,ωs为空域内容因子,α、β为加权系数,kba为亮度因子,kcm为对比度因子,ktc为纹理因子。在一优选实施例中,加权系数α、β根据计算经验公式计算得到,具体取值可以是:α为0.3,β为0.8。在一优选实施例中,亮度因子kba由像素平均亮度推导,对比度因子kcm由像素平均亮度与编码单元亮度差异推导,纹理因子ktc由梯度kg、梯度方向性kpc、rdcost因子krc共同推导。更具体的,亮度因子kba、对比度因子kcm、纹理因子ktc的具体计算公式如(3)-(8):其中,l表示编码单元中像素的平均亮度,lmax表示输入视频标准像素所能表示的最大亮度,δl表示当前编码单元的最高亮度与最低亮度差,gh表示编码像素的水平梯度,gv表示编码像素的垂直梯度,hi表示在i方向上的梯度之和,rdcost指在帧内或帧间中进行的2nx2n划分对应的编码消耗,n表示当前编码单元的像素数目,c是一个常量系数用于保证数值计算稳定性,取值为1。3、将上述得到的时域内容因子和空域感知因子进行拟合,得到编码单元对于整体帧图像的vmaf分数的影响因子ω,影响因子公式如(9):ω=ωt·ωs(9)其中,ω为vmaf分数的影响因子即编码单元vmaf块级影响系数,ωt为时域内容因子,ωs为空域内容因子。4、使用得到的vmaf分数的影响因子,计算每一个编码单元的拉格朗日乘子调整系数,并在编码过程中对拉格朗日乘子进行自适应调整。根据前式拟合得到的vmaf分数的影响因子可以估计视频编码单元的失真对整体视频帧的影响,即编码单元在视频帧的重要性,根据vmaf分数的影响因子在率失真优化过程中进行自适应调整。具体地,对于影响因子大的单元,降低这些区域的失真可以提高整帧的vmaf分数,在率失真过程中会调小对应的拉格朗日系数,即倾向选择分配更多码率的模式。相反地若影响因子小,认为降低这些区域的失真并不能有效提高vmaf分数,则拉格朗日系数调小倾向选择更少码率分配的模式。所以,在实际编码过程中根据影响因子动态自适应地调节编码单元的拉格朗日系数,修改率失真优化的选择模式,从而优化视频编码质量,并且通过经验公式拟合的方式避免了直接计算vmaf分数的影响因子的高复杂度。在实际编码时第i个编码单元的拉格朗日乘子按(10)式进行自适应调整。其中,λnew表示调整后的拉格朗日系数,λold表示调整前的拉格朗日系数。其中,cω是一个常数用于维持计算稳定性,取值为0.1。通过上述的步骤,本发明实施例的方法能够得到编码优化方案。在本发明的另一实施例中,还提供一种基于vmaf的感知视频率失真编码优化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行的上述任一实施例的基于vmaf的感知视频率失真编码优化方法。可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-accessmemory,缩写:ram),如静态随机存取存储器(英文:staticrandom-accessmemory,缩写:sram),双倍数据率同步动态随机存取存储器(英文:doubledataratesynchronousdynamicrandomaccessmemory,缩写:ddrsdram)等;存储器也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flashmemory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。为了更好说明本发明实施例的效果,以下结合具体应用实例进行说明:本具体应用实例提出的基于vmaf的感知视频率失真编码优化方法基于hm16.20版本,使用默认vmafv0.6.1模型计算vmaf分数,对qp=22,27,32,37进行编码并计算bd-rate,实验选取了hevc标准参考序列classb-classe采用的测试序列。测试结果如表1与表2所示。表格1序列bd-vmafbd-psnr序列bd-vmafbd-psnrkimono-1.13%2.53%parkscene-4.48%6.31%cactus-2.77%3.16%basketballdrive-3.23%5.84%bqterrace-3.86%5.83%basketballdrill-4.67%1.81%bqmall-2.64%1.01%partyscene-3.06%1.78%racehorses-1.83%6.71%basketballpass-2.00%2.39%bqsquare-2.51%1.13%blowingbubbles-3.03%1.25%racehorses-2.18%5.74%fourpeople-3.99%1.06%kristenandsara-3.60%2.62%johnny-3.34%6.87%平均-3.03%3.51%表格2根据实验结果,视频序列在视频复杂度并未显著提升的前提下,本发明实施例所提出的方法实现了平均3.03%的bd-vmaf提高。综上,本发明实施例在编码优化过程中考虑到人眼视觉特性,并避免了直接利用vmaf优化编码器所带来的高复杂度,利用时空内容因子拟合vmaf影响因子的率失真优化编码,在保持相同的时间复杂度情况下提升编码性能。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互补冲突的情况下,可以任意组合使用。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1