基于时空联合信息的无参考视频质量评估方法与流程

文档序号:12378839阅读:285来源:国知局
基于时空联合信息的无参考视频质量评估方法与流程
本发明属于视频分析
技术领域
,特别是一种基于时空联合信息的无参考视频质量评估方法。
背景技术
:客观视频质量评估是模拟人的主观视频质量评价过程,对任意视频的质量进行算法评分的过程。由于主观质量平均过程耗费大量时间、人力物力资源,使用范围非常受限。而客观视频质量评估由计算机自动完成,具有很好的使用效能。通常人对视频质量的评分用主观平均分(MeanOpinionScore,MOS)值表示,是取值在0到5的实数,0表示最低质量,5表示最高质量。一般也可使用主观差异评分DMOS来表示视频质量。视频质量评估对多媒体应用具有重要的意义,可以用于评价视频编码算法性能、视频传输网络性能、视频显示设备性能等。以VSSIM[文献1:FarenzenaM,BazzaniL,PerinaA,etal.VideoQualityAssessmentBasedonStructuralDistortionMeasurement.SignalProcessing:ImageCommunication,Vol.19,No.1,Jan2004,pp:1-9]为代表的视频质量评估方法,用单帧的全局速度计算加权系数,完成从帧到视频的质量指标汇聚。这类方法把空间和时间作为两个不同的因素进行处理,缺乏明显的视觉心理学支持。以VIS3[文献2:PhongV.Vu,ChandlerD.M,ViS3:anAgorithmforVdeoQalityAssessmentviaAnalysisofSpatialandSpatiotemporalSlices.JournalofElectronicImaging,Vol23,No.1,Jan,2014,PP:1-24]为代表的方法,构造了空间平均指标和时空平均指标,把最终的视频指标设计为空间平均指标和时空平均指标的几何平均。VIS3更多考虑了时间和空间的联合作用,具有较高的评估相关性。以MOVIE[文献3:Seshadrinathan.K,BovikA.C,MotionTunedSpatio-TemporalQualityAssessmentofNaturalVideos,IEEETransationonimageprocessing,Vo119,No.2,Feb,2010,pp:335-350]为代表的视频质量评估方法计算单个像素的时空Gabor变换,分解出像素相关的空间纹理和时间运动信息,完成像素区域的视觉质量评估,最后算术平均形成视频片段的质量指标。但是VIS3和MOVIE都是一种全参考的方法,在实际使用时受限。VideoBLIINDS[文献4:SaadM.A,BovikA.C,CharrierC,BlindPredictionofNaturalVideoQuality,IEEETransationonimageprocessing,Vol23,No.3,Mar,2014,pp:423-438]方法计算帧差信息的空间统计测度,以此作为 时间信息,与单帧图像质量进行加权后,再完成整段视频的质量指标汇聚。VideoBLIINDS是一种无参考算法。但是VideoBLIINDS形成的视频特征向量是多个不同视频特性参数时间平均值的级联,掩盖了视频特征随时间波动对视频质量的影响。陈耀武等人的国家发明授权专利[文献5:MOTIONJPEG2000视频客观质量的无参考评估方法,CN200810163592]虽然是无参考方法,但是以梯度特征训练的线性视频质量拟合函数无法得到合适的判决性能。曹修平的国家发明授权专利[文献6:一种无参考视频质量客观评估方法,CN201110166241]虽然是无参考方法,但是只选取边缘视频特征,对人眼视频感知效应也局限于纹理掩蔽,对多帧质量的合成只采用简单算术平均。杨友庆等人的国家发明授权专利[文献7:一种视频质量评估的方法和网络节点,CN201180001103]不是像素级的视频质量评估,它面向视频编码器的输出参数,获得的评估效果欠佳。宋好好等人提交的国家发明专利[文献8:视频质量的无参评估方法,CN201210171226]通过对视频编码DCT系数进行拉普拉斯分布参数拟合,构建了未知质量视频与训练视频的函数关系,但是该方法没有考虑人眼的各种视频感知效应,与实际的差异较大。技术实现要素:本发明提出了一种基于时空联合信息的无参考视频质量评估方法,可在没有无损视频作为参考的情况下对受损视频进行质量评估。实现本发明目的的技术解决方案为:一种基于时空联合信息的无参考视频质量评估方法,在离线训练阶段建立基于联合时空特性的视频质量估计器,采用视频质量估计器对待评估质量的视频进行在线评估,具体步骤如下:第一步,离线训练过程为:(1)局部三维块LTDB划分:将当前视频片段划分为以局部三维块LTDB为单位的特征提取单元;(2)空间特征提取:计算LTDB每帧的对比度敏感函数CSF系数,计算LTDB内所有空间局部块的CSF系数的算术平均和方差,作为LTDB空间质量特征;(3)空时特征提取:以LTDB为单位进行3DDCT变换,对完成变换的系数分为直流信息和非直流信息;对直流信息直接作为LTDB的平均亮度特征;对非直流信息按不同频率分类,对每类系数进行高斯分布参数拟合;获取不同频率 分类的均值和方差,把每类系数的拟合参数进行级联,构成当前LTDB的空时质量特征;(4)分别将LTDB空间质量特征、空时质量特征进行级联,汇聚形成LTDB特征向量;(5)把视频片段按时间顺序和空间相邻进行分割,依次计算LTDB特征向量,形成LTDB特征向量序列;所有LTDB特征向量进行算术平均,构成时空均值向量;将相邻的LTDB特征向量相减并取绝对值,形成绝对差值向量;把所有绝对差值向量进行算术平均,构成视频片段的时空差值向量;视频片段的时空均值(平均)向量与视频片段的时空差值向量进行级联,汇聚形成当前视频片段的全局特征向量;(6)把多个视频片段的全局特征向量及其对应的视频质量主观差异评分值,输入到支持向量回归器(SVR)中,训练形成基于联合时空特性的视频质量估计器;第二步,在线评估过程为:首先按与离线训练相同的方法,计算形成未知质量的视频片段的全局特征向量,然后把该全局特征向量输入基于联合时空特性的视频质量估计器,输出值即为该段未知质量视频片段的客观质量估计值。本发明与现有技术相比,其显著优点:(1)本发明是一种无参考方法,在对受损视频进行质量评估时,不需要无损视频片段作为参考。(2)本发明以视频的全局特征向量为视频质量评估的基础,特别是结合了视频的空间域信息和空时联合信息,更多地保留了视频片段的时空信息,符合HVS视觉感知的多通道特性。(3)本发明以空间频率和3DDCT变换系数的统计规律建立特征向量,更符合无损伤图像的自然统计规律。通过使用本发明对视频片段进行测试,它的测试结果与目前最好的无参考视频质量评估算法VideoBLIINDS相比,皮尔逊相关系数比VideoBLIINDS高5%,斯皮尔曼相关系数与VideoBLIINDS相当,见表1。表1对本发明与Video-BLIINDS算法的评估性能比较下面结合附图对本发明作进一步详细描述。附图说明图1是基于时空联合信息的无参考视频质量评估方法流程图。图2是时空图像块的形成方法示意图。图3是是采用视频质量估计器对构造估计器的训练视频进行预测的质量得分与其对应DMOS的比较。图4是采用视频质量估计器对测试视频进行预测的质量得分与其对应DMOS的比较。具体实施方式结合图1,本发明基于时空联合信息的无参考视频质量评估方法,在离线训练阶段建立基于联合时空特性的视频质量估计器,采用视频质量估计器对待评估质量的视频进行在线评估,具体步骤如下:一、训练基于联合时空特性的视频质量估计器1.局部三维块LTDB划分:将当前视频片段划分为以局部三维块LTDB为单位的特征提取单元。在视频片段中,从t时刻开始的帧,在空间上取b×b的局部正方形区域、在时间上取t帧到t+τ帧构成时空立方体。取该时空立方体内的视频数据,构成LTDB(LocalThree-dimensionalBlock,局部三维块)。每个时空图像块中共有b×b×τ个像素,可以用fm,n,t表示。其中m是空间维的横向分量,取值范围0到b-1;n是空间维的纵向分量,取值范围0到b-1;t是时间维分量,取值范围0到τ-1。这样,时间上连续的τ个帧可以构成个时空立方体,其中M和N分别是用像素数量度量的帧的宽度和高度,表示下取整。用Pk,t表示视频从t帧到t+τ帧视频的第k个LTDB。人们观看视频时,在没有特意的强调的情况下,注意力一般都放在视频的中间区域附近,而不会把注意力集中在视频的边缘区域,尤其是视频的下边缘。所以剩余的帧边缘参与像素信息不在特征抽取使用。2.空间特征提取:计算LTDB每帧的对比度敏感函数CSF系数,计算LTDB内所有空间局部块的CSF系数的算术平均和方差,作为LTDB空间质量特征。空间特征的提取主要是以CSF系数特征的提取为前提。而CSF系数的求取是建立在空间频率的基础上,对空间频率进行感知加权滤波。1)空间频率空间频率是指视觉上的每度视角内图像或刺激图形的亮暗做正弦调制的栅条周数,单位是周期/度。图像中不同的成分具有不同的空间频率:短距离的突变、剧烈起伏变化、图像细节等,其空间频率较高;长距离大范围的缓慢变化、图像背景平坦或均匀等,其空间频率低。空间频率可以划分为水平空间频率、垂直空间频率、对角空间频率。对于尺度为H×W的视频帧,H为该帧垂直方向的尺度,W为该帧水平方向的尺度,单位为像素,在位置h×w处的像素值为fh,w,其中w是像素的水平位置,h是像素的垂直位置。由于是同一个时间帧,所以时间下标没有标出。当前帧空间频率定义如下:f=hf2+vf2+df2---(1)]]>其中hf为水平空间频率,vf为垂直空间频率,df为对角空间频率。hf=Σw=2WΣh=1H(fw,h-fw-1,h)2(W-1)H---(2)]]>vf=Σw=1WΣh=2H(fw,h-fw,h-1)2W(H-1)---(3)]]>df=Σw=2WΣh=2H(fw,h-fw-1,h-1)2(W-1)(H-1)+Σw=2WΣh=2H(fw-1,h-fw,h-1)2(W-1)(H-1)---(4)]]>2)CSF系数特征人眼对视频质量的空间对比度感知效应,可以通过对局部块的空间频率系数的加权滤波得到模拟,建立视频CSF(ContrastSensitiveFunction,对比度敏感函数)模型。CSF(f)函数是模拟人眼的感知特征,对空间频率进行带通滤波。CSF(f)与空间频率系数满足:CSF(fi)=2.6×(0.0192+0.114fi)exp[-(0.114fi)1.1](5)其中,fi表示时空三维块LTDB第i帧的空间频率。对于LTDB所有帧的CSF值求取均值Cmean和方差Cstd作为该时段的空间特征,其中Cmean和Cstd求取公式如下:Cmean=Σi=1τCSF(fi)τ---(6)]]>Cstd=Σi=1τ[CSF(fi)-Cmean]2τ---(7)]]>3、空时特征提取:以LTDB为单位进行3DDCT变换,对完成变换的系数分为直流信息和非直流信息;对直流信息直接作为LTDB的平均亮度特征;对非直流信息按不同频率分类,对每类系数进行高斯分布参数拟合;获取不同频率分类的均值和方差,把每类系数的拟合参数进行级联,构成当前LTDB的空时质量特征。空时特征提取是以每一个LTDB的3DDCT变换后的系数信息为参考,以进行特征提取。1)3DDCT变换对每个LTDB时空立方体进行3DDCT变换,形成的3DDCT变换的系数集合。3DDCT变换表示为:C(u,v,w)=a1(u)a2(v)a3(w)Σx=0b-1Σy=0b-1Σz=0τ-1f(x,y,z)cos[π(2x+1)u2b]cos[π(2y+1)v2b]cos[π(2z+1)w2τ]---(6)]]>其中:a1(u)=a2(v)=1b,ifb=02b,otherwise---(7)]]>a3(w)=1τ,ifτ=02τ,otherwise---(8)]]>变换后,形成的3DDCT系数为C(u,v,w)b×b×τ。u,v,w是表示频率的下标。在本发明中,LTDB可以在视频库选择,下面以在空间域尺度中采用17×17像素的LTDB为例进行说明,主要考虑避免视频编码中宏块划分的4、8、16等像素边界,能保留更多的视频损伤信息;在时间域尺度上与视频编码时的GOP大小相当,可以采用时间上连续的8到20帧图像,并且结合人眼视频感知的连续 性,时间域的持续时长不超过400毫秒。考虑到3DDCT变换的实时性和视频损伤信息的完整性,本发明中时间域尺度与空间域尺度一样,均采用17,即使用时间上相邻的17帧局部图像块。所以本发明选取b=τ=17。2)LTDB频率系数特征3DDCT变换后的频率系数包含视频的空时质量特征信息,可以用于构建反映视频空时受损情况的质量特征。对3DDCT系数按照频率的大小可分割为直流信息、低频信息、中频信息和高频信息四种类型,其中直流信息反映该LTDB的平均亮度,低频信息、中频信息和高频信息反映该LTDB的空时质量特征;将除直流外的频率信息从低频至高频共分为Q段,32≥Q≥1,下面以Q=9、LTDB尺度采用17×17×17为例进行说明。其中,由于人眼对极高频信息并不敏感,其损伤对主观感受的视频质量影响极小,所以本发明并没有使用极高频信息。单个LTDB大小为17×17×17,所以,水平频率系数u∈[0,1,2......16],垂直频率系数v∈[0,1,2......16],时间频率系数w∈[0,1,2......16]。由此可得直流系数fdcfdc={u,v,w|u+v+w=0}。直流系数fdc可作为单个LTDB图像组的平均亮度信息特征。本发明将低频至高频频率系数总共划分为9类,即{f1,f2,f3......,f8,f9}。低频至高频频率系数的划分按照步长2进行划分,详细划分方法为:fi={u,v,w|2i-1≤u+v+w≤2i,1≤i≤9}(9)所以,有f1={u,v,w|1≤u+v+w≤2}(10)f2={u,v,w|3≤u+v+w≤4}(11)f3={u,v,w|5≤u+v+w≤6}(12)f4={u,v,w|7≤u+v+w≤8}(13)f5={u,v,w|9≤u+v+w≤10}(14)f6={u,v,w|11≤u+v+w≤12}(15)f7={u,v,w|13≤u+v+w≤14}(16)f8={u,v,w|15≤u+v+w≤16}(17)f9={u,v,w|17≤u+v+w≤18}(18)对从t到t+τ的帧视频形成的第k个LTDB做3DDCT变换后,把LTDB的变换系数按上述规则,从低频至高频进行分类和汇总,得到9个频率系数集合。每个系数集合用高斯分布对其进行参数拟合,使其服从:g(x)=12πσe-(x-μ)22σ2,σ>0---(19)]]>λ=σ2(20)其中μ表示均值,σ表示标准差,λ表示方差。每个系数集合拟合形成两个分布参数,包括均值μ和方差λ。9个系数集合总共形成18个分布参数。把这18个分布参数级联,形成的18维向量:[λ1,μ1,λ2,μ2,…,λ8,μ8,λ9,μ9](21)4、分别将LTDB空间质量特征、空时质量特征进行级联,汇聚形成LTDB特征向量。将对比度敏感系数CSF拟合参数信息、直流信息DC、频率系数拟合参数信息进行级联得到时间从t开始第k个LTDB特征向量:Ft,k=[Cmean,Cstd,fdc,λ1,μ1,λ2,μ2,...,λ8,μ8,λ9,μ9](22)5、视频片段的特征汇聚:把视频片段按时间顺序和空间相邻进行分割,依次计算LTDB特征向量,形成LTDB特征向量序列;所有LTDB特征向量进行算术平均,构成时空均值向量;将相邻的LTDB特征向量相减并取绝对值,形成绝对差值向量;把所有绝对差值向量进行算术平均,构成视频片段的时空差值向量;视频片段的时空均值(平均)向量与视频片段的时空差值向量进行级联,汇聚形成当前视频片段的全局特征向量。对于视频片段,按时间顺序依次形成LTDB特征向量。所有LTDB特征向量的集合可以表示为{Fi,i=1,2,...,K}。K表示视频片段的LTDB个数,计算公式如下:T表示该视频片段总帧数。以LTDB特征向量为基础,构造视频片段的特征表示。假设视频片段足够长,可以分割形成足够多的LTDB特征向量。通常需要评估质量的视频片段都满足这个条件。以LTDB特征向量为对象,计算整个视频片段的LTDB特征向量的均值:MF=1KΣi=1KFi---(24)]]>其中每个Fi是集合{Fi}中第i个特征向量。按公式(24)形成的向量MF,被称为视频片段的空时平均向量。构造相邻LTDB特征向量的差值向量,其中差值向量需要进行逐个元素取绝对值,然后把所有差值向量取均值:DF=KK-1Σi=2K|Fi-Fi-1|---(25)]]>其中每个Fi是集合{Fi}中第i个特征向量。按公式(25)形成的向量DF,被称为视频片段的空时差值向量。把空时平均向量和空时差值向量进行级联,形成视频片段的特征向量:VF=[MFT,DFT]T(26)6、基于联合时空特性的视频质量估计器的训练:把多个视频片段的全局特征向量及其对应的视频质量主观差异评分值(DMOS:由训练视频库LiveDataBase提供),输入到支持向量回归器(SVR)中,训练形成基于联合时空特性的视频质量估计器。视频质量估计器的训练以支持向量回归器SVR的分类、回归、预测特性来构造。而SVR是以VC维理论和结构风险最小化原理为基础的一个机器学习模型。利用带主观视频质量评分值的训练视频库,完成客观视频质量估计器的训练。对训练视频库中的每段视频计算它的视频片段特征向量VFl,其对应的主观质量评分MOSl值已知。把视频片段特征向量集合{VFl,l=1,……L}和对应的主观质量评分集合{MOSl,l=1,..,L}送入支持向量回归器(SVR),完成视频质量估计器的训练。其中,L是训练视频的数量。二、视频质量在线评估首先按与离线训练相同的方法,计算形成未知质量的视频片段的全局特征向量,然后把该全局特征向量输入基于联合时空特性的视频质量估计器,输出值即为该段未知质量视频片段的客观质量估计值(得分)。在对未知质量评分的视频片段进行客观视频质量判断时,首先按与训练阶段相同的方法,即按照局部三维 块划分、空间特征提取、空时特征提取、LTDB特征向量级联、视频片段特征汇聚的顺序,计算形成未知质量的视频片段的全局特征向量;然后把视频片段全局特征向量输入已完成训练的视频质量估计器,估计器的输出值就是该视频片段的客观视频质量。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1