基于立体感知特性的立体图像质量评价方法与流程

文档序号:16742550发布日期:2019-01-28 13:09阅读:327来源:国知局
基于立体感知特性的立体图像质量评价方法与流程

本发明涉及图像处理领域,更具体的说,是涉及一种基于立体感知特性的立体图像质量评价方法。



背景技术:

立体图像/视频能使人身临其境地体验到立体感及临场感,逐渐地成为多媒体研究的主流方向,在市场上的开发与应用需求也越来越迫切,如立体数字电视、3d电影、虚拟现实系统等。然而,立体视频在采集、存储、处理以及传输中由于立体视频采集系统、存储介质、压缩编码及传输设备等的限制及影响,不可避免地引入噪声或干扰从而造成在显示端的立体视频图像质量的下降。因此,立体图像质量评价研究成为立体视频系统、立体视频工程和立体视频处理领域中的关键问题。

当前立体图像质量评价主要分为三类。一类是将2d图像质量评价的方法分别应用左右视点,再辅以视差进行评价的方法。第二类是基于人来视觉系统(hvs)的评价方法。第三类是基于图像特征,结合机器学习的方法。以上评价方法在立体图像质量评价的不同发展阶段都取得了比较好的效果,但是由于视差和深度信息获取的不准确,双目特性考虑不充分,立体图像质量评价仍然是当前研究的热点和难点。



技术实现要素:

本发明的目的是为了克服现有技术中的不足,模拟结合深度感知和图像内容的人类立体视觉特性,并在此基础上提供一种基于立体感知特性的立体图像质量评价方法,充分考虑图像特征,模拟大脑中形成的深度视觉感知图像,结合图像内容,以图像频域信息作为手段,通过频域信息的统计特性描述立体图像质量,进而做出更加全面、准确的客观评价。

本发明的目的是通过以下技术方案实现的。

本发明的基于立体感知特性的立体图像质量评价方法,每个失真立体图像对由左视图和右视图组成,包括以下步骤:

第一步:模拟人类立体视觉特性,根据视差匹配算法计算左、右视点的视差图;其中,视差图的计算充分考虑人类感知立体场景产生的直观深度感知,即有屏前、屏后的区分;在此基础上分别以左、右视图作为基准图像,得出有正、负视差区分的相对视差图;

第二步:根据视差与深度的关系公式,计算得到深度感知图;

第三步:对深度感知图、左视图、右视图分别采用db7做四层小波分解;

第四步:提取每一层的低-高、高-低、高-高三个子带的系数,共计12个子带;

第五步:求解第一层中每个子带的幅值、方差和熵特征;

第六步:将剩下三层的系数做与第五步相同的处理,最终每幅图像得到24个特征;

第七步:按照第四步到第六步的描述,计算深度感知图、左视图、右视图每幅图像的频域统计特性,共计72个特征;

第八步:将图像库中的图像随机分为两部分,其中80%的失真立体图像对用深度信念网络对得到的特征进行训练,根据训练得到的模型对剩下的20%的失真图像对的质量做预测,最终得到立体图像的质量。

第一步中视差匹配算法通过以左、右视图分别作为基准图像,将另一幅图像做平移,在平移过程中根据最高相关性系数得到最佳匹配点,具体地,

(1)计算左、右视图的水平梯度图,计算公式如下:

其中,dl、dr分别为左视图和右视图,为左视图的水平梯度图,为右视图的水平梯度图;

(2)以左视图作为基准图像,对右视图进行平移,以20个像素点作为最大视差距离;在进行每一次平移的过程中,计算左、右视图的相似度图和梯度相似度图,相似度的计算如以下公式:

ssim(x,y)=l(x,y)·c(x,y)·s(x,y)

其中,l(x,y)为亮度对比,c(x,y)为对比度,s(x,y)为结构相关度;三个部分的计算公式分别为下:

其中,μx和μy分别为左视图的像素均值和右视图的像素均值,σx和σy分别为左视图的像素方差和右视图的像素方差,σxy为左右视图的像素协方差,c1、c2和c3为调节常量;

然后对得到的相似度图和梯度相似度图用7×7的窗口进行滤波,最终左视图与平移后的右视图的相似度用以下公式计算得到:

corr(x,y)=ssim(x,y)+5·gssim(x,y)

其中,ssim(x,y)和gssim(x,y)分别为相似度和梯度相似度。

这样,在进行1~20个像素点的平移过程中每个像素点的相似度不断更新为最大相似度,对应的平移像素差即为最优匹配视差;

(3)以右视图作为基准图像,重复(2)操作,同样得到最优匹配视差和对应点的像素差,比较两组视差图中对应的像素差的大小,像素差小的对应的最优视差为最终的绝对视差;

(4)在得到绝对视差后,需要根据人眼的直接立体感知特性将绝对视差修正为相对视差;即若左像素点的在右视图中的匹配点位于其相对右的方向,则将视差标记为正视差,若左像素点的在右视图中的匹配点位于其相对左的位置,则将视差标记为负视差,得到最终的相对视差图。

第二步中根据以下视差与深度的关系公式,计算得到深度感知图dpm:

其中,l表示双眼到屏幕的距离,p表示相对视差,e为双眼间距。

第五步中幅值、方差和熵的求解如下:

其中,mk表示第k个子带的幅值,vk表示第k个子带的方差,ek表示第k个子带的熵,ck(i,j)表示第k个子带(i,j)点处的小波系数,mk和nk分别表示第k个子带的长度和宽度,p[·]是子带系数的概率密度函数。

第八步中训练和测试图像样本的工具是深度信念网络:对左视图、右视图和深度感知图分别应用深度学习网络,共3个网络;训练过程分为两个阶段:无监督预训练和微调过程;在无监督学习过程中,包括1个可视层和3个隐层;对左视图和右视图的网络,设定隐层节点为90-70-50;对深度感知图的网络,设定隐层节点为60-50-40;学习率均为0.0005;在微调阶段,代价函数如下:

其中,fi为第三个隐层的输出向量,si为主观质量分数,n是训练样本数;

这样,最小化代价函数的方法为:

其中,wi是第i个样本的权重矩阵,b是偏差值,k(·)为核函数。

与现有技术相比,本发明的技术方案所带来的有益效果是:

本发明所提出的立体图像客观质量评价方法充分考虑人类直观深度感知特性,在结合深度感知图和图像内容的基础上,以频域信息的统计特性来表征图像质量,充分模拟了立体图像主观评价的过程,得到的立体图像质量客观评价结果与主观评价结果具有很高的一致性,能够较为准确的反映图像的质量。

附图说明

图1是本发明的流程示意图;

图2是小波变换示意图。

具体实施方式

下面结合附图对本发明作进一步的描述。

本发明涉及立体图像对深度感知图像的合成、频域信息的提取及其统计特性的预测。提出了利用深度感知图像和图像内容两方面的频域信息,通过失真对频域信息的统计特性的影响去描述图像质量的方法。如图1和图2所示,基于立体感知特性的立体图像质量评价方法,每个失真立体图像对由左视图和右视图组成,设失真图像对为(dl,dr),包括以下步骤:

第一步:模拟人类立体视觉特性,根据视差匹配算法计算左、右视点的视差图。其中,视差图的计算充分考虑人类感知立体场景产生的直观深度感知,即有屏前、屏后的区分。在此基础上分别以左、右视图作为基准图像,得出有正、负视差区分的相对视差图。

视差匹配算法通过以左、右视图分别作为基准图像,将另一幅图像做平移,在平移过程中根据最高相关性系数得到最佳匹配点。具体地,

(1)计算左、右视图的水平梯度图,计算公式如下:

其中,dl、dr分别为左视图和右视图,为左视图的水平梯度图,为右视图的水平梯度图。

(2)以左视图作为基准图像,对右视图进行平移,以20个像素点作为最大视差距离,在进行每一次平移的过程中,计算左、右视图的相似度图和梯度相似度图,相似度的计算如以下公式:

ssim(x,y)=l(x,y)·c(x,y)·s(x,y)(3)

其中,l(x,y)为亮度对比,c(x,y)为对比度,s(x,y)为结构相关度。三个部分的计算公式分别为下:

其中,μx和μy分别为左视图的像素均值和右视图的像素均值,σx和σy分别为左视图的像素方差和右视图的像素方差,σxy为左右视图的像素协方差,c1、c2和c3为调节常量。

然后对得到的相似度图和梯度相似度图用7×7的窗口进行滤波,最终左视图与平移后的右视图的相似度用以下公式计算得到。

corr(x,y)=ssim(x,y)+5·gssim(x,y)(7)

其中,ssim(x,y)和gssim(x,y)分别为相似度和梯度相似度。

这样,在进行1~20个像素点的平移过程中每个像素点的相似度不断更新为最大相似度,对应的平移像素差即为最优匹配视差。

(3)以右视图作为基准图像,重复(2)操作,同样得到最优匹配视差和对应点的像素差。比较两组视差图中对应的像素差的大小,像素差小的对应的最优视差为最终的绝对视差。

(4)在得到绝对视差后,需要根据人眼的直接立体感知特性将绝对视差修正为相对视差。即若左像素点的在右视图中的匹配点位于其相对右的方向,则将视差标记为正视差,若左像素点的在右视图中的匹配点位于其相对左的位置,则将视差标记为负视差,得到最终的相对视差图p。

第二步:根据以下视差与深度的关系公式,计算得到深度感知图dpm。

其中,l表示双眼到屏幕的距离,p表示相对视差,e为双眼间距。

第三步:对深度感知图dpm(x,y)、左视图dl(x,y)、右视图dr(x,y)分别采用db7做四层小波分解,其中,(x,y)为像素点坐标。

第四步:提取每一层的低-高(lh)、高-低(hl)、高-高(hh)三个子带的系数,共计12个子带。

第五步:求解第一层中每个子带的幅值m、方差v和熵e特征。因为低-高子带和高-低子带在统计上的相似性,这里不做区分,即将两个子带幅值均值、方差均值以及熵均值和高-高子带上的幅值、方差、熵作为一个尺度上的频域统计特征,共计6个特征。具体地,幅值、方差和熵的求解如下:

其中,mk表示第k个子带的幅值,vk表示第k个子带的方差,ek表示第k个子带的熵,ck(i,j)表示第k个子带(i,j)点处的小波系数,mk和nk分别表示第k个子带的长度和宽度,p[·]是子带系数的概率密度函数。

第六步:将剩下三层的系数做与第五步相同的处理,最终每幅图像可以得到4×6=24个特征。

第七步:按照第四步到第六步的描述,计算深度感知图dpm(x,y)、左视图dl(x,y)、右视图dr(x,y)每幅图像的频域统计特性,共计24×3=72个特征。

第八步:将图像库中的图像随机分为两部分,其中80%的失真立体图像对用深度信念网络对得到的特征进行训练,根据训练得到的模型对剩下的20%的失真图像对的质量做预测,最终得到立体图像的质量。

训练和测试图像样本的工具是深度信念网络,具体地,对左视图、右视图和深度感知图分别应用深度学习网络,共3个网络。训练过程分为两个阶段:无监督预训练和微调过程。在无监督学习过程中,包括1个可视层和3个隐层。对左视图和右视图的网络,设定隐层节点为90-70-50;对深度感知图的网络,设定隐层节点为60-50-40;学习率均为0.0005。在微调阶段,代价函数如下:

其中,fi为第三个隐层的输出向量,si为主观质量分数,n是训练样本数。

这样,最小化代价函数的方法为:

其中,wi是第i个样本的权重矩阵,b是偏差值,k(·)为核函数。

尽管上面结合附图对本发明的功能及工作过程进行了描述,但本发明并不局限于上述的具体功能和工作过程,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1