基于深度学习及视差图加权指导的立体图像质量评价方法与流程

文档序号:18899787发布日期:2019-10-18 21:46阅读:406来源:国知局
基于深度学习及视差图加权指导的立体图像质量评价方法与流程

本发明属于图像处理领域,涉及到深度学习在立体图像质量评价中的应用;尤其涉及基于深度学习及视差图加权指导的立体图像质量评价方法



背景技术:

近年来,随着3d技术的不断发展,对立体图像的研究越来越受到重视。由于立体图像在传输过程中可能会产生一定的失真,立体图像的质量将会受到影响,结果便直接反映到人们对立体图像的视觉感知。因此,如何有效地评价立体图像质量已成为立体图像处理和计算机视觉领域的关键问题之一。基于此种现状,本发明提出一种基于深度学习及视差图加权指导的立体图像质量评价模型。

目前现存的立体图像质量评价算法根据对参考图像的依赖程度可以分为三种:全参考、半参考以及无参考。其中,全参考方式的评价算法利用参考图像及失真图像间的结构相似性或其他指标来对失真图像进行质量预测,半参考方式的评价算法无需已知参考图像像素级别的完整信息,对参考图像的依赖程度较低。而无参考的质量评价算法在进行图像质量分数预测时,无需获取参考图像的信息即可得到最终的分数预测。在实际应用中,无失真参考图像的获取通常是比较困难的,因此对于无参考立体图像质量评价算法的研究更加受到关注。

通常来说,无参考立体图像质量评价的方法可以分为三个类别:特征提取的方法[1-2]、稀疏表示的方法[3-4]以及深度学习的方法[5-8]。其中基于特征提取的方法通常采用传统方式对立体图像进行某些统计特征的提取,再利用机器学习算法对质量分数作出预测。基于稀疏表示的方法通常使用建立字典的方法,对统计特征进行稀疏表示,此类方法在计算复杂度方面占据一定优势。以上两类方法都是基于人类设计的算法对立体图像的特征进行提取,但由于对人类视觉系统或自然统计特征的理解不够充分,在算法应用上均受到一定的限制。而依靠人工智能的迅速发展,近年来基于深度学习的方法相继出现在立体图像质量评价的领域中,由于基于深度学习的方法通过神经网络代替传统方式对立体图像的特征进行提取,消除了人工提取特征的限制,通常可以展现出更优良的性能。

本发明的设计灵感基于人类的双目视觉机制,即大脑中的双目融合和双目竞争机制,融合图像相较于独立的左右视点图像与双目视觉机制相关性更高,因此选择融合图像作为网络一个分支的输入。左右视点图像进行融合时相应会损失一些信息,因此选择视差图对融合图像进行补偿,即将视差图作为另一网络分支的输入。此外,由于利用卷积神经网络从融合图像中提取的特征具有不同的重要程度,使用不同权重对提取的特征进行加权是必要的,因此我们选择应用改进的挤压和激励模块(se模块)来提高网络的表示能力,其中视差图作为se模块的一个输入,对融合图像分支得到的特征图进行指导和加权,从而实现对融合图像特征图的重新校正。由于融合图像分支及视差图分支均对图像质量预测均有一定贡献,因此最后将两个分支进行连接,从而得到最终的预测分数。

本发明提出了一种基于深度学习及视差图加权指导的立体图像质量评价模型。首先,针对人类观看立体图像时的特点,对独立的双目视点图像进行融合从而得到融合图像,应用视差匹配算法得到视差图,将融合图像和视差图分别作为神经网络两个分支的输入,通过卷积神经网络进行特征学习。其次,基于融合图像的特征具有不同重要程度的事实,利用视差图提取的特征作为改进se模块的输入对融合图像的特征图进行重新校正。



技术实现要素:

为了解决现有技术存在的问题,本发明旨在以人类双目视觉机制为设计基础,并且基于由神经网络提取的特征具有不同重要程度的事实,建立一种有效且合理的基于深度学习及视差图加权指导的立体图像质量评价模型。此种立体图像质量评价模型在进行质量预测时更加准确,且无需依赖原始参考图像,一定程度上可以代替主观评价结果,提高立体图像质量评价工作的效率,且可以为后续工作奠定一定基础。

针对现有技术中存在的问题,本发明采用如下技术方案进行:

一种基于深度学习及视差图加权指导的立体图像质量评价方法,包括如下步骤:

s1、通过立体图像中独立的左右视点图像搭建双支神经网络,所述双支网络神经包括融合图像分支和视差图像分支;

s2、对所述融合图像分支及视差图像分支的图像特征分别进行第一阶段的提取;

s3、通过第一次引入se模块,将所述视差图像分支与融合图像分支中图像特征进行加权计算,进而完成对融合图像分支中图像特征的校正;

s4、对视差图像分支第一阶段提取的特征及校正过的融合图像分支特征进行进一步提取,即完成第二阶段的特征提取;

s5、通过第二次引入se模块,将视差图像分支中第二阶段提取的图像特征信息与校正后融合图像分支提取的特征进行加权计算,完成第二阶段的校正;

s6、将两个支路最终提取到的特征进行连接进而完成立体图像的质量评价。

所述步骤s3及s5中对融合图像特征图的加权校正是由修正的se模块实现的;所述的修正在原始se模块的结构基础上,引入一个新的输入,即将视差图像分支的特征图作为修正se模块的一个额外输入,用以校正融合图像分支特征图的权重学习。

有益效果

本发明所提出的带有改进se模块的双列密集卷积神经网络是基于双目视觉机制进行设计的,并且考虑到由卷积神经网络提取的特征具有不同重要程度的事实,进而应用有效方式对不同特征进行加权,实验结果显示出本发明中所提出的方法在立体图像的质量评价方面具有优良的性能。

本发明的基于深度学习及视差图加权指导的立体图像质量评价模型在公开的立体图像数据库上进行了实验,实验中得到的质量分数预测值与标准主观评价值极为接近,相关度与稳定性均优于目前大部分立体图像质量评价算法。

附图说明

图1本发明使用网络的整体框架;

图2是本发明se模块结构图;

图3是本发明3层密集模块结构图。

具体实施方式

本发明在公开的立体图像数据库(live)上进行了实验。在立体图像数据库(live)数据库中,包含phasei和phaseii两个分开的数据库,立体图像均以左右视点的平面图像共同呈现,尺寸均为360×640。其中phasei共包含20张参考图像对及365张失真图像对,图像主要为对称失真,即左右视点图像的失真程度近似相等。而phaseii共包含8张参考图像对及360张失真图像对,其中既包含对称失真又包含非对称失真类型的图像,非对称失真的图像左右视点图像的失真程度差异较大。live数据库中包含五种不同的失真类型:高斯模糊、jp2k压缩失真、jpeg压缩失真、瑞利快速衰落以及加性高斯白噪声。

下面结合技术方法详细说明本方法。

本发明以人类双目视觉机制为设计基础,即大脑对立体图像的感知存在双目融合和双目竞争机制,且基于由神经网络提取的特征具有不同重要程度的事实,提出了一种基于深度学习及视差图加权指导的立体图像质量评价模型。首先通过特定算法由独立的左右视点图像分别获取融合图像及视差图,搭建双列神经网络基本架构。然后加入改进的se模块,即利用视差图分支网络提取的特征对融合图像分支网络提取的特征进行加权指导,使融合图像分支网络的训练更加高效。最后将两个分支网络连接起来从而完成对立体图像质量的最终预测。其具体流程如图1所示。

具体步骤如下:

1、双列神经网络架构:

本发明所采用的双列神经网络架构将融合图像及视差图分别作为两个分支网络的输入,融合图像和视差图均是由来自同一幅立体图像的左右视点图像通过特定的算法获取的。其中,融合图像的获取是基于双目融合模型,符合双目竞争、双目融合及视觉多通道的特点。视差图的获取是基于立体匹配算法得到的。此外,在搭建网络架构时,基本思想采用了三层密集连接模块,可以增强特征的后向传播能力以及促进特征重用。如附图1所示,两个分支网络均包含两个卷积模块和两个三层密集连接模块,其中一个卷积模块中包含一个块归一化层(bn)、卷积层、relu激活函数及池化层,一个三层密集连接模块中包含两个卷积层。其中,两个分支的第一个卷积模块及第一个三层密集连接模块实现了对融合图像及视差图像第一阶段的特征提取,第二个卷积模块及第二个三层密集连接模块则实现的是对融合图像及视差图像第二阶段的特征提取。

2、视差图特征对融合图像特征图进行重新校正:

考虑到由神经网络提取的特征具有不同重要程度的事实,选择使用se模块对图像的不同特征进行加权指导。在本发明中共两次引入se模块,第一次是在融合图像及视差图像完成第一阶段的特征提取之后,第二次则是在两分支网络完成第二阶段的特征提取之后。原始se模块结构如图2(a)所示,代替使用融合图像特征图自身对其校正,我们改进了原始的se模块,具体结构如图2(b)所示,即使用视差图分支网络提取的特征作为se模块的一个输入,对融合图像特征图进行指导和加权,从而完成对特征图的重新校正。其中,蓝色虚线框内的操作称为se通道,se通道包含一个全局池化操作,具体公式表示如(1),一个缩减因子为r的全连接层,一个relu单元和一个扩增因子为r的全连接层。最后,对融合图像的特征图使用s型函数来产生0,1之间的权重。

其中,h×w为特征图的尺寸,f(x,y)为特征图中坐标为(x,y)处的值。

3、立体图像分数的最终预测:

融合图像分支网络及视差图分支网络分别对立体图像的特征进行了学习,对质量预测均具有一定的贡献。视差图分支网络为融合图像分支网络提供了一定补偿,二者结合对质量分数的预测提供了更高的可靠性。因此在神经网络的末端,我们将融合图像分支网络及视差图分支网络通过’concat’通道相连的方式进行连接,即完成了视差图对融合图像的补偿作用。随后使用全连接模块进行质量分数的最终预测,全连接模块的结构类似于卷积模块,区别在于全连接模块中为全连接层而非卷积层。我们采用了欧几里得函数作为网络的损失函数,公式如下所示:

在网络进行训练时,通过后向传播算法使损失函数最小,即可训练出最优的网络参数。

4、立体图像质量评价结果与分析

本发明的实验是在公开的立体图像数据库(live)上进行的。在立体图像数据库(live)中,包含phasei和phaseii两个分开的数据库,立体图像均以左右视点的平面图像共同呈现,尺寸均为360×640。其中phasei共包含20张参考图像对及365张失真图像对,图像主要为对称失真,即左右视点图像的失真程度近似相等。而phaseii共包含8张参考图像对及360张失真图像对,其中既包含对称失真又包含非对称失真类型的图像,非对称失真的图像左右视点图像的失真程度差异较大。立体图像数据库(live)中包含五种不同的失真类型:高斯模糊、jp2k压缩失真、jpeg压缩失真、瑞利快速衰落以及加性高斯白噪声。

本发明方法在立体图像数据库(live)进行了实验验证,表1展示了本发明的实验结果,其中还包含其它12种现存的性能良好的立体质量评价算法的实验结果,由相应的对比结果可以看出,本发明所提出的立体图像质量评价算法的性能优于大部分现存的立体图像质量评价算法。

表1在live数据库上的表现

表2列出了不同失真类型下三种评价指标的实验结果,显而易见,我们提出的方法在phasei上表现优良,在phaseii上虽未表现出最好的性能,但仍优于部分算法,由此可见,我们的算法能够适应不同失真类型的立体图像,对质量分数作出准确高效的预测。

表2在live数据库上不同失真类型的表现

为了进一步证明所提出方法的性能优越性,我们进行了相应的对比实验,结果如表3所示,其中①代表只应用融合图像分支网络,融合图像特征图通过其自身进行调整,②代表在①的基础上加上视差图分支网络,但视差图特征并未参与对融合网络特征图的指导,只于网络末端进行连接,③代表视差图分支网络仅参与融合图像分支网络特征图的重新校正工作,而未与融合图像分支网络进行联合。由表3所给出的实验结果可以看出,本发明所提出的基于深度学习及视差图加权指导的立体图像质量评价模型实现了优越的性能。

表3对比实验结果

应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1