基于卷积自编码器的立体图像舒适度质量评价方法及系统与流程

文档序号:16319121发布日期:2018-12-19 05:36阅读:328来源:国知局
基于卷积自编码器的立体图像舒适度质量评价方法及系统与流程
本发明涉及图像舒适度质量评价领域,具体地,涉及基于卷积自编码器的立体图像舒适度质量评价方法及系统。
背景技术
近年来,诸如立体电影、立体电视等立体(3d)视频产业迅速发展,3d视频资源越来越广泛地进入人们的日常生活中。其在提升观影体验的同时也会使观众出现诸如头晕、恶心、胸闷等不适现象。为了改善观看立体图像的不舒适度,进一步提升观影体验,大量针对立体图像舒适度质量评价方法的研究应运而生。立体图像舒适度质量评价方法可分为主观评价和客观评价两种,前者十分的耗费时间和人力,越来越多的研究集中在客观评价上。如今的客观评价模型大多都基于视觉质量和导致不舒服的影响因子来提取特定的特征,进而通过回归模型进行预测。另一方面,主观图像数据库也扮演了重要的角色,目前比较有名的数据库有live3dphasei、live3dphaseii、ieee-sa、epfl数据库。到目前为止,研究者基于特定数据库提出了很多立体图像舒适度质量评价模型。live3dphaseidatabase和live3dphaseiidatabase主要包含五种不同的质量损失因素,分别为jpeg2000压缩、jpeg压缩、白噪声、快速衰退和模糊。不同的是,phasei数据库左右图质量损失是对称的,而phaseii数据库左右图质量损失既有对称的也有非对称的。ieee-sa数据库和epfl数据库包含了不同视差范围的立体图像。在phasei数据库上,mittal等人在2014年“ieee图像处理中相关主题期刊(ieeetransactionsonimageprocessing)”上的“空域中的无监督图像质量评价(no-referenceimagequalityassessmentinthespatialdomain)”一文中,提出了brisque模型。在phaseii数据库上,zhou等人在2014年“信号处理相关会议(ieeesignalprocessingletters)”上的“pmfs:用于立体图像质量评估的感知调制特征相似性度量(pmfs:aperceptualmodulatedfeaturesimilaritymetricforstereoscopicimagequalityassessment)”一文中,提出了基于单目和双目感知的iqa模型。在ieee-sa数据库和epfl数据库上,kim等人在2011年“ieee视频技术电路和系统传输相关会议(ieeetransactionsoncircuitsandsystemsforvideotechnology)”上的“立体图像的视觉疲劳预测(visualfatiguepredictionforstereoscopicimage)”一文中,基于视差分布和视觉舒适度的关系提出了预测模型。为了更好的预测立体图像舒适度,构建一整套的客观质量评价模型方法是本领域目前仍需努力的方向。技术实现要素:针对现有技术中的缺陷,本发明的目的是提供一种基于卷积自编码器的立体图像舒适度质量评价方法及系统。根据本发明提供的一种基于卷积自编码器的立体图像舒适度质量评价方法,包括:模型建立步骤:建立卷积自编码器模型,并进行无监督学习训练;基础特征提取步骤:利用训练好的卷积自编码器模型提取左右视点立体图像的基础特征;深度特征提取步骤:利用提取出的基础特征,提取左右视点立体图像对应的深度特征;降维步骤:对提取的基础特征和深度特征进行降维,将降维后的基础特征和深度特征拼接并展开为一维向量;舒适度模型建立步骤:对得到的一维向量进行处理,通过学习得到立体图像舒适度模型。较佳的,所述卷积自编码器模型包括encoder部分和decoder部分。较佳的,所述基础特征提取步骤包括:使用训练好的卷积自编码器模型,抽出所述encoder部分,对左右视点立体图像进行处理,得到左右视点立体图像对应的基础特征。较佳的,所述深度特征提取步骤包括:将提取出的左右视点立体图像的基础特征通过深度提取算法,得到左右视点立体图像对应的深度特征。较佳的,所述降维步骤包括:采用最大池化方法对提取出的基础特征和深度特征进行降维,对降维后的基础特征和深度特征采用按行展开方式展开并拼接为一维向量。较佳的,所述舒适度模型建立步骤包括:通过svr方式学习得到立体图像舒适度模型。根据本发明提供的一种基于卷积自编码器的立体图像舒适度质量评价系统,包括:模型建立模块:建立卷积自编码器模型,并进行无监督学习训练;基础特征提取模块:利用训练好的卷积自编码器模型提取左右视点立体图像的基础特征;深度特征提取模块:利用提取出的基础特征,提取左右视点立体图像对应的深度特征;降维模块:对提取的基础特征和深度特征进行降维,将降维后的基础特征和深度特征拼接并展开为一维向量;舒适度模型建立模块:通过学习得到立体图像舒适度模型。较佳的,所述卷积自编码器模型包括encoder部分和decoder部分。较佳的,所述基础特征提取模块包括:使用训练好的卷积自编码器模型,抽出所述encoder部分,对左右视点立体图像进行处理,得到左右视点立体图像对应的基础特征。较佳的,所述深度特征提取模块包括:将提取出的左右视点立体图像的基础特征通过深度提取算法,得到左右视点立体图像对应的深度特征。与现有技术相比,本发明具有如下的有益效果:本发明引入卷积自编码器进行特征初步提取,有效的去除了图像冗余信息,在特征提取方面十分高效,搭配深度提取算法和svr回归器,效果提升显著。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1为本发明的工作流程图;图2为本发明的卷积自编码器模型的结构示意图;图3为本发明的原理图;图4为本发明在live3dphasei和phaseii数据库上测试结果的散点图;图5为本发明在ieee-sa数据库上测试结果的散点图。具体实施方式下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。如图1至3所示,根据本发明提供的一种基于卷积自编码器的立体图像舒适度质量评价方法,包括:一、模型建立步骤:建立卷积自编码器模型,并进行无监督学习训练。将数据库中的所有图片,使用卷积自编码器进行无监督训练,在训练过程中,编码器会对原始图像进行压缩编码成三通道的特征图,解码器会尝试把该特征图恢复成原始图像。卷积自编码器模型的结构如下:模型建立步骤通过以下方式实现:1)、定义卷积自编码器的模型结构,编码器和解码器具有对称的结构,zeropadding方法用于所有的卷积层中,在输出层使用sigmoid激活函数,在卷积层采用relu激活函数;2)、在训练模型之前,把所有图像的像素值除以255,使得它们介于0和1之间。完整的卷积自编码器模型可以被表示为其中h(x)表示编码器运算,g(x)表示解码器运算。输入的彩色图像尺寸可以被表示为3×hori×wori(wori为图像宽度,hori为图像高度),模型训练采用随机梯度下降的方式:其中,n是batchsize,xn表示第n张图像,∈表示学习率。二、基础特征提取步骤:利用训练好的卷积自编码器模型提取左右视点立体图像的基础特征。卷积自编码器训练好之后,单独抽出编码器部分,对图像库中所有图像进行处理,得到每张图像的左右图三通道基础特征和k={1,2,3}。三、深度特征提取步骤:利用提取出的基础特征,提取左右视点立体图像对应的深度特征。使用现有的深度匹配算法求左右图像的深度特征,这里采用的是junzhou在2015年“ieee宽带多媒体系统和广播国际会议(ieeeinternationalsymposiumonbroadbandmultimediasystemsandbroadcasting)”上的“三目立体视觉的深度图估计方法(adepthmapestimationapproachfortrinocularstereo)”一文中提出的算法,得到左右图像的深度特征k={l,r}。四、降维步骤:对提取的基础特征和深度特征进行降维。对得到的左右图像基础特征和深度特征使用最大池化算法,进一步去除冗余信息,并且把处理后的特征图叠加在一起,形成一个8通道的特征图k={1,2,...,8}。随后,我们把该特征图按行展开为一维向量。五、舒适度模型建立步骤:对得到的一维向量使用标准化方法进行标准化处理。数据库中所有的立体图像对都转化为了一维向量,最后我们使用svr回归方法建立立体图像舒适度质量评价模型。在本实施例中,利用live3dphasei、live3dphaseii、epfl与ieee-sa这四个立体图像库,计算所建立模型的srocc、lcc、rmse指标,并与其他在该库上的结果进行比较,我们同样给出了只使用深度特征、只使用基础特征和同时使用深度特征和基础特征的结果。具体通过以下方式实现:1)、在送入svr进行训练之前,我们首先对一维特征向量进行标准化处理。若向量v长为m,则vm表示在位置m处的值,因此在位置m处标准化后的值v′m可以表示如下:其中δ是一个很小的值,我们设置为10-8,来避免分母为0;2)、svr我们采用的是高斯(rbf)核函数。通过svr对提取的特征v与主观评价值进行回归建模,建立立体图像舒适度质量评价模型。表1所示在live3dphasei上的对比结果,我们同样给出了mittal等人在2014年“ieee图像处理中相关主题期刊(ieeetransactionsonimageprocessing)”上的“空域中的无监督图像质量评价(no-referenceimagequalityassessmentinthespatialdomain)”一文中,提出的brisque模型;chen等人在2013年“ieee图像处理中相关主题期刊(ieeetransactionsonimageprocessing)”上的“自然立体图像对的无参考质量评价(no-referencequalityassessmentofnaturalstereopairs)”一文中提出的方法;shao等人在2015年“ieee图像处理中相关主题期刊(ieeetransactionsonimageprocessing)”上的“通过学习双目感知特性来对立体图像进行全参考质量评估(full-referencequalityassessmentofstereoscopicimagesbylearningbinocularreceptivefieldproperties)”一文中提出的方法。表1rmseplccsroccbrisque6.73140.91190.9083chen7.24700.89500.8910shao5.81550.93500.9251基础特征4.91670.94650.9391深度特征12.39620.67960.6483基础+深度特征6.60740.91550.9047表2所示在live3dphaseii上的对比结果,我们同样给出了zhou等人在2014年“信号处理相关会议(ieeesignalprocessingletters)”上的“pmfs:用于立体图像质量评估的感知调制特征相似性度量(pmfs:aperceptualmodulatedfeaturesimilaritymetricforstereoscopicimagequalityassessment)”一文中,提出的基于单目和双目感知的iqa模型;以及表1中提到的chen和brisque方法在该数据库中的结果。表2rmseplccsroccbrisque7.44960.75130.7242chen5.10200.89500.8800zhou4.89400.90200.8920基础特征3.60100.94990.9462深度特征8.70270.63670.6326基础+深度特征4.29240.91420.9128表3所示在ieee-sa上的对比结果,我们同样给出了kim等人在2011年“ieee视频技术电路和系统传输相关会议(ieeetransactionsoncircuitsandsystemsforvideotechnology)”上的“立体图像的视觉疲劳预测(visualfatiguepredictionforstereoscopicimage)”一文中,基于视差分布和视觉舒适度的关系提出的预测模型;nojiri在2003年“国际光学和光子学会相关会议(internationalsocietyforopticsandphotonics)”上的“视差分布的测量及其在立体高清电视视觉舒适度分析中的应用(measurementofparallaxdistributionanditsapplicationtotheanalysisofvisualcomfortforstereoscopichdtv)”一文中提出的算法;wang在2016年“视觉通信和图像处理会议(visualcommunicationsandimageprocessing)”上的“基于深度学习的立体图像质量评价(stereoscopicimagesqualityassessmentbasedondeeplearning)”一文中提出的深度学习模型;j.park等人在2015年“ieee图像处理中相关主题期刊(ieeetransactionsonimageprocessing)”上的“3d视觉不适预测器:视差分析和神经活动统计(3dvisualdiscomfortpredictor:analysisofdisparityandneuralactivitystatistics)”一文中,提出的3d-vdp模型在该数据库中得到的结果。表3rmseplccsrocckim-0.70180.6151nojiri-0.68540.6108wang-0.82570.79023d-vdp0.83100.82480.7534基础特征0.48250.80220.7072深度特征0.44020.83940.7606基础+深度特征0.36930.88930.8312结合图4和图5所示,经过对比可以看出,本发明在立体图像舒适度预测上相比其他算法效果提升显著,可以更精确的预测立体图像舒适度情况。在上述一种基于卷积自编码器的立体图像舒适度质量评价方法的基础上,本发明还提供一种基于卷积自编码器的立体图像舒适度质量评价系统,包括:模型建立模块:建立卷积自编码器模型,并进行无监督学习训练;基础特征提取模块:利用训练好的卷积自编码器模型提取左右视点立体图像的基础特征;深度特征提取模块:利用提取出的基础特征,提取左右视点立体图像对应的深度特征;降维模块:对提取的基础特征和深度特征进行降维,将降维后的基础特征和深度特征拼接并展开为一维向量;舒适度模型建立模块:通过学习得到立体图像舒适度模型。本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1