一种基于特征融合和循环神经网络的无参考视频质量评价方法与流程

文档序号：19664760发布日期：2020-01-10 21:29阅读：362来源：国知局

本发涉及一种基于特征融合和循环神经网络的无参考视频质量评价方法，属于数字视频处理
技术领域：
。
背景技术：
：视频作为视觉信息的一种复杂来源,蕴含了大量的有价值信息。视频质量的好坏直接影响到人们的主观感受和信息量获取,并且可以反馈衡量视频压缩等其他视频任务，视频质量评价(videoqualityassessment,vqa)的研究也在近几年受到广泛的重视。视频质量评价可以分为主观评价方法和客观评价方法。主观评价由观察者对视频质量进行主观评分,但主观评价工作量大、耗时长,不方便；客观评价方法是由计算机根据一定算法计算得到视频的质量指标,根据评价时是否需要参考视频又可以分为全参考(fullreference,fr)、半参考(部分参考)(reducedreference,rr)和无参考(noreference,nr)等三类评价方法:(1)全参考视频质量评价方法。fr算法是指在给定理想视频作为参考视频的标准下，比较待评价视频与参考视频之间的差异，分析待评价视频的失真程度，从而得到待评价视频的质量评估。常见的fr方法的有：基于视频像素统计的视频质量评价(主要有峰值信噪比和均方误差)、基于深度学习的视频质量评价、基于结构信息的视频质量评价(主要为结构相似度)。fr算法是目前为止在客观视频质量评价中最可靠的方法。(2)半参考视频质量评价方法。rr算法是以提取参考视频的部分特征信息作为参考，对待评测视频进行比较分析，从而得到视频的质量评估。常见的rr算法主要为：基于原始视频特征方法和基于wavelet域统计模型的方法。(3)无参考视频质量评价方法。nr算法是指没有理想视频下，对待评测视频进行质量评估的方法。常用的nr算法主要为：基于自然场景统计的方法、基于深度学习的方法。针对视频在获取、处理、传输和记录的过程中，由于成像系统、处理方法、传输介质和记录设备等不完善，加之物体运动、噪声干扰等原因所造成的视频失真和视频降质的问题，往往要对一段失真视频的质量进行衡量，由失真视频直接得到视频的质量衡量而不使用失真视频的参考视频，称为无参考视频质量客观评价。cn201811071199.1公开了一种基于层级特征融合网络的无参考图像质量评价方法，主要解决现有技术精度低、速度慢的问题。其实现方案是：从mscoco数据集挑选参考图像并通过添加噪声建立污染图像数据库；对训练集图像和测试集图像同时进行去均值与裁剪；根据人类视觉系统从局部特征到全局语义的分层次处理机制，设计一个进行端到端联合优化的层级特征融合网络模型；利用训练集和测试集对层级特征融合网络模型进行训练；对待评测图像进行去均值与裁剪处理，将处理后的图像输入训练好的层级特征融合网络模型，获得图像质量预测分值；由此提高无参考质量评价的精度与速度，可用于图像筛选、压缩、视频质量监控。cn201810239888.2公开了一种基于卷积神经网络的全参考虚拟现实视频质量评价方法，包括：视频预处理：利用vr视频的左视图视频与右视图视频得到vr差分视频，从差分视频中均匀抽帧，给每一帧不重叠的切块，每一帧相同位置的视频块构成一个vr视频补丁；建立两个配置一样的卷积神经网络模型；训练卷积神经网络模型：利用梯度下降法，以vr视频补丁为输入，每个补丁配上原视频质量分数作为标签，分批次将其输入网络，经过多次迭代后网络各层权重得到充分优化，最终得到可用于提取虚拟现实视频特征的卷积神经网络模型；利用卷积神经网络提取特征；利用支持向量机得到局部分数，采用分数融合策略得到最终分数，提高客观评价方法准确率。本发明拟采用特征融合和循环神经网络对视频质量进行参考客观质量评价。技术实现要素：针对现有视频质量评价中无参考视频质量评价性能差的问题，本发明提出了一种无参考客观质量评价方法，本发明将视频划分为视频段，每一视频段通过一特征融合网络得到视频段的整体特征向量，随后将一段视频的所有视频段的特征向量送入一循环神经网络，得到视频的整体质量分数，完成质量评价过程。本发明采用的技术方案为一种基于特征融合和循环神经网络的无参考视频质量评价方法，包括以下步骤：步骤1，由视频得到视频段。对于一个视频，需要通过抽帧、裁剪、组合得到视频段，以作为vqa模型的输入。步骤1.1，抽取视频帧，以4为间隔选取视频帧，其他视频帧由于冗余直接丢弃；步骤1.2，裁剪视频帧，将每一视频帧通过划窗的方式裁剪为280×280的图像块，设一帧可裁m个图像块；步骤1.3，组合裁剪后的图像块，在视频序列中，随机取n个起点，沿时间方向在图像块的同一位置连续取t帧，t取8，得到一个t×280×280的视频段，此t×280×280的视频段作为vqa模型输入的最小单元，一段视频得到m×n段视频段。步骤2，搭建并训练特征融合网络。搭建并训练基于resnet50的特征融合网络，其输入为步骤1得到的视频段，输出为1024维的特征向量：步骤2.1，改造resnet50为特征融合网络，输入为[(batch-size×t)×channel×280×280]，在resnet50的第2个bottlenecklayer后,调整为[(batch-size×1)×(channel×t)×280×280]，实现特征融合；步骤2.2，准备训练数据，将步骤1生成的视频段作为此网络的输入，其标签为此整个视频的质量分数；步骤2.3，训练特征融合网络，将特征融合网络末尾加上全连接层输入维度为1，输入为视频段，输出的标签为质量分数，使用mseloss进行训练。步骤3，得到视频的特征向量表示。通过训练好的特征融合网络，对每一视频段生成一个1024维的特征向量，并进而组成视频特征。步骤3.1，对于训练好的特征融合网络，丢弃最后的全连接层，其输出为一1024维的向量；步骤3.2，使用步骤3.1得到的训练好的丢弃全连接层后的特征融合网络，生成每一个视频段的特征向量；步骤3.3，组合为视频的特征，沿着时间轴方向，对应切分的位置，得到m×n×1024的特征作为视频特征。步骤4，搭建并训练循环神经网络。搭建并训练lstm循环神经网络，输入为步骤3输出的某一切分位置的视频特征，即n×1024的视频特征，输出为视频的质量分数。步骤4.1，搭建lstm循环神经网络，网络包含2层lstm结构，第一层隐含层大小为2048，第二层隐含层大小为256，随后接一输出为1的全连接层；步骤4.2，整理训练数据，将一段视频的n段视频段的特征向量整理为n×1024作为循环神经网络的输入。步骤4.3，训练循环神经网络，使用视频质量分数作为标签，使用mseloss进行训练。步骤5，进行视频的质量评价。对一段视频进行切分、抽样、提取特征、质量评价。步骤5.1，按照步骤1的步骤对待测试视频进行切分成视频段；步骤5.2，使用步骤2训练好的特征融合网络对步骤5.1切好的视频段进行特征提取；步骤5.3，使用步骤4训练好的循环神经网络进行质量评价，一段视频得到了m个局部质量分数。步骤5.4，对这m个局部质量分数求平均，得到视频的整体质量分数。与现有技术相比，本发明具有以下优点：(1)现有的基于深度学习的vqa技术方法往往使用帧级网络，先对帧级进行质量评价，在根据每一帧的结果得到视频整体的质量分数。本发明使用的神经网络，直接以视频段作为输入，采用特征融合网络，并且使用循环神经网络融合视频段的特征。本发明这样的设计可以更好的提取视频帧直接的关系，从而更准确的得到视频整体的质量评价指标。(2)本发明使用的特征融合网络，相比于传统图像所用的神经网络，由于存在时间轴上特征融合的设计，可以更充分的提取视频帧间内容的相关性，网络得到的特征可以更好的代表视频整体的特性。(3)相比于传统视频任务使用的以帧级特征为输入的循环神经网络，本发明使用的循环神经网络输入为视频段的特征，这样可以使网络检测质量的范围更大，对于视频整体的质量评价更为精确。附图说明图1为本发明具体实施方式的流程图；图2为本发明特征融合网络和循环神经网络结构图；具体实施方式以下结合附图和实施例对本方法进行详细说明。实施方式。实施方式的流程图如图1所示，包括以下步骤：步骤s10，抽取裁剪视频段；步骤s20，搭建并训练特征融合网络；步骤s30，得到视频的特征向量表示；步骤s40，搭建并训练循环神经网络；步骤s50，对视频进行质量评价；实施方式的抽取裁剪视频段调整步骤s10还包括以下步骤：步骤s100，抽取视频帧，以等间隔选取视频帧，其他视频帧由于冗余直接丢弃；步骤s110，裁剪视频帧，将每一视频帧通过划窗的方式裁剪为图像块，设一帧可裁m个图像块；步骤s120，组合裁剪后的图像块，在视频序列中，随机取n个起点，沿时间方向在图像块的同一位置连续取t帧，得到一个的视频段，此视频段作为vqa模型输入的最小单元，一段视频可得到m×n段视频段。实施方式的搭建并训练特征融合网络调整步骤s20还包括以下步骤：步骤s200，改造resnet50为特征融合网络，实现特征融合；步骤s210，准备训练数据，为s10生成的视频段设置标签，其标签为此视频的质量分数；步骤s220，训练特征融合网络，将网络末尾加上全连接层输入维度为1，输入s210的视频段，输出的标签为质量分数，使用mseloss进行训练。实施方式的得到视频的特征向量表示调整步骤s30还包括以下步骤：步骤s300，对于训练好的特征融合网络，丢弃最后的全连接层，其输出为一1024维的向量；步骤s310，使用s300的融合网络，生成每一个视频段的特征向量；步骤s320，组合为视频的特征，沿着时间轴方向，对应切分的位置，得到m×n×1024的特征作为视频特征。实施方式的搭建并训练循环神经网络调整步骤s40还包括以下步骤：步骤s400，搭建lstm循环神经网络，网络包含2层lstm结构，第一层隐含层大小为2048，第二层隐含层大小为256，随后接一输出为1的全连接层；步骤s410，整理训练数据，将s320得到的n段视频段的特征向量整理为n×1024作为循环神经网络的输入；步骤s420，训练循环神经网络，使用视频质量分数作为标签，使用mseloss进行训练。实施方式的对视频进行质量评价调整步骤s50还包括以下步骤：步骤s500，按照步骤s10的步骤对待测试视频进行切分成视频段；步骤s510，使用步骤s20训练好的特征融合网络对步骤5.1切好的视频段进行特征提取；步骤s520，使用步骤s40训练好的循环神经网络进行质量评价，一段视频得到了m个局部质量分数；步骤s530，对这m个局部质量分数求平均，得到视频的整体质量分数。下面给出应用本发明的实验结果。表1展示了使用本发明在多种vqa数据库上的性能结果。(不加入预训练)表1本发明在多种vqa数据库测试结果数据库livecisqkonvid-1ksrcc0.7840.7510.762plcc0.7990.7790.784当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史萍;侯明;潘达;应泽峰;韩明良
技术所有人：中国传媒大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。